Google robots.txt

Programovacie jazyky, rady, poradňa...
jorg22
Medium Professional
Medium Professional
Používateľov profilový obrázok
Príspevky: 1087
Registrovaný: 12 aug 2006, 20:39
Kontaktovať používateľa:

Google robots.txt

Príspevok od používateľa jorg22 »

Caute, zaujila by ma ci niekto z vas nema nastudovane preco a akym sposobom indexuje google stranky typu:
https://www.zlavomat.sk/voucher/bd06ac0 ... c02d96e492

Tieto stranky sa daju najst takto:

Kód: Vybrať všetko

site:zlavomat.sk inurl:/voucher
Pravdepodobne su vsetky tieto kupony uz vyexpirovane. Nerozumiem ale preco su zaindexovane ked robots.txt vyzera takto:
https://www.zlavomat.sk/robots.txt

Kód: Vybrať všetko

User-agent: *
Disallow: /prihlasenie
Disallow: /odhlasenie
Disallow: /partner/prihlasenie
Disallow: /partner/odhlasenie
Disallow: /zobrazit-ako-na-pc
Disallow: /zobrazit-zjednodusene
Disallow: /*?*razeni=*
Disallow: /*?*fid=*
Disallow: /*?*do=*
Disallow: /*?*backlink=*
Disallow: /banner/
Disallow: /kosik
Disallow: /kosik/*
Disallow: /nahled/
Disallow: /voucher/

Sitemap: https://www.zlavomat.sk/sitemap.xml
Hlavne ma zaujima ako sa k tymto linkom google dostane. Nemyslim si ze tie linky su zverejnene niekde kde na nich google crawler natrafi. Skusa to brute force metodou?
To sa mi zda malo pravdepodobne lebo moznych kombinacii je extremne vela na brute force metodu.

Jedna moja teoria ze tie linky sa dostali do google databazi vdaka uzivatelom s nejakym pluginom, ale to sa mi zda ako porusovanie sukromia zo strany pluginu.
Michaelo
Hardcore addict
Hardcore addict
Používateľov profilový obrázok
Príspevky: 6177
Registrovaný: 16 júl 2008, 20:29
Bydlisko: Pri PC
Kontaktovať používateľa:

Re: Google robots.txt

Príspevok od používateľa Michaelo »

Uplne staci pouzivat google chrome. Robim web na ktory nie je nikde ziadny link, nikdy nebol zverejneny, viem o nom len ja a clovek komu ho robim a uz po mesiaci sa dal najst na googli :D

Takze si myslim ze oni vyuzivaju samotne adresy co zadavas do googlu a ak dany web nemaju indexovany, hned tam leti ich crawler. Taktiez nezabudaj na gmail, ak ti pride link priamo na voucher cez gmail, tiez to indexuju. Google vie vsetko.
*****HERO*****
Guru wannabe
Guru wannabe
Používateľov profilový obrázok
Príspevky: 2446
Registrovaný: 08 máj 2006, 1:34

Re: Google robots.txt

Príspevok od používateľa *****HERO***** »

robots.txt nezakazuje search enginom danu linku indexovat, len ju zakaze crawlovat (nacitat meta info). jedine co o danej linke "vie" (rozumej zobrazuje) je to, ze existuje, lebo na nu nasiel pravdepodobne referenciu z inej sajtky. ak ma niekto napr na ten voucher odkaz na svojom osobnom webe a zaroven nema parameter rel="nofollow", zaindexuje si ju.
jorg22
Medium Professional
Medium Professional
Používateľov profilový obrázok
Príspevky: 1087
Registrovaný: 12 aug 2006, 20:39
Kontaktovať používateľa:

Re: Google robots.txt

Príspevok od používateľa jorg22 »

Nemyslim si ze to mozu. Ten web co si robil mohol zaindexovat vdaka tomu ze sa zaregistrovala domena a vsetky nazvy existujucich domen su verejne pristupne na internete.

//autoeditácia príspevku (11 Máj 2015, 23:32)
*****HERO***** napísal:robots.txt nezakazuje search enginom danu linku indexovat, len ju zakaze crawlovat (nacitat meta info), cize jedine co vie je to, ze taka linka existuje. cize ak ma niekto na ten voucher odkaz na svojom osobnom webe a zaroven nema parameter rel="nofollow", zaindexuje si ju.
Ak uz tolko vela voucherov niekto zverejnil na svojom osobnom webe, tak aspon niektore by sa dali spetne vystopovat ze odkial pochadzaju ale ja som nic nenasiel. Ukaz mi z ktorych webov su tie linky?
*****HERO*****
Guru wannabe
Guru wannabe
Používateľov profilový obrázok
Príspevky: 2446
Registrovaný: 08 máj 2006, 1:34

Re: Google robots.txt

Príspevok od používateľa *****HERO***** »

ved tvoj nazor nie je dolezity, tak to proste funguje a treba sa tym riadit :) robots.txt nie je ziadny firewall, je to len obycajny textovy subor ktory search enginy mozu alebo ani vobec nemusia brat do uvahy.

https://support.google.com/webmasters/a ... ic=6061961
Your robots.txt directives can’t prevent references to your URLs from other sites
While Google won't crawl or index the content blocked by robots.txt, we might still find and index a disallowed URL from other places on the web. As a result, the URL address and, potentially, other publicly available information such as anchor text in links to the site can still appear in Google search results. You can stop your URL from appearing in Google Search results completely by using your robots.txt in combination with other URL blocking methods, such as password-protecting the files on your server, or inserting indexing directive meta tags into your HTML.
Ak uz tolko vela voucherov niekto zverejnil na svojom osobnom webe, tak aspon niektore by sa dali spetne vystopovat ze odkial pochadzaju ale ja som nic nenasiel. Ukaz mi z ktorych webov su tie linky?
who knows .. kludne v tom mozu byt zapletene aj ine search enginy, ktore sa robots.txt neriadia .. tie si to ulozia niekam ku sebe, google to najde a koniec srandy, linka vystopovana a pred internetom ju uz neuchrani nic .. alebo kludne to moze odchytavat aj ten Chrome, ved tam sa kvoli autocompletu musi posielat kazda zmena URL v address bare

kazdopadne nie je to neriesitelny problem, google ma nejake instituty na manualne odstranovanie indexnutych liniek, pogoogli
jorg22
Medium Professional
Medium Professional
Používateľov profilový obrázok
Príspevky: 1087
Registrovaný: 12 aug 2006, 20:39
Kontaktovať používateľa:

Re: Google robots.txt

Príspevok od používateľa jorg22 »

Tak robots.txt uz rozumiem ze nezabrani googlu zaindexovat stranku ale len jej obsah.

Ale stale je tu otazka ako sa tie linky dostali do google databazi. Urcite si ludia nedavaju voucheri na svoje osobne stranky a ak by uz bol niekto tak blby tak urcite tych ludi by nebolo az tak vela kolko voucherov sa tam da najst.

Co viem urcite je ze google naplna svoju databazu google botmi. Zistil som tiez ze ty boti skusaju aj nahodne URL. Len na takuto URL je problem prist obycajnym skusanim.

A co sa tyka google chromu tak tie adresy co pises do address baru si google zaindexovat nemoze. V podmienkach pri instalacii prehliadaca to nieje cize to robit nemozu a ani nerobia kedze taketo nieco by sa hned riesilo verejne.
Michaelo
Hardcore addict
Hardcore addict
Používateľov profilový obrázok
Príspevky: 6177
Registrovaný: 16 júl 2008, 20:29
Bydlisko: Pri PC
Kontaktovať používateľa:

Re: Google robots.txt

Príspevok od používateľa Michaelo »

jorg22 napísal:Nemyslim si ze to mozu. Ten web co si robil mohol zaindexovat vdaka tomu ze sa zaregistrovala domena a vsetky nazvy existujucich domen su verejne pristupne na internete.
Blbost, je to na subdomene, google sa k nemu nemal ako dostat, nemam tam ani google analytics ani nic podobne. Jedine spojitko s googlom je Google Chrome.

Ps.: To ze tam nieco nieje neznamena ze to robit nemozu alebo nerobia. je to ich produkt, v klude si to mozu robit. Nerobili by to iba ak by to mali niekde jasne napisane, co nemaju.
Mas to iste ako facebook s prispevkami, aj ked ho neodosles, dany post je cez ajax po kazdej zmene posielany do DB facebooku. Ci to mazu alebo nie je jedno, v klude si to mozu ukladat a pouzivat na cielenie reklamy a pod. Bacha na taketo veci.
jorg22
Medium Professional
Medium Professional
Používateľov profilový obrázok
Príspevky: 1087
Registrovaný: 12 aug 2006, 20:39
Kontaktovať používateľa:

Re: Google robots.txt

Príspevok od používateľa jorg22 »

Nehovorim ze to nieje mozne ale ze sa mi to nezda. Lebo je vela sluzieb kde ti vygeneruju unikatny link. Cize google ti nemoze ukradnut nieco za co si si zaplatil a poskytnut to inym uzivatelom. To ze to urobil na zlavomate si mislim ze je nejaka nahoda a zaujima ma ako tato nahoda mohla vzniknut.
audiotrack
VIP
VIP
Používateľov profilový obrázok
Príspevky: 25958
Registrovaný: 09 sep 2005, 18:39
Kontaktovať používateľa:

Re: Google robots.txt

Príspevok od používateľa audiotrack »

riešil by som to cez meta v konkrétnej stránke: http://en.wikipedia.org/wiki/Noindex alebo ich natvrdo bloknúť cez .htaccess
na robots.txt by som sa nespoliehal, neviem či to niektorý crawler vôbec ešte používa
Fabo
Hardcore addict
Hardcore addict
Používateľov profilový obrázok
Príspevky: 6810
Registrovaný: 16 nov 2007, 17:23
Bydlisko: 's Chravenhache
Kontaktovať používateľa:

Re: Google robots.txt

Príspevok od používateľa Fabo »

Michaelo napísal:
No DNS zaznam tam niekde bude... ak sa spropagoval na googloj DNS server?
Michaelo
Hardcore addict
Hardcore addict
Používateľov profilový obrázok
Príspevky: 6177
Registrovaný: 16 júl 2008, 20:29
Bydlisko: Pri PC
Kontaktovať používateľa:

Re: Google robots.txt

Príspevok od používateľa Michaelo »

Preco by tam bol DNS zaznam na sub domenu, ked vsetky sub domeny ta hadzu na tu istu IP (rovnaku ako hlavna)?
Napísať odpoveď