Podpora sitemap.xml

SeznamBot v ostré verzi zpracovává sitemapy ve formátu XML

Do ostrého provozu byla nasazena podpora sitemap v XML formátu. Z těchto sitemap robot zatím vybírá prioritu stránek, která mu pomáhá v rozhodování, které URL si uživatel spíše přeje zaindexovat.

XML formát je kompatibilní s formátem používaným Googlem: http://www.sitemaps.org/protocol.php. Aby robot sitemapu správně našel a zpracoval, je vhodné mu říct, odkud ji má stahovat. K tomu je možné použít záznam v robots.txt, ve formátu:

Sitemap: http://moje.domena.cz/sitemap.xml

URL se sitemapou musí být v robots.txt absolutní. V případě, že záznam v robots.txt není, použije robot implicitně adresu /sitemap.xml z domény.

Pouze připomínáme, že veškeré priority ze sitemap.xml slouží pouze k rozhodování robota v rámci webu, nemají tedy žádný vliv na pořadí stránek ve výsledcích hledání, stejně jako nemá žádný význam nastavit prioritu všech stránek na 1 (aby priorita robotovi k něčemu byla měla by se u jednotlivých URL lišit).

  • Dan

    [1]Co si máme představit pod “Z těchto sitemap robot zatím vybírá prioritu stránek, která mu pomáhá v rozhodování, které URL si uživatel spíše přeje zaindexovat.”? Uživatel si většinou přeje zaindexovat vše, co je v sitemapě, nebo ne?

  • Sten

    [2]Dan: Uživatel si samozřejmě přeje, aby bylo zaindexováno všechno, ale pokud to nejde, tak by radši, aby se zaindexoval např. obsah, než jednotlivé články. Také to můžete brát jako pohled na to, co by se mělo zaindexovat dříve a co může počkat.

  • Dan

    [3]Sten: Ano, toto chápu a souhlasím s tím. Čili tu větu, kterou jsem zvýraznil, mám chápat tak, že stránky uvedené v sitemapě mají přednost před stránkami, o kterých se robot dozvěděl jinak?

  • Dan

    [4]Sten: Eh, omlouvám se, přečetl jsem si to ještě jednou a už je to jasnější. Aby měla sitemapa pro Seznam robota smysl, měla by obsahovat prioritu u jednotlivých položek.

  • [5]Doufam, ze nevadi, kdyz je sitemapa jako php skript (sitemap.php). Myslim, ze by nebylo spatne, kdyby robot rovnou zkousel i takoveto umisteni sitemapy.

  • [6]Jsem zvedavy, jak moc toto pomuze. Planujete v blizke dobe i podporu RSS, ktera bylo zmenina na prednasce Stepana?

  • WagoOn

    [7]Je mozno nejak zjistit, zda jiz robot sitemapu nasel? Co ping? Sitemapy jsou kompatibilni s googlem, nebo se jedna o standard sitemaps.org?

  • [8]Dundee: Jen to proboha ne. Stačí když zkouší jednu konkrétní adresu, už tak denně několik 404 z mnoha domén mě deptá, natož to ještě zvýšit na dvojnásobek.

  • Honza

    [9]Dundee: Sitemapa může být v libovolném skriptovacím jazyce, za předpokladu, že vrátí přípustný Content-Type (application/xml) a její URL bude v robots.txt.

  • Honza

    [10]Dundee: Na podpoře RSS v současné době usilovně pracujeme.

  • Honza

    [11]WagoOn: Zjistit jestli robot sitemapu našel je možné z logu webserveru :-). Sitemapy jsou kompatibilní s googlem i sitemaps.org, rozdíl je pouze v odlišném XML namespace, podporovány jsou obě možnosti.

  • 2ge

    [12]“V případě, že záznam v robots.txt není, použije robot implicitně adresu /sitemap.xml z domény.” – toto je nejaky standard, alebo si to seznam.cz vymyslel ? IMHO to standard ziaden nie je a urcite by sa to nemalo robit, na to predsa mame robots.txt – vyhodte to, cim skorej.

  • [13]Přemýšlím, kolik úsilí bude do budoucna stát udržování téhle fíčury. Obávám se, že moc. Myslím, že by byl dobrý nápad prohlásit podporu sitemaps za experimentální a nikoli za ostrou.

  • [14]Chcel by som podakovat tvorcom tohoto blogu ze ho maju a ze prinasaju prenas uzitocne informacie. Podporu sitemap vitam a skusim ju cim skor zapracovat aby seznam.cz vedel s nou este lepsie pracovat.

  • [15]Honza: Diky. Vse potrebne jsem splnil, tak jsem zvedav, jak se to promitne do indexace. Na to RSS se tesim, snad se tim konecne srovna rychlost indexovani novych clanku s Googlem…

  • dgx

    [16]Na Content-Type bych zas tak nebazíroval, tahle věc není v oficiálních propozicích Sitemaps zmíněna, natož požadována. Tedy pokud má být Seznam kompatibilní.

  • [17]Mě by zajímalo, jestli existuje nějaká možnost sdělit seznamu, že se sitemapa změnila, nebo jestli musím čekat až mě navštíví. A pak by mě zajímalo, jak si všímá hodnoty lastchange, jestli nebude stránky s nezměněnou lastchange date navštěvovat, nebo nějak méně často A pak ještě případně jestli jsou podporovány gzip sitemapy

  • [18]absolutně offtopic – jaksi vám tu nefunguje klikání na e-maily, vytvoří to adresu ve tvaru http://fulltext.sblog.cz/2007/11/07/URL_email_create_mailtomas@kapler.cz

  • [19]Mám tomu rozumět, že i bez záznamu v robot.txt robot sám hledá na webu sitemap?

  • [20]Tomáš Kapler: Podle selského rozumu proč by Seznambot navštěvoval stránku, kterou jste mu v sitemapě označil jako nezměněnou. Jen porovná datum stránky v indexu a v sitemapě a podle toho se zachová. Podle mě je to jediná užitečná věc na sitemapách :), tedy alespoň pro ušetření práce robota. Samozřejmě se ta sitemap musí tahat dostatečně často.

  • [21]Sitemap ušetří čas hlavně Seznamu – pokud najde “sajtmep”, pak projde strukturu dle “sajtmep” a už nemusí složitě parsírovat všechny stránky a vycucávat z ní odkazy. No a logicky to pomůže i majiteli stránek. Prostě zadá že úvodní stránku neaktualizuje tak často jako stránku s novinkama a referencema.

  • [22]Dobry den, mne by zajimalo, zda je seznam robot schopen a ochoten zpracovat vice radku sitemap v robots txt tedy příklad: Sitemap: http://www.example.com/map1.xml Sitemap: http://www.example.com/map2.xml Dále by mne zajímalo, jestli podporuje i čistě textový formát, kde jsou jen vypsané URL, tak jako to dělá google. Pokud má web kolem 200.000 stránek, tak už je režie na XML zbytečně vělká a stačilo by to jako seznam všech URL, které se na webu nacházejí.

  • [23]Mám měsíc starý web s asi 35 stránkami a ve vyhledávání site:domena jich je jen 8. Zajímalo by mě, podle čeho bot určuje, kolik stránek z webu zaindexuje? Zaindexuje všechny, když přidám Sitemap? Nebo ví o všech, ale ve výsledcích zobrazuje jen část?

  • [24]Predne diky za podporu sitemap. Skvele! Mam dva dotazy: 1) Podporuje Seznam i index sitemapu, tedy rozcestnik na jednotlive XML soubory? 2) “Sitemap: ” v robots.txt se hleda s ohledem na “User-agent: ” nebo globalne? Jde mi o to, ze mam vice jazyku, ze kterych je pro Seznam zajimava jen Cestina. Jestli tedy bude fungovat, kdyz Seznamu podstrcim pouze CZ sitemapu, pricemz pro “User-agent: *” bude stale index na vsechny XML.

  • [25]Berou se robot.txt (a tím i sitemap) i z domén 3. řádu?

  • [26]Robots.txt i sitemap.xml se bere na každé doméně ať je to blabol.cz nebo blabol.sh.cvut.cz. Index sitemap jsou podporovane. Sitemap se stahuje na začátku každé “návštěvy webu”, podobně jako robots.txt.

  • Honza

    [27]Jiří Herník, Lukas Nevosad: V robots.txt uvedené odkazy na sitemap respektují User-agent, a je tedy možné mít sitemapu pouze pro SeznamBota. Pokud je pro SeznamBota uvedeno více odkazů na sitemapu bere pouze poslední. Pokud je potřeba mít více samostatných souborů, použijte sitemap index.

  • Honza

    [28]noname: Gzip sitemapy budou podporovány ve velmi krátkém časovém horizontu.

  • [29]re: Radim Smička – Podle selského rozumu proč by Seznambot navštěvoval stránku, kterou jste mu v sitemapě označil jako nezměněnou no jednak vyhledavače a seznam zvlášť často nejednají podle selského rozumu ale podle nějakých definových pravidel a mě by zajímala ta pravidla A jednak to není úplně tak jasné – google sám stránky navštěvuje bez ohledu na to, co se tam napíše, možná ale méně častěji. Jsou mnohé RS, které neregistrují změny, ale píší tam datum založení příspěvku a podobně

  • [30]V sitemape je mozne uvest dobrovolnou polozku ktera urcuje kdy stranka byla naposledy zmenena. Pokud je datum a cas stejny, robot stranku nemusi indexovat (bylo by to zbytecne mrhani hw prostredky). Dalsi polozkou, jiz povinnou, je udaj o tom kdy se stranka meni. Pokud je uvedeno ze se nemeni vubec, robot ji vubec nemusi indexovat. Pokud se meni za tyden, robot k tomu prihledne pri sve indexaci a take k prioritam a hw moznostem. To je selskym rozumem podle me. Honza vsak v clanku uvadi, ze robot seznamu zatim jen zpracovava priority. Takze to jestli se stranka zmenila, nebo ne, prip. jak casto se meni, nevycte. Urcite to ale vycte ze samotne stranky pomoci hashe, nebo cim a pak takove stranky nebude samozrejme znovu ukladat a zpracovavat.

  • [31]Připravuje se i možnost odesílat sitemap Seznamu, resp. pingnout ho při změně?

  • Martin

    [33]Mame velky web s vysokym S-Rankem. Odkaz na sitemapu jsme pridali do robots.txt v minulem tydnu. Robot Seznamu u nas byl od te doby uz hodnekrat, ale ani jednou si sitemap soubor nestahnul. Pritom napr. robot live.com ho objevil prave z robots.txt jeste tentyz den. Funguje tedy opravdu tahle featura ? 🙂

  • Honza

    [34]Martin: Máte URL sitemapy uvedenu v absolutním tvaru? Tedy v souladu s předpisem ve tvaru http://jmeno.domeny.cz/cesta.xml? Pokud ano, robot by měl být schopen ji najít. Jak bylo zmíněno je také možné uvěst jednu cestu SeznamBotovi a další jinému botovi, rozhoduje User-agent zápis v robots.txt.

  • Martin

    [35]Zajímalo by mně, zda robot automaticky zkouší najít v kořeni webu stránku sitemap.xml, nebo zda je nutné ji zadat vyýhradně do robots.txt a druhý dotaz, zda je podporován sitemap index, nebo čistě jen sitemap.

  • Honza

    [36]Martin: /sitemap.xml se zkouší pouze pokud není sitemap záznam nalezen v robots.txt. Sitemap indexy podporovány jsou.

  • Honza

    [37]Martin: Pokud by problémy se stahováním sitemapy přetrvávaly, můžete mi napsat mail na jan -dot- lukavsky -at- firma -dot- seznam -dot- cz s konkrétním URL. Budeme se problémem zabývat.

  • Martin

    [38]Je to vyreseno. Chyba byla “na nasem prijimaci”. Omlouvam se. Kazdopadne diky za reakce

  • Jirka

    [39]Zdravim, muj dotaz asi nesouvisi primo s timto clankem a snad mi nekdo odpovi. V ramci jednoho projektu jsme na seznamu docili docela slusnych pozic a vse bylo dobre i po zmene robota. Ted nam ale v prubehu 14 dnu vypadla ze seznamu temer cela domena (zbylo asi 14 stranek) a vubec netusime proc. a) existuje sance zjistit proc, b) lze to nejakym zpusobem napravit (a nasledne urychlit indexaci pres sitemap). Samozrejme nemluvim o zadne osobni strance s nulovym indexovatelnym obsahem. Jde o naprosto regulerni stranky bez protipravniho nebo erotickeho obsahu. – Jinak helpdesk uplne mlci. Kdyby alespon napsali mate smulu, tohle neresime.

  • nofu

    [40]helpdesk je momentalne velmi pretizen, jednou za cas se prihodi neco co prinuti ve velmi kratkem casovem useku velke mnozstvi uzivatelu kontaktovat hd a tyto dotazy se potom resi i dlouho po tom, mezi nimi se prubezne resi i dotazy cerstve, nicmene trva nejaky cas nez se dostane na kazdy z nich, zadne dotazy se nemazou, odpovida se vsem(byt se spozdenim)

  • Bender

    [41]jé podívej se tady je lepší robot : http://www.homervsbender.com/?ida=2354

  • Tomas

    [42]Mozete toho svojho primitivneho robota naucit, aby sa nevracal 3x denne hladat sitemap.xml, ked mu uz 2 tyzdne posiela kazdy den chybu 404? tie maily o chybe 404 na sitemap.xml ma uz obtazuju, asi ich presmerujem na helpdesk seznamu, a mali by tak urobit vsetci 🙂 dakujem

  • Sten

    [43]Tomas: proč si necháváte posílat mejly o každé nenalezené stránce? Většinou stačí jen na tu, kde je Referer z vašeho webu (protože ostatní v naprosté většině případů není zajímavé). Náš robot hledá sitemap.xml pokaždé, když dostane skupinu URL z nějaké domény, a zkouší to, protože neví, jestli jste tam tu sitemapu už nedal. Můžete se také tohoto hlášení zbavit vytvořením prázdného souboru.

  • [44]sitemap jsem vyzkousel, jsem zvedav jak bude pracovat.. google funguje dobre

  • Noem

    [45]Tomas: Skoda, ze jste neuvedl adresu vasi stranky, poslal bych vam taky par mailu :).

  • [46]sitemap mam nasazenu na webu jiz delsi dobu, tak jsem zvedav take, jaky to bude mit dopad ;o)

  • [47]Sitemapu jsem na svem vetsim projektu použil hned jak ji seznam zacal podporovat…uz to bude pres 2 mesice: Google robot si na sitemapu chodi priblizne v inervalu 3 – 5 dni. Zaindexovane ma vsechny stranky z sitemapy(asi 98) Co se tyce seznam robota, je to trosku horsi: zaindexovano asi 70 stranek. Jen pro uplnost: kazda stranka je unikatni(titulky, obsah, zadne parametry…) Je nejaka moznost donutit robota seznamu k lepsi indexaci? Nebo musím pouze cekat jako dosud?

  • [48]Jak se dá zjistit, kolik stránek ze sitemaps.xml má daný server zindexováno? Díky.

  • [49]Škoda toho pomalého robota. Mám v jedné sitemap přes 3000 záznamů, google stránky zaindexoval ještě dříve, než jsem je nabídl v xml a seznam stále indexuje pouze asi 30 stránek.

  • [50]Taky si stýskám google zaindexovano 980 stránek a seznam po 3 týdnech 70. Asi 7 X jsem zkoušel přidat url na strankach seznamu ale žádný výsledek.

  • [51]Ahoj vsem, jen premyslim, proc je tady vyrceno tolik otazek, na ktere stejne nebude odpovezeno? 🙁

  • [52]Dobrý den, použití sitemap.xml mi přijde užitečné, ale uvítal bych někde na podpoře seznamu podrobnější nápovědu s ukázkou kódu (něco jako u zboží). Angličtinu ovládám minimálně a odkaz na sitemaps.org, kde je více možností zápisu mě moc nepomohl. Takhle musím doufat, že mám sitemap zpracovanou dobře.

  • [53]Soubor sitemap jsem na webu použil, ale Seznam stejně nezaindexoval všechny stránky v něm uvedené a to jich je jen pár. Asi bude lepší je přídavat ručně přes formulář…

  • [54]tuto podporu všichni dozajista uvítali a kdybyste ještě udělali nějaké webmaster utility jako jsou na google a msn.com byla by to vazne bomba

  • Kiki

    [55]Mohl by mi to někdo vysvětlit lidsky bez použotí slov URL a podobně?

  • [56]zkusím 🙂

  • alilab

    [57]Použila jsem na webu sitemap, ale rychlost indexování je stejná jako před použitím. Dá se tedy nějak zrychlit indexování stránek?

  • [58]Starší topic, ale přesto… 🙂 Plánuje nebo má seznam.cz správu pro webmastery, něco jako má google webmaster tools nebo yahoo site explorer kde je vidět, kolik stránek je zaindexovaných z jakého sitemapu apod.?

  • Josef

    [59]Použití sitemaps je velmi vychytaná věc, pokud se správně použije se správným robotem. Jeden z mých projektů má dynamický obsah a proto jsem nechal sitemap generovat dynamicky. Stránek je na site cca 250. Google si mapu stáhne asi 4x denně a pružně reaguje na změny. Seznam si mapu nestáhnul ještě ani jednou (mám udělanou notifikaci kdy a kdo si mapu stáhně) a za měsíc mám v jeho indexu 5 stránek. Nevím tedy, jak to seznam myslí, že sitemaps doporučuje, když za měsíc provozu si mapu nestáhl ani jednou.