canonical: Jak a kdy používat kanonické URL

29. června 2011 Robot Vyhledávání

Před časem jsme začali sledovat využívání kanonických linků a po zhodnocení byla jejich podpora přidána do nového robota. Uvedeme pár tipů, jak se canonical hodí použít a nepoužít, tak aby měly pro web pozitivní dopad a zabránilo se zbytečným chybám.

Cílem kanonizace URL na webu je zjednoznačnění struktury adres. Díky tomu se na serveru fulltextoví roboti méně ztrácí a vědí přesněji, která stránka je z pohledu webmastera ta důležitější. Velkou výhodou kanonických linků je jejich jednoduchá integrace využití jak ve statických tak i na dynamických webech.

Vhodné použití

Jak je to správně: máme web, který obsahuje nějaké seznamy. Typicky seznam prodejců nebo uživatelských hodnocení. Web je navržen tak, že při kliku na jednotlivé názvy sloupců se mění hodnota parametru sort v URL a současně se seřadí zobrazované data dle požadovaného sloupce. Ostatní se skryjí. V důsledku tedy vznikají z pohledu vyhledávačů duplicitní stránky:

example.com/produkt123
example.com/produkt123?sort=name
example.com/produkt123?sort=id
example.com/produkt123?sort=price

No a teď ten fígl: pokud do <head> uvedete, která stránka je ta nejsprávnější např.: <link rel=“canonical“ href=“http://www.example.com/produkt123″ />, tak tím jednoznačně řeknete robotovi, kterou podobu URL má ideálně do vyhledávání zařadit, a současně označujete její duplicity. Pro web je výhoda v lepším řízení a směrování robota po doméně.

Obdobná situace může nastat např. při směrování na domovské stránky webů – example.com/index.php místo na požadované example.com. Nicméně to jsou situace, které fulltexty bez větších problému zvládají.

Nevhodné použití

Příkladem chybného použití je canonical na redirektech. Tedy, cíl kanonických URL nemá být redirekt (je to podobné, jako když vás na úřadě pošlou k přepážce č. 5, která je zavřená s cedulkou „Obslouží vás u přepážky 105“). Cílová stránka tedy musí mít obsah, aby si robot mohl snadno ověřit podobnost původního a kanonického dokumentu.

Asi nejhorším použitím je směrování robota neakceptujícího cookie po navštívení kanonické URL zpět na původní „škaredou URL“. Tedy robot jde na URL A, tam zjistí, že kanonická podoba je URL B no a když na ni vleze, tak server zjistí, že cookie nejsou ze strany robota podporované a šupem ho pošle zpět na URL A. Krásné zacyklení, že;)

Další příklady použití kanonizace.

Případné zkušenosti a připomínky ke kanonizací můžete psát do diskuse pod článkem.

Sdílet na sítích

Zlepšení výběru stránek ke crawlování a indexaci

Tým Vyhledávání 4. července 2018 Robot Vyhledávání

Výběr stránek, které SeznamBot crawluje a indexuje, má podobu skórování všech stránek, které SeznamBot zná a jejich následného řazení podle hodnot skóre. V uplynulých týdnech jsme provedli úpravy tohoto skórování, které se projeví následujícími změnami při výběru dokumentů ke crawlování a indexaci. Lepší predikce kvality stránky podle URL – URL stránky je pro robota jeden ze …

Big Data Processing API „Euphoria“ publikujeme jako opensource

V posledních letech se množí technologie pro zpracování velkých dat, které přináší zajímavé možnosti využití. Ke zpracování velké dávky dat (batch) se přidaly i možnosti zpracování v reálném čase, kdy data vznikají (stream). Robot vyhledávače zpracovává miliardy uložených webových stránek a zároveň denně stahuje obsah stovek milionů URL z internetu. Vždy hledáme ty nejvhodnější technologie …

Robot rychleji následuje odkazy

Po vylepšeních v rychlosti Freshbota jsme se podívali i na rychlost v tzv. „velkém robotovi“. Ten na rozdíl od Freshbota prochází násobně větší objemy stránek. Robot nyní reaguje dříve na obsah stránky a nová stránka se dostane do indexu dvakrát rychleji. Doposud stránka procházela složitějším zpracováním. Kvůli závislostem trvalo i několik dní od stažení URL než z …

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.