Změna User-Agent ze SeznamBot na Mozilla

Robot (crawler) našeho fulltextového vyhledávače se bude webserverům nově hlásit jako “Mozilla” a nikoliv jako “SeznamBot”. IP adresy a reakce na robots.txt se nezmění.

I když dřevní doby internetu, kdy weby zkoumaly User-Agent hlavičku čistě proto, aby mohly uživateli ohlásit, že jeho browser není podporován :-), už jsou asi dávno pryč, tak weby, které vracejí odlišné contenty pro různé nastavení User-Agenta stále nevymizely.  V moderní době se ale stává, že weby občas pro různé hodnoty User-Agenta vracejí jiné jazykové verze, redirectují na jednodušší verze stránek, přidávají do odkazů různé pomocné parametry nebo prostě nějak manipulují s obsahem stránky.

I když je vše v dobré víře, tak důsledkem je, že crawler vidí jiný obsah stránky než uživatel, což nám při zpracování stránek moc nepomáhá a většinou to má negativní dopad na kvalitu výsledků. Abychom se s tím mohli vypořádat, změníme User-Agenta na obvyklou generickou hodnotu “Mozilla/5.0 (compatabile; …)”. Stejným způsobem to dělá většina browserů i jiných crawlerů.

Současný/dosluhující User-Agent string:

User-Agent: SeznamBot/3.0 (+http://fulltext.sblog.cz/)

Nový User-Agent string, který se bude používat od února 2014:

User-Agent: Mozilla/5.0 (compatible; SeznamBot/3.2; +http://fulltext.sblog.cz/)

Co se tedy přesně změní?

Změní se pouze User-Agent string odesílaný v HTTP requestu na webserver. V rámci celého User-Agent stringu bude někde ale SeznamBot zmíněný, takže např. pro účely statistik půjde jeho návštěvu detekovat.

Reakce SeznamBota na specifické nastavení v robots.txt zůstane beze změny — stále se bude hledat sekce “SeznamBot” (v robots.txt lze specifikovat různá pravidla pro různé roboty). Dále se nezmění ani IP adresy, ze kterých robot chodí i když detekovat návštěvu podle konkrétních adres nelze doporučit, protože se můžou v čase měnit.

Změna pravděpodobně nastane 3. února 2014 během dne.

  • Vlk se nažere a koza zůstane celá – a ještě porodí kůzlátka. Namísto, aby se daná doména dostala na index, že má doživotní BAN za podvod, a aby si administrátoři Seznamu případně dohlédli i na tvůrce/provozovatele webu, tak jim vesele do světa vytroubí, “ve stringu bude stále někde ‘SeznamBoot’, takže si jen upravte detekční část kódu a vesele podvádějte dál!.
    Otázka zní: Mylý Sezname, myslíš si, že se tím něco rapidně změní? Myslíš si, že ti podvodnější z těch podvodníků si to prostě nebudou přizpůsobovat?…

    • *milý Sezname…

      • Už vidím tu reakci, že tohle admini nemohou hlídat – já vím, mají víc věcí na praci, než se šťourat v tom bordelu, co jim někdo předhodí, ale jistě mají nějaký index,, který mohou POROVNAT s jiným indexem (=za robotem půjde anonym a bude indexovat totéž, pak se jen porovná, jestli je to stejný a rozdíly se vyhodí k manuální kontrole….) A nemusí to dělat na 100% indexovaného obsahu, bude stačit pár zajímavých adres na pár zajímavých KW, které se umísťují na zajímavých pozicích..

    • solamyl

      Toto opatření se ani tak netýkalo zabránění podvodům (to spadá do kompetence jiného týmu), ale má řešit spíš to, že někdo v dobré víře udělal nějakou reakci na User-Agenta, ale nám to moc při stahování stránek neprospívá 🙁

      Například facebook.com začal nedávno vracet anglickou verzi stránek, pokud useragent není mozilla. Také jsme dřív zaznamenali nějaký webový framework, který při substringu “bot” v UA měnil odkazy nebo někam redirektoval, teď si přesně nepamatuju. Příkladů během času jsem viděl mnoho.

      • Tak teď, i díky úpravě původního textu, to už dává smysl rozumný a tedy veškeré moje předchozí komentáře jsou bezpředmětné…

      • Soustruh

        Tak zrovna ten problém se substringem „bot“ tahle úprava nevyřeší… 🙂

        • solamyl

          Nevim jestli jsem pochopil správně comment, ale většina webů, pokud provádí detekci podle useragenta, tak to provádí z té první “hlavní” hodnoty. Že je zbytek stringu v závorkách někdo obsahuje slovo “bot” většinou nevadí – teda přesněji, nevšiml jsem si nikdy že by to mělo význam.

  • Jen pro zajímavost, vrací se seznambot či jiný bot, na stránku otestovat zdali mu někdo nepodvrhnul jiný obsah než se na stránce skutečně nachází. Tedy obranu proti black hat – cloakingu? Anebo se ro řeší nějak manuálně?

    • solamyl

      Bohužel toto je příliš konkrétní dotaz, a i když bych velice rád na něj odpověděl, protože je to vývojářsky zajímavé, tak nemůžu, protože by odpověď mohla být zneužita některými lumpy s nečistými úmysly 😉

  • Jaký engine (ie x / ff / chrome) se používá pro dělání screenshotu? Narážím na systémy, které podle user agenta posílají jiné CSS.

    • solamyl

      Pro tvorbu náhledů se aktuálně používá nějaká starší Mozilla (3.5 nebo 3.6) a nějaký novější WebKit (verzi nevim z hlavy).

  • Dotaz co seznam a https://developers.google.com/webmasters/smartphone-sites/details přesně ji Dynamically serving different HTML on the same URL ? Budete tohle podporovat, nebo je to cloaking?

    • solamyl

      I když nelze určit, kde přesně leží hranice mezi responzivním webem a cloakovanou stránkou (je to spojitý přechod), tak si myslím že systém je nastavený tak, aby responzivní weby nespadly do škatulky “cloaking”.
      V seznam.cz už se také také nějakou dobu slučují starší desktopové a mobilní webovky do jedné responzivní, takže osobně myslím, že výroby respozivních webů se není potřeba bát.

  • Vyhledávání z Bingu a Bot s jménem Mozilla, jde mi hlava kolem.