Nová implementace rychloobrátkového robota

V červnu jsme spustili nového rychloobrátkového robota, tzv. FreshBota. Ten má za úkol navštěvovat stránky a RSS zdroje, kde se objevuje nový zajímavý obsah, zejména novinové články, a ukládat je k nám do databáze, v níž se vyhledávají dotazy uživatelů. Není to úloha pro klasického „velkého“ SeznamBota, který denně navštíví stovky milionů stránek, protože cesta takového množství stránek do indexu může po stažení trvat i více než dva dny. Proto FreshBot navštěvuje pravidelně jen vybrané zdroje, které generují nový obsah, jenž je zajímavý pro uživatele hledání.

Dříve měl FreshBot ve své databázi okolo tří tisíc zdrojů, z nichž každou minutu stahoval několik desítek nejzajímavějších. Zbytek stahoval jednou za deset minut, až za půl hodiny, podle kvality zdroje. Protože jsme chtěli, aby se do hledání nové stránky dostávaly rychleji a z mnohem více zdrojů, museli jsme tuto komponentu postavit od základů znovu.

Nový FreshBot využívá technologii, která zvládne po přidělení větší výpočetní kapacity zpracovávat výrazně vyšší objem dat. Tato nově vyvinutá technologie je od začátku navržená tak, aby bylo možné efektivně škálovat jak rychlé streamové zpracování dat, tak velké dávkové objemy dat, ale zároveň mezi oběma způsoby zpracování sdílet kód. Díky tomu bude možné postavit FreshBota i velkého SeznamBota na stejném technologickém podvozku.

V současné době jsou spuštěné obě verze FreshBota zároveň. Do konce září ale chceme odladit všechny známé nedostatky a nechat v provozu jen novou verzi, která už teď dosahuje s novou technologií lepších výsledků, než původní FreshBot. Například doba mezi vydáním článku na Novinky.cz a jeho stažením a odesláním do indexu se zkracuje pod minutu. Když připočteme dobu zařazování stránky do indexu, vychází, že článek bude možné v seznamáckém hledání najít do pěti minut od jeho vydání. Rychlost zpracování i počet stahovaných zdrojů chceme dále zvyšovat. To přinese do hledání rychleji větší množství nově vzniklých stránek.

  • Pingback: Znáte Seznam FreshBota? | 404M.COM()

  • A budeme muset odkazy na sitemapy furt dávat do robotů nebo jak to teď máte? Protože když nedělám „shit link web“, tak sem holt u vás trochu nucka, i když třeba klient patří mezi top crafters. Pls Sezname, zkus to nějak zajistit.

    • Pzn.: dělám jen on-page seo.

    • A preferovaná metoda je prosím jaká? Udělat webmaster tools? Nebo se to robot dozvídá nějak jinak?

  • Zajímalo by mě, podle čeho jsou ty „vybrané zdroje“ vybírány.. 🙂

    • Martin Kirschner

      „Vybrané zdroje“ jsou vybírané podle podobných signálů, jako používá velký robot pro výběr stránek ke stažení do své databáze. Postupně chceme ale výběrovou funkci vylepšovat tak, aby ještě víc preferovala zdroje, které publikují nové unikátní a populární články.

  • Honza

    Zdravím, výsledky vyhledávání nefungují vůbec dobře. Např. jak je možné, že na dotaz „Půjčovna dodávek Praha“ vypadává na 1. místě článek “ Život v uprchlickém táboře Zaatarí v Jordánsku: obchody, škola …“, který rozhodně není o žádné půjčovně? Naprosto špatně řazené výsledky, pokud bude seznam robot fungovat takto, tak brzy bye bye sezname.

    http://search.seznam.cz/?q=p%C5%AFj%C4%8Dovna+dod%C3%A1vek+praha&sId=97liXD4oUs25OpAcV93L&sourceid=top&sgId=zj97XBIV_x4buV7jx0x0khwokSLiznZiknLbYGwfTw%3D%3D&oq=p%C5%AFj%C4%8Dovna+dod%C3%A1vek+praha&aq=-1&su=e

    • Fresh robot super, ale chtělo by to zapracovat také na vlastním algoritmu a rychlejší indexaci stránek provozovaných běžnými smrtelníky. Zajímalo by mě jak je možné že vložím stránku do vašeho vkladače stránek a podstránka další den vypadne z indexu?

      • Už by měla být nová verze robota a s tím ručním přidáním stránky do vyhledávače je to těžké, taky s tím mám občas problémy.

  • Honza

    Chtěl jsem říct, že to vypadává na 1. straně, ne 1. místě.

  • Martin

    Souvisí nějak Váš freshbot s funkcí vyhledávacího formuláře ? Opakovaně se nám teď děje, že ručně přidáme stránku přes formulář, do hodiny dvou je v indexu a k nalezení, a za další den dva z indexu prostě zmizí

    • Martin Kirschner

      Dobrý den, freshbot s tímto jevem nesouvisí. Rozhodování o zachování stránky v indexu má na starosti jiný algoritmus. Stává se, že když je stránka nová, dostane v indexu šanci, ale později může na úkor jiné stránky z indexu vypadnout. Výběr správných stránek do indexu je jedna z úloh, na které pracujeme průběžně. Je to složitá problematika, takže jsou v aktuálním řešení ještě rezervy. Postupně se chování indexu bude zlepšovat.

      • Martin

        Děkuji za odpověď. Má smysl se pak pokusit stránku znovu přes formulář přidávat ? My samozřejmě nekontrolujeme každou stránku našeho webu, ale sem tam narazíme na stránku, kterou vnímáme jako obsahově bohatou – jak na text tak na fotky – a v indexu už není

  • Pingback: Úprava Freshbota | Změny ve vyhledávačích()

  • Uplne presne jako amater nechapu oc je rec. Tzn tento robot neprojizdi vsechny weby ale jen vybrane? Jak pridat svuj web?

    • Martin Kirschner

      Fulltextový robot SeznamBot spravuje databázi stránek vyhledávače (stažených je 1.5 miliardy). Výběr dokumentů do této databáze je automatický, takže prochází všechny weby co může. Spravování takto velké databáze trvá relativně dlouho, takže kromě SeznamBota prochází internet i druhý robot, FreshBot, který spravuje menší databázi (ze které jdou dokumenty také do hledání). FreshBot obchází RSS feedy a webové stránky, kde se objevují odkazy na nově vzniklé zajímavé stránky a ty stahuje. FreshBot tedy nechodí na úplně všechny weby, jen na ty, kde předpokládá výskyt nového obsahu.

  • Pingback: Nasazení Freshbota Mach II | Blog fulltextového týmu()

  • Pingback: Big Data Processing API “Euphoria” publikujeme jako opensource – Blog Seznam.cz Vyhledávání()