Seznam.cz hledání jede na Steroidech

V článku o zvětšení velikosti databáze robota jsme objasnili, že vyhledávač pracuje se dvěma databázemi – jednu obsluhuje robot a ve druhé se hledá. Databázi robota jsme zvětšili v průběhu léta a na podzim jsme plánovali pokračovat databází hledání, tzv. indexem. Ten naposledy rostl v roce 2012, a to z 500 milionů na 700 milionů internetových stránek.

Od té doby se ale výrazně rozrostlo množství informací na internetu, které lidé potřebují najít. Abychom měli i do budoucna dostatečnou rezervu pro jejich doplňování, rozhodli jsme se index v roce 2016 navýšit. Zároveň s tím jsme museli zapojit také stovky nových serverů a dohlédnout na to, aby hledací technologie dobře škálovaly i při výrazně větším objemu obsluhovaných dat.

A co ty steroidy

Letošní přidání stránek do hledání je z pohledu vyhledávače natolik zásadní, že mu interně říkáme Steroid. Jednotlivá zvětšování, nebo jinak podávání Steroidů, jsme naplánovali ve vlnách. Nejprve jsme letos v říjnu přidali 175 milionů webových stránek, což znamenalo navýšení o 25 %.

K naší radosti můžeme oznámit, že Steroidy zabraly. Hledání na Seznamu teď při každém dotazu projde 1,2 miliardy stránek. Celkem jsme letos databázi hledání zvětšili o 500 milionů stránek, takže oproti stavu před čtyřmi lety narostla o více než 70 %.

 

Graf velikosti indexu search.seznam.cz v čase
Velikost indexu search.seznam.cz v čase

Při zvětšování databáze jsme brali ohled na to, že Seznam je tu zejména pro česky mluvící lidi. Proto jsme přidali hlavně české stránky (rostly z 360 na 700 milionů). Dalším nejvíc rostoucím jazykem byla angličtina (z 230 na 300 milionů). Přibližný počet prohledávaných stránek z konkrétních domén je možné zjistit pomocí operátoru site.

Věříme, že díky razantnímu zvětšení databáze budou lidé ještě snáze získávat přesně takové informace, které potřebují.