Historie vyhledávání

English version

Historie a vývoj fulltextového vyhledávání v bodech:

  • Seznam.cz je česká firma založená v roce 1996 jako klasický internetový katalog s několika kategoriemi. Kromě katalogu internetových stránek jsme tehdy nabízeli i přehled novinek na českém internetu a žebříček nejlepších českých internetových stránek.
  • V roce 1997 jsme spustili své vlastní fulltextové vyhledávání, které indexovalo 1,2 milionů stránek, pod názvem Kompas. Kompas uživatelům poprvé umožnil zadávat dotazy s českou diakritikou.
  • Po pár letech rozšiřování služeb je pro fulltextové vyhledávání zajímavý rok 2002, kdy jsme zkusili využívat služeb společnosti Google. Po krátké zkoušce jsme se ale rozhodli službu nevyužívat.
  • Vyzkoušeli jsme několik možností vyhledávání: Empyreum, Google, poté Jyxo. Nakonec jsme se ale v roce 2005 rozhodli pro vlastní vyhledávání, o jehož vývoj a spuštění se postaral čtyřčlenný tým. Vyhledávání využívalo databázi 30 milionů dokumentů jen v rámci českých webů a běželo na 14 serverech.
  • Rychlejší a lepší indexaci pomohla v roce 2007 nová verze robota SeznamBot/2.0, která již fungovala na několika MySQL databázích. Zároveň se tento rok stala architektura fulltextu škálovatelnou.
  • V roce 2008 jsme zavedli možnost přizpůsobení výsledků vyhledávání (SERP) potřebám zrakově postižených. Začali jsme také do hledání zpracovávat jiné formáty než klasické HTML stránky (například PDF, DOC apod.).
  • Od roku 2009 jsme pro sekci hledání „ve Křišťálová lupa za vyhledávánísvětě“ začali využívat výsledků vyhledávače Bing společnosti Microsoft. Zároveň se díky lepšímu způsobu pochopení dotazů mnohonásobně zvýšila relevance výsledků. Také díky tomu se nám podařilo umístit na prvním místě v kategorii Vyhledávače a databáze soutěže Křišťálová Lupa. V tomto roce byla také spuštěna nová verze tzv. screenshotátoru, který ke stránkám nalezeným ve vyhledávání dodává obrázky s náhledy.
  • S rostoucím počtem prohledávaných dokumentů a rozšiřujícími se funkcemi se zvyšovala i výpočetní náročnost. V roce 2010 mělo celé vyhledávání přes 100 serverů a samotný robot, který je jednou z komponent celého vyhledávání, běžel na desítkách serverů.
  • Velikým pokrokem bylo v roce 2011 nasazení nového robota SeznamBot/3.0, který přinesl přechod z několika MySQL databází na technologii Hadoop. Zároveň jsme z celé databáze stažených dokumentů začali dělat výběr těch nejlepších, které je možné zařadit mezi výsledky vyhledávání. Ve stejném roce jsme také testovali technologie společnosti Yandex a spustili jsme beta verzi vyhledávání ve videích. Spustili jsme také speciálně upravené vyhledávání ve volnočasových aktivitách.
  • Rok 2012 přinesl přechod k rozsáhlejšímu indexování cizojazyčných stránek. Počet prohledávaných dokumentů tak vzrostl ze 400 milionů na 700 milionů (robot sice zná dokumentů mnohem více, ale mezi výsledky se dostanou jen ty nejlepší).

Protože chceme, aby u nás uživatelé vždy našli to, co hledají, budeme vyhledávání i nadále rozvíjet a zlepšovat. Vývoj vyhledávání je dlouhá a nikdy nekončící cesta.

Další informace o historii celé firmy Seznam.cz naleznete na stránce O firmě.

vyvoj_poctu_dokumentu 2
Vývoj počtu dokumentů