Nová verze vyhledávání – nasazeno do provozu 16.9.2010

17. srpna 2010

Hlavní změnou je jiný způsob uložení slov v databázi (indexu) hledání.

Na našem obvyklém testovacím místě searchtest.seznam.cz jsme spustili nově připravovanou verzi našeho fulltextového vyhledávání. Ačkoliv byla změna tentokrát cílená hlavně na změnu technologie a předpokládali jsme, že se na výsledcích tolik neprojeví, tak se na některých projevila. Nebylo to ale cílem.

Co bylo tedy předmětem změny?

Dříve jsme měli v databázi uložená tzv. „lemmata“ – tj. základní tvar každého zaindexovaného slova. Výhodou bylo jednodušší vyhodnocování dotazů, protože se pro každé slovo hledalo jedno lemma a ne množství různých tvarů. Toto byla paradoxně i největší nevýhoda – nebylo možné rozlišovat tvary jednoho slova, což se zvláště negativně projevovalo u slov jejichž některý tvar kolidoval s jiným dotazem.

Nové zpracování oproti tomu ukládá do databáze všechna slova v takovém tvaru, tak jak se přesně vyskytují na stránce a následně pak rozšiřuje slova dotazu o možné tvary. Vyhodnocení je o něco náročnější, ale umožňuje řídit jak se které slovo má přesně vyhledat.

Co je vidět na searchtestu?

Databáze hledání, která je vidět na searchtestu, vznikla konverzí z produkční databáze (cca z konce června 2010). Konverze znamená, že aktuální test kopie databáze si ssebou stále nese staré nešvary a pro projevení všech změn bude potřeba reindexovat všechny stránky.

Pokud se vše bude vyvíjet dle očekávání, tak by se nová verze mohla dostat do produkce přibližně na konci prázdnin.

Prosím, pokud byste narazili na dotaz, pro který se mezi starou a novou verzí neúměrně zhoršily výsledky, napište ho do diskuze pod článkem spolu s komentářem co je nyní špatně a dříve bylo lepší. *Předem díky*

V návaznosti na comment [35] jsem se rozhodl sem psát ještě updaty (někde se můžou lehce změnitit výsledky):

  • 18.8. 18h – drobný update kvůli „školka brno“
  • 20.8. 15h – velmi minimální update „kladno maraton“
  • 1.9. odpoledne – drobný update „hypoteka“
  • 16.9. 12:30 – nasazení nové verze hledáni do ostrého provozu

Ještě jednou děkujeme za podnětné příspěvky a nápady.

Sdílet na sítích