Hledání slov obsahujících znaky +, §, &, atd.

Dnes byl nasazen nový tokenizátor, který dovoluje hledat slova jako c++, c#, c&a, L’Oreal a pod.

V diskuzích na zdejším blogu několikrát padlo, že nevyhledáváme správně dotazy obsahující slova jako c++, paragraf, apod.


Obrázek zdroj austinlinks.com

Dnes jsme nasadili úpravu zpracování textu, která by toto měla napravit. Jedná se vylepšený tokenizátor, který dokáže v textu a v dotazech identifikovat některé obvyklé vzory slov obsahující znaky +, &, apostrof, #, §, tečka (které by se jinak považovaly za mezeru) a zacházet s nimi jako s jedním slovem.

Některé příklady:

  • c++; dříve se hledalo jen samotné „c“
  • § 200; dříve s hledalo jen 200
  • m&t; dříve se hledalo jako dvě rozdělená slova

Plný přínos bude mít tato feature během 2-3 týdnů, až se přeindexuje většina stránek, které dotčená slova obsahují. Pokud chcete srovnávat, tak na searchtest.seznam.cz se používá ještě stará tokenizace, v produkci pak nová.

  • prvni

    [1]Drzim palce at to bezi…

  • me

    [2]Myslím si, že spousta lidí by uvítala, kdybyste místo těchto píčovin řešili základní problémy. Viz předchozí diskuse.

  • [3]To budou mít v C&A radost. Konečně je někdo na Seznamu najde:-) Dívám se, že se taky po dvou týdnech updatovala databáze = byly přidány nové stránky a výrazně se změnilo pořadí v SERP. Aspoň že něco, přesto, nešlo by to dělat častěji?

  • [4]me: a jak ty můžeš vědět jestli řešej jen tohle? Přece tam mají ne team, ale teamy lidí a věřím, že na tich základních problémech pracují taky, což jim asi moc nejde vyřešit. Navíc, bez multi-taskingu zůstaneš o krok vzadu. Jinak ten nový tokanizátor je docela užitečný, když bude někdo hledat zákoník, tak už mu to alespoň zobrazí něco relevantního.

  • [5]To je dobrý krok, tohle jsem na Seznamu hodně postrádal, jen tak dál

  • xDexter

    [6]C++ jsem zkoušel vyhledávat na seznamu xkrát, furt jsem nechápal proč to nevyhodí ani jednu relevantní stránku. Už to vím :). Dobrá práce!!!

  • [7]mě se líbí jak jdou na seznamu kupředu – právě že řeší i relativní kravinky. tim se liší malá od velký firmy…

  • [8]Skvělá práce. Určitě to ocení nejen firmy.

  • [9]Tak to je fajn, já už si myslel že c++ je zakázané téma 🙂

  • [10]Skvela prace i love this

  • [11]To budou mít v C&A radost

  • [12]Dobrá práce!!!

  • [13]Super, nebo spíš konečně:)…

  • Vojtěch Macháček

    [14]Dobrý den, moc to nesouvysí s článkem, ale rád bych se zeptal, zda je možné pomocí paramertu v url ( http://search.seznam.cz/?q=aaa ) změnit počet výsledků z 10 na 100. Díky

  • [15]Skvělá práce, jedna z dalších skvělých funkcí.

  • [16]To je dobrý krok, tohle jsem na Seznamu hodně

  • [17]Asi je to z jiného soudku, ale zajímalo by mě, jestli již Seznam má technoligicky veřešenou indexaci domén s háčky a čárkami. Konkrétně by mě to zajímalo u domény http://www.květina.eu (http://www.xn--kvtina-c5a.eu/). Děkuji za informaci.