Oháčkování dotazů – upgrade

Možná jste nad tím nikdy nepřemýšleli, ale vyhledávače jsou již dnes tak daleko, že umí za vás reformulovat dotaz a zahledat jej v naprosto jiné formě, než v jaké jste jej původně zadali a přitom vám zobrazí přesně to, co jste chtěli najít.

Jednou ze základních činností vyhledávače je oháčkování dotazů, bez kterého by kvalitní vyhledávač nemohl fungovat. Třeba se teď ptáte na to, proč je to potřeba, když přece zadáváte dotaz přesně ve tvaru, v jakém ho chcete najít. Ano to je pravda, ale všichni uživatelé takoví nejsou a zadávají i dotazy bez diakritiky, nebo ještě hůře s diakritikou částečnou a v nejhorším případě s diakritikou chybnou. Poslední případ může být umocněn trefou do slova, které má ve špatně oháčkovaném tvaru naprosto jiný význam. Zadávání dotazů bez diakritiky, nebo s diakritikou částečnou je dnes běžným jevem a z toho důvodu je potřeba se s tím nějak vypořádat.

Oháčkování dotazů se může někomu zdát jako poměrně jednoduchý problém, avšak opak je pravdou. Jsou dotazy, na které by měl problém správně odpovědět člověk, natož stroj, který je potřeba naučit, aby vytušil správnou formulaci dotazu. Všichni už dnes bereme jako naprostou samozřejmost, že když do vyhledávače zadáme dotaz reky v praze, zobrazí se nám výsledky informující nás o seznamu řek v Praze. Nikdo ani nepřemýšlí nad tím, že dotaz zadal bez diakritiky, ale výsledky diakritiku obsahují.

Tento příklad byl jedním z nejjednodušších případů oháčkování, ale co když již dotaz nějakou diakritiku obsahuje a přitom diakritika není úplná? Takovým dotazem je například: nejvysši hora evropy. I v tomto případně správně oháčkujeme a zobrazíme relevantní výsledky.

Obecně největším problémem jsou ovšem víceznačné dotazy, u kterých diakritika není tak jasná, jak by se na první pohled mohlo zdát. Co by jste očekávali na dotaz kozli u orlíka? Pokud nevíte zkuste se podívat tady: kozli u orlíka. V tomto dotazu je konflikt mezi slovy kozli (množné číslo samce kozy) a Kožlí (obec), které mají naprosto jiný význam.

Jak vám už možná došlo, tak oháčkování nebude zcela triviální záležitost. Příkladem dotazu spadajícího do kategorie obtížně oháčkovatelných je například dotaz narozeninové praní, kde nevíme jestli chce uživatel hledat přání k narozeninám, nebo chce na narozeniny něco prát. Na tento dotaz sice vracíme relevantní výsledky, ale jsou i dotazy, kde se nám do tak úplně nepovede, což si můžete ověřit po zadání dotazu mestska doprava prosek, nebo plaz do teraria. Zejména u posledně jmenovaného dotazu se může zdát, že výsledky musí být naprosto jasné, ale bohužel tomu tak není.

Ještě horší kategorií jsou dotazy s úplnou, ovšem chybnou diakritikou. Takovým dotazem je například cena včelí měď. Asi je každému jasné, že jsem chtěl hledat ceny včelího medu, ale dotaz jsem v zápalu napsal špatně a místo med, jsem napsal měď. Na tento dotaz sice vracíme obstojné výsledky, ale mohly by být i lepší a co si budeme nalhávat, zobrazení právě takových výsledků byla věc náhody. Stejným typem dotazu je například přání kalhot v pračce, na který už výsledky kvalitní nejsou.

Naše oprava se bude snažit pojmout všechny uváděné typy příkladů a můžete se na ní těšit během několika týdnů. Budeme rádi, když nám již teď napíšete další vaše postřehy ohledně oháčkování dotazů, případně o chybách, kterých se v souvislosti s oháčkováním dopouštíme.

  • Roman

    [1]Jak funguje oháčkovač si můžete vyzkoušet na této adrese: http://nlp.fi.muni.cz/cz_accent/

  • Myšák

    [2][1] Na ukázku dobrý, ale oháčkovač MUNI nefunguje zrovna podle toho jak bych si představoval

  • [3]Postřeh: „parfemy“ versus „parfémy“. V čem je rozdíl?

  • Ove

    [4]No je to velice zajímavé, je pravdou, že jsem nad tím nepřemýšlel… A když nad tím zapřemýšlím, tak netuším jak to dokážete 🙂 Přidat diakritiku do věty: Uz pomalu muzu (Už pomalu můžu) se zatím asi nepodaří jen tak doplnit 🙂

  • [5]OT: nepovolily jste náhodou v našeptávači některé 18+ fráze, které byly dosud zakázané? Úmysl či chyba?

  • [6]Zajímavé, že se někdy opakovaně špatně zadávané diakritiky chytá i našeptávač. Bije mě do očí (ne)očárkování a ne oháčkování: „svatební oznámení s fotografii“

  • [7]Článek jsem četl z Opery mini a odkazy na. vyhledávání s diakritikou mají elementární problém s kódováním. Proběhne redirect na mobilní verzi, která asi používá jiné kódování. Vím, že je to trošku OT, ale zarazí, když se řeší takovýto „vyšší level“ a elementární věc nesedí…

  • Myšák

    [8][7] Děkuji za upozornění na špatné odkazy v článku. Již jsou opraveny, tak si je můžete proklikat nyní. Za chybu se omlouvám.

  • Martin

    [9]Stejně v Seznamu musí být zajímavé vztahy, když vás na Twitteru průběžně tvrdě kritizuje (bývalý kolega?) Dušan Janovský. Nějaké odpovědi na jeho výtky?

  • Myšák

    [10][4] V novém oháčkovači bude dotaz [uz pomalu muzu] oháčkovaný správně. Jak asi správně tušíte, tak problémové slovo je „muzu“, u kterého není jasné, jestli se má oháčkovat na můžu, nebo mužů.

  • Myšák

    [11][9] Můžete být konkrétnější?

  • marty
  • simon

    [13]Zajimalo by me, jak resite „horká čokoláda“ vs „hořká čokoláda“. Diky.

  • Myšák

    [14][9][11] Tento tweet neberu jako tvrdou kritiku, nýbrž jako poznámku. Vztahy v Seznamu jsou myslím výborné a Dušan je náš kolega stále. Nicméně nemám pocit, že by tohle téma patřilo právě do diskuze o oháčkování a rád bych vrátil tuto diskuzi zpět k tématu. Děkuji

  • Myšák

    [15][13] Hezký příklad. Dotaz [horka cokolada] samozřejmě nelze jednoznačně oháčkovat a strom dotazu by se měl expandovat do dvou větví. AND(OR(„horká“, „hořká“), „čokoláda“). Máte ještě jiné podobné příklady?

  • Myšák

    [16][5] Oháčkovač prochází v současné době řadou vylepšení a můžete se o nich dočíst v tomto příspěvku http://fulltext.sblog.cz/2011/09/05/64

  • Marty

    [17]Já bych se rád zeptal, zda se jedná o chybu nebo „normální“ stav, že současné výsledky vrací na jedno klíčové slovo většinou několik výsledků z jednoho webu na různých pozicích s tím že ty výsledky jsou rozesety od první do 10 strany. Skoro to vypadá, jako by si algoritmus neuměl poradit s relevancí a výhodit do výsledku stránku nejlepší. Pak kdy se zase trochu hne pořadí zase to nějak spinká.

  • Myšák

    [18][17] Můžete uvést konkrétní příklad?

  • Marty

    [19]Konkrétně kw autosedačky http://search.seznam.cz/?q=autoseda%C4%8Dky&sId=62N4-iGZSaDfoPatbmHl&aq=0&oq=autosed&sourceid=top&thru=sug a web eshopbaby.cz je na první straně a pak na druhé straně. S tím že na první je url kategorie a na druhé hlavní strana. Těchto výsledků je tam více z ruzných oblastí.

  • Myšák

    [20][17][19] Vámi popisované chování není chybou, ale vlastností, která je záměrná. A teď prosím zpět k oháčkování. Děkuji

  • [21]Tak v tomto případě musím Seznam pochválit, protože při zadání slova „krize“ byly na prvních místech výsledky „Československý červený kříž“ a podobně. nyní je to v pořádku http://search.seznam.cz/?q=krize&sId=zsKihVK-wkIaS9t00emw&aq=&oq=&sourceid=top&thru=

  • [22]Háčkování Vám jde dobře, jen co je pravda. Web o IT novinkách, který pøinese horké newsky na zlatém podnose. Pokud chcete být v obraze, sledujte dìní na Freebit.cz