Oprava překlepů v dotazech

Oprava překlepů ve fulltextovém hledání Seznamu — k vyzkoušení na testovací verzi

Do řady “features” fulltextového hledání na Seznamu přibývá další novinka – oprava překlepů v dotazech 🙂 Nasazena je zatím první verze algoritmu na searchtest.seznam.cz, v krátké době můžete ještě očekávat drobné změny.

Význam opravy je jasný — například pro dotaz piza Koloseum nabídne

Opravy se počítají plně automaticky na základě toho, co uživatelé sami opravují. Nejde tedy o “ruční slovníky” slov, která jsou nebo nejsou mluvnicky správně. Z toho plyne jednak to, že se opravují i “nečeská” slova, a dále to, že se algoritmus může mýlit — zvláště u vysoce specializovaných dotazů. Při opravách se proto snažíme být pokud možno konzervativní, hlavně u krátkých dotazů. Třeba co myslíte – je dotaz fizyka překlep? Na první pohled ano, ale přesto existují stránky (a jazyky), kde je toto slovo korektní a úmyslné. A takových slov jsou spousty. Jinak řečeno, z jednoho slova je nemožné vyvodit, co přesně chtěl uživatel hledat, a proto opravu často nenabízíme. Oproti tomu při datazu gravitace fizyka už je kontext jasný a opravátor nabízí

Podobně můžete srovnat výsledky opravy:

Doufáme, že Vám bude tato dlouho očekávaná 😉 funkcionalita k užitku a zpříjemní Vám hledání. Jde o první verzi systému, Vaše připomínky a podněty jsou pochopitelně vítány.

  • mirek

    [1]Např stránka mp3-ke-stazeni.cz je v searchtest na první stránce, v search.seznam.cz je až na 3. stránce. Prosím o vysvětlení daného problému. Děkuji

  • Solamyl

    [2]ja ji mam pokazde na prvnim miste. kde jste to videl?

  • mirek

    [3]Při zadání “mp3 ke stažení zdarma”

  • Malkin

    [4]Jak dlouho jeste to bude hazet ruznorode vysledky pro vyhledavani? To abych vedel co je realita a co neni…

  • Solamyl

    [5]Odlišnosti na searchtest a search – možná že je drobné odlišnost v nastavení vah obou vyhledávačů. Zítra to překontrolujeme. “mp3 ke stazeni zdarma” – které výsledky by podle vás měly být na prvních 3 místech a proč?

  • franta

    [6]takze uz se rozdily resi tady, no. Shodou okolnosti jsem rozdily nasel pri shodnem vyhledavanem vyrazu. Urcovat u techto stranek ktera by mela byt vepredu a proc je obtizne, samozdrejme vzdy ta moje:-) (neni to zadna ze zminenych)

  • mirek

    [7]Si myslím, že na první stránce by měli být zruba odkazy z http://searchtest.seznam.cz/?q=mp3+ke+stazeni+zdarma

  • Martym

    [8]Při zadání “jutup” mi to nabídne správnou stránku ale při zadání “jaho” nebo “gugl” se to nějak nechytá, zajímavé.

  • Solamyl

    [9]Oprava se učí z toho co lidé zadávají. Podle stats se “jaho” nezadává; “gugl” je nejčastěji ve tvaru “www.gugl.cz”, který se opraví správně. http://searchtest.seznam.cz/?q=www.gugl.cz

  • Radim

    [10]Martym: ‘Jaho’ je napr. nazev firmy i prezdivka. Stejne tak ‘gugl’. Plati tedy ta poznamka o snaze o konzervativni opravy, zvlast u kratkych dotazu. Zkuste si opravit ‘jaho.com’, nebo ‘gugl.com’, jak pise solamyl 🙂

  • daproof

    [11]Dobrý den, omlouvámse za offtopic dotaz….Plánujete někdy v budoucnu zavést podporu pro meta description ?

  • Solamyl

    [12]OT 2 daproof: ano.

  • dsm

    [13]Zdá se mi to, nebo jste ve fulltextu zvýšili počet zobrazovaných znaků u TITLE? Některý jsou koukám na dva řádky. Nejsem si jistý, jestli to pomáhá přehlednosti…

  • Jirka

    [14]Preklepy jsou fajn, mate nekde verejny seznam, co se planuje dal za vychytavky? OT: I moje stranka se v searchtext/search zobrazuje jinak. V searchtest na prvnim, v search na desatem 🙁

  • [15]Šikovné vylepšení. Předpokládám že princip je zcela odkoukaný od google 🙂

  • [16]Jakub Hejda: Není to okoukaný. Máme tajného agenta v Google a ten nám přímo zdrojáky poslal, stejně tak jako celý fulltext předtím 🙂 To že jsme nezkopírovaly Googla naráz je dáno tím, že agent je při každé takové operaci v ohrožení života a tak se musí postupovat pomalu po krůčkách (a aby to nebylo tak nápadné)

  • mirek

    [17]Mohl bych se zeptat, co bude s těmi rozdílnými výsledky mezi search a searchtest při zadání “mp3 ke stažení zdarma”

  • [18]Zase dobrý krok kupředu. Ta plánovaná podpora meta tegu description. By také mohla zkvalitnit přehled ve výsledcích… Nechcete vypustit ještě nějaké informace z vaší kuchyně, co se chystá a plánuje??

  • [19]Opravu překlepů a pravopisných chyb bude potřeba ještě řácky doladit 🙂 Hnedle při prvním testíku jsem zadal slovo pitel a dostalo se mi otázky. Nechtěli jste hledat “písek”? A tak jsem si řekl a proč ne, písek je určitě lepší, než špatně napsanej pytel, že jo?

  • Radim

    [20]pet666: Dotaz ‘pitel’ by se asi opravit vubec nemel, podivame se na to 🙂

  • Radim

    [21]V mezicase muzete zkusit opravit “jutovy pitel” nebo treba “pitel na hlavu”, podle toho, ktery jste chtel hledat 🙂 Nebo snad “zdenek pitel”?

  • [22]Možná pytel na písek 🙂

  • [23]No a ještě něco pro pobavení :-)(i když, jak pro koho). Když zadám název firmy: Firma na zážitky (tak se firma opravdu jmenuje), vyskočí dotaz: Nechtěli jste hledat “forma na zážitky” . Nevím sice co je ona “forma na zážitky” (možná forma na bábovku, která může být pro někoho opravdu velkým zážitkem), ale Lindu Vavříkovou (jednatelku zmíněné společnosti) to určitě nepotěší. Na místě podivného dotazu by se totiž měl spíše zobrazit odkaz na záložku firmy 🙂

  • mi.rek

    [24]Zeptám se, vyřeší někdo ten problém s těmi rozdílnými výsledky mezi search a searchtest při “mp3 ke stažení zdarma” kde v searchtest je mp3-ke-stazeni.cz na první stránce, ale v search až na 3. stránce.

  • Flary

    [25]Zkuste hledat: “jirka vocas” – vyskočí: “jitka coca” :)) to mě celkem pobavilo.

  • [26]Solamyl: Zajimalo by me, jestli jste tim prekontrolovanim na neco prisli. Moje stranka se v searchtest zobrazuje na prvnim miste, ale v search az na druhe strane. Jedna se o slovo “ošklivka katka”. Dik za odpoved 😉

  • mi.rek

    [27]Nechapu, proc furt otravujes. Vyres si to jinde.

  • [28]mám asi takovou jednu chybku. Když zadám řetězec s chybou http://search.seznam.cz/?q=%22nokia+conecting+people%22&mod=f tak to sice opraví, ale přidají se další uvozovky a při opravě to hledá aj s těmi uvozkami, přepsaných do ".

  • Radim

    [29]xDexter: máte pravdu, tohle by to dělat nemělo. Díky za upozornění

  • Mana

    [30]Dobrej, zjistil jsem, že seznam lištička http://search.seznam.cz/searchScreen?q= ukazuje jiné výsledky než hledání přes seznam http://search.seznam.cz/?q=

  • [31]Pokud chci použít vyhledávání zaindexovaných stránek pomocí modifikátoru site:, asi není úplně ok nabízet mi jiná znění dotazů. Všiml jsem si toho u !.cz málo/vůbec indexovaných domén, např. site:www.hvozd.eu/ vrátí výsledky s poznámkou: Nechtěli jste hledat “site:www.hvozd.u/”?

  • dsm

    [32]Plánujete v nejbližší době nasadit fulltext ze searchtest.seznam.cz do ostrého provozu? Tamější výsledky se mi totiž líbí víc :))

  • [33]Zajímavé, to co běží na searchtest.seznam.cz je stejná verze jako běží v provozu. Jediná změna může být v jinak nastavených parametrech. Už to tu řikali, chtěl jsem se na to kouknout, ale ještě jsem to nestihl 🙁

  • Libor

    [34]Také jsem pozoroval rozdílné výsledky, zkuste třeba frázi “tapety na plochu” , výsledky jsou dost rozdílné.

  • [35]Výsledky se opravdu dost liší. A rád bych se zeptal, jestli náš web dostal na té testovací verzi bann – vypali jsme z výsledků vyhledávání (dál než 10 stránek jsem nehledal). Uělejte si v tom pořádek chlapi..

  • martin

    [36]zdravim, kdyz jsme u te relevance, co tohle? http://search.seznam.cz/?q=anna+k&sug=1&mod=f&sId=r7IBJdMio-7t s tim by to chtelo taky neco udelat 🙂

  • mi.rek
  • mi.rek
  • Radim

    [39]Vážení, na searchtest.seznam.cz je k dispozici nová verze oprav dotazů. Oproti verzi minulé se zlepšily opravy krátkých dotazů, jmen a příjmení atd. Díky za připomínky a klidně pište dál =)

  • [40]Radim: To je pěkné, ale jak upozornoval martin pro “Anna K” to nenachází stále vhodné stránky. Kdy se sjednotí tato verze s search? Přišli jste už, proč nebyla/není sjednocená ta minulá? Dík 🙂

  • martin

    [41]tak zkouším zkouším, například slovo “bosu” už je opravené oproti původní verzi – už se objeví relevantnější výsledky – dobrá práce. nicméně jeden web mi teď úplně vyskočil a nevím proč? do teď byl dobře umístěn na 1. straně. predpokladam ze jde opet o docasny vypadek a chybu pri ladeni vysledku. tak snad. jiank co chystate dal? co ladite ted? 🙂 díky Martin

  • [42]Souhlasím s ostatními, výsledky ze searchtestu jsou IMHO relevantnější.

  • Honza

    [43]dobry den, nemohu si nevsimnout zobrazovani katalogu wlw.cz v hledani seznamu. Pokud zadate jednotlive fraze jako napriklad ( laminátové desky ) je wlw.cz na 1 miste a to nema zadny rozumny text na strance. Jedna se o hafo slov kde je tento katalog vepredu…. priklad laminatove desky http://search.seznam.cz/?q=+Lamin%C3%A1tov%C3%A9+desky&mod=f&sId=AZx10uLzoAbe

  • [44]Jen takový doplněk: Doufám, že databáze na searchtest je pro zjednodušení “pouze” zmenšená a né definitivní. Některé mé weby se zde neobjevují. Malým potěšením může být pouze to, že nejsou weby ani konkurence 😡

  • martin

    [45]seznam dance: neprobehl nahodou? sposta vysledku hledani se zmenila… dik za info 🙂

  • martin

    [46]dobrý den, při zadání slova PERU se seznam vyhledává podle mne špatně. nechápu, jak muže najit 6 výsledků z 10 nerelevantní – hledám “peru” (zemi v jižní americe) místo toho mi to ale v šesti případech najde luxusní pera parker a podobně.. http://search.seznam.cz/?q=peru&mod=f chtelo by to s tim neco udelat, coz? tyhle vylsedky by se mely objevit pri hledani slova “pera” ne?

  • [47]K Seznam dance: na KW Dovolená byl portál Dovolena.cz logicky na první pozici, nyní na druhé straně, nechápu proč (takových případů jsou mraky). Poslední rozhození výsledků mi z pohledu relevance nepřipadá vůbec ideální. Někdy mám pocit, že byla zase přidána větší váha na doménu, ale příklad portálu Dovolena.cz hovoří o opaku, tak tedy nevím. Vrátí se výsledky opět k normálu, nebo je to zase na čas definitivní?

  • dsm

    [48]pet666: nechápu, proč by měl být web dovolena.cz “logicky” první na slovo dovolená

  • [49]jen taková zajímavost, na dotaz tex art mi vyjede přeindexovaná stránka, jen title a url, totálně bez snipetu :)) zda jde o nějaký mišmaš po změně nameserveru a přesunu hostingu netuším,každopádně zajímavý jev..

  • [50]koukne te se sem mne us prysli

  • Honza

    [51]Dovoluji si upozornit na super relevanci hledani, pri zadani slova práce mate na 5 miste ctenarsky denik. To je super, odvadite dobrou praci mozna u tak pouzivaneho slova, fulltext zaslouzi jen malou kontrolu… teda alespon nekdy

  • [52]dobré by taky bylo, kdyby systém uměl nahrazovat překlepy typu baz0n, tedy pokud má uživatel přeplou klávesnici na EN. Mě se to stává často, tak bych to uvítal

  • Honza

    [53]tak jsem koukal na seznam a na ( střechy na klíč ) ta tapeta do 6 stranky je SUPER 🙂 gratuluji dobra prace….. http://search.seznam.cz/?q=st%C5%99echy+na+kl%C3%AD%C4%8D&mod=f&sug=1

  • [54]To je určitě krok v před…dobrá práce

  • [55]Z pohledu dlouhodobého textování si myslím, že to byl jednoznačně přínos. Díky