Zlepšená detekce jazyka stránky

31. července 2015 Vyhledávání

Nedávno jsme vylepšili detekci hlavního jazyka stránky. Proč jsme to dělali? Na české dotazy chceme zobrazovat stránky určené pro české uživatele a jejich hlavní jazyk tak musí být čeština. V případě webu, který obsahuje 100 % češtiny, je tato úloha triviální. Představte si ale, že máte webovou stránku, na které je 80 % textu anglicky a 20 % česky, a přesto je smysluplné označit ji jako českou. Jak je to možné? Jedná se pravděpodobně o český e-shop, který na této konkrétní stránce uvádí třeba 80 výrobků, které mají všechny název v angličtině. Jediným českým textem tak je menu a ostatní ovládací prvky. Chceme ji ale označit jako českou, protože na ní chceme směřovat dotazy v češtině.

V minulosti jsme na tuto úlohu používali algoritmus, který se řídil člověkem navrženými pravidly. Úspěšnost tohoto algoritmu dosahovala 91 %. Na tuto úlohu jsme nově použili metodu strojového učení založenou na rozhodovacích stromech, kde tato pravidla navrhoval počítač. Úspěšnost tak stoupla na 97 %. Lepšího výsledku jsme dosáhli jednak proto, že jsme se začali dívat na další vlastnosti stránek, které starý algoritmus nezohledňoval, a jednak proto, že jsme pravidla nechali stanovovat algoritmus strojového učení. Je šestiprocentní zlepšení hodně?

Řekněme, že máme v databázi miliardu stránek. 9 % špatně označených stránek tak představuje 90 milionů. Jestli jsme zlepšili detekci o 6 %, tak jsme zlepšili detekci hlavního jazyka stránky pro 60 000 000 webů.

Nový algoritmus právě testujeme a do ostrého provozu se dostane nejpozději za měsíc, ale pravděpodobně dříve.

Sdílet na sítích

Pokusné stažení robotem: Díky novince zjistíte, jaké rezervy má váš web

Jak váš web vypadá z pohledu našeho SeznamBota? To zjistíte díky nové funkcionalitě, kterou jsme přidali do naší platformy pro webmastery. Novinka vám umožní se na stránku podívat z robotí perspektivy a získat detailní informace, které můžete využít k optimalizaci a zlepšení výkonu vašeho webu.

Jaká témata na Seznamu nejvíce rezonovala v roce 2023?

Všimli jste si někdy pod hledacím polem na domovské stránce Seznamu výčtu dotazů, které se právě hledají? Jedná se o trending topics. Zajímá vás, jak se takové trending topics tvoří nebo která témata strávila v této sekci v roce 2023 nejvíce času? Zjistíte to v našem článku. A na závěr vám navíc představíme novou a velice užitečnou funkci, díky které se o daném tématu rychle dozvíte to nejdůležitější.

Češi více hledají zpravodajské události, domácí televizní tvorbu i slevy, ukazují data Seznam.cz Vyhledávání

Seznam.cz a služba Vyhledávání již tradičně zveřejnila vyhodnocení výrazů, jejichž hledanost ve srovnání s předchozím rokem vyrostla nejvíce. Lidé do vyhledávací lišty na domovské stránce Seznam.cz nejčastěji zadávali dotazy spojené s hlavními zpravodajskými událostmi, například se střelbou v Praze, prezidentskými volbami nebo válkou v Izraeli. Zajímali se také o seriály z tuzemské produkce a o slevy během Black Friday.

Zpracování osobních údajů

Za účelem využití služby „Newsletter Seznam.cz” dostupné na internetové adrese (URL) https://blog.seznam.cz (dále jen „Služba“) uživatelem Služby (dále jen „Uživatel“) je společnost Seznam.cz, a.s., IČO 261 68 685, se sídlem Radlická 3294/10, 150 00 Praha 5, provozovatel Služby (dále jen “Provozovatel”) oprávněna zpracovávat osobní údaje Uživatelů (zejména adresné a popisné údaje v rozsahu níže uvedeném), které tito Uživatelé poskytnou Provozovateli v rámci užívání Služby.

Osobní údaje Uživatele budou zpracovány Provozovatelem v nezbytném rozsahu za účelem poskytování Služby, a to zejména za těmito účely:

za účelem zařazení kontaktních údajů do databáze Provozovatelem a za účelem zasílání obchodních nabídek Uživateli ze strany Provozovatele;

za účelem zařazení kontaktních údajů do kontaktů Provozovatele za účelem vzájemné budoucí komunikace Provozovatele a Uživatele.

Takové zpracování osobních údajů je zákonné, jelikož je nezbytné pro splnění smlouvy, na jejímž základě Uživatel užívá Službu, a jejíchž smluvní stranou je Uživatel, jako subjekt osobních údajů.

Provozovatel postupuje při zpracování osobních údajů v souladu s nařízením Evropského parlamentu a Rady (EU) č. 2016/679 o ochraně fyzických osob v souvislosti se zpracováním osobních údajů a o volném pohybu těchto údajů (obecné nařízení o ochraně osobních údajů, dále jen „nařízení“), zákonem č. 110/2019 Sb., o zpracování osobních údajů, zákonem č. 111/2019 Sb., kterým se mění některé zákony s přijetím zákona o zpracování osobních údajů, zákonem č. 480/2004 Sb., o některých službách informační společnosti, zákonem č. 127/2005 Sb., o elektronických komunikacích a dalšími právními předpisy upravující ochranu osobních údajů.

Podrobnější informace o nakládání s osobními údaji jsou uvedeny na internetových stránkách Provozovatele, a to v příslušné sekci.