Pár dalších signálů do relevance

Ve středu 23. listopadu jsme do vyhledávání přidali nové signály. Výsledky přirozeného vyhledávání se měnily větší měrou, než je obvyklé. Ačkoli je pro nás změna relevančních modelů relativně rutinní věc, kvůli přidání signálů se nyní dá mluvit o středně významné změně. Před koncem letošního roku už další modely relevance přirozených výsledků nasazovat nebudeme.

Přidali jsme patnáct signálů dokumentu. Některé komplexnější, jiné jednoduché. Abych uvedl příklad, jedním z přidaných signálů je jednoduchá entropie textu stránky. Nedá se říct, že by stránky s vyšší entropií od nynějška získávaly více bodů než stránky s nižší entropií, nebo naopak. Nové signály vstupují společně s ostatními do relativně složitého relevančního modelu (konkrétně do součtu mnoha rozhodovacích stromů) a model je používá spíše jako pomůcku pro rozhodování a větvení, než že by podle nich přímo řadil. Stránkám s vyšší entropií prostě v některých případech počítá relevanci jiná větev výpočtu než stránkám s nižší entropií. Podobně to funguje i s ostatními čtrnácti novými signály – obvykle nemají jednoznačnou intepretaci. I tak ale modelu pomáhají lépe řadit.

Přidání signálů jsme předem testovali na vzorku 9200 dotazů. Na první stránce SERPu (deset výsledků) se změna projevila záměnou aspoň jednoho výsledku v 79 % dotazů. U změněných SERPů šlo v 73 % vyhledávání o měřitelné zlepšení, proto jsme se rozhodli to nasadit ještě teď v listopadu, přestože víme, že provozovatelé stránek jsou raději, když se vyhledávání před koncem roku moc nemění.

  • Pingback: Nové signály v relevanci - Informace o změnách ve vyhledávačích()

  • Pingback: Seznam opět vylepšil před Vánoci své vyhledávání - 404M.COM()

  • mullcz

    Dobrý den,
    mohu se zeptat k té entropii textů, co znamená vyšší entropie textů? Před pár lety na škole jsme počítali v teorii infromací entropie a bylo to v podstatě závislé na pravděpodobnosti výskytu znaků. Pokud se tedy v textu objevil znak s menší pravděpodobností výskytu, vzrostla celková entropie. Pokud by tomu tak bylo dalo by se vyvodit, že texty obsahující znaky č,ď,f,g,q,ť, apod. by měly mít vyšší entropii a tím pádem procházet rozhodovacím stromem jinak, než řekněme texty bez uvedených znaků. Rád bych si tedy ověřil domněnku, že použití znaků s nižší praděpodobností výskytu zvýší entropii textu. Případně budu rád za opravu uvedené myšlenky. Díky moc za reakci Miloš Z.