Seznam testuje vyhľadávanie v cudzojazyčných výsledkoch

Začali sme indexovať zahraničné weby. Sústredíme sa na angličtinu a na obľúbené weby. Hľadanie vo svete zostalo bez zmien. Testovaciu verziu si môžete pozrieť na http://searchtest.seznam.cz .

Navýšili sme počet indexovaných (uložených na hadoope) stránok z 400 na terajších 700 miliónov. Pribudli najmä stránky v angličtine a pár miliónov slovenských, poľských, nemeckých a francúzskych. Na jazyky s nelatinkovými znakmi sme sa nesústredili. Prioritou zostávajú české stránky, ktorých počet neustále navyšujeme.

Do testovacieho výdaja na webovku searchtest.seznam.cz sme dali databázu s 560 miliónmi dokumentov [1]: 380 v čestine, 130 v angličtine, 15 v nemčine, 15 v slovenčine a 20 tvoria ostatné jazyky dohromady. Sústredili sme sa na obsah, ktorý buď na českom webe nie je, alebo je výrazne kvalitnejší v inom jazyku zrozumiteľnom pre užívateľov – čo je obvykle prípad angličtiny. Väčšina výsledkov na prvej stránke naďalej zostáva v čestine.[2]  Výpočet relevancie sme nemenili.

Vyhľadávanie vo svete pomocou Microsoft-ieho Bingu zostáva nezmenené. V rámci tohto projektu sme sa sústredili na indexovanie obľubených zahraničných webov hlavne v angličtine. Bing má výrazne väčší index a vyľadené hľadanie pre mnoho jazykov (včetne exotických ako japončinina, alebo čínstina) a preto zostáva našou voľbou pre hľadanie vo svete.

Na ilustráciu našej motivácie začať indexovať cudzojazyčné weby si môžete pozrieť výsledky na dotazy: bbc, nasa, distrowatch, ikea dresden, tv markíza.sk tisíc a jedna noc, discovery channel

Test beží na adrese searchtest.seznam.cz. Hľadanie je oprené do vývojových strojov, takže zvládne obmedzený počet hľadaní a beží pomalšie ako v produkcii. Ostré nasadenie plánujeme za pár týždňov. Budeme radi za Vaše postrehy a názory.


[1] Áno čísla sú rôzne. Stiahnutých máme 700m a z nich sme 560m dali v binárnom formáte na stroje na ktorých sa vyhľadáva.
[2] Ak existuje dostatok českých výsledkov na zadaný dotaz. U porno výsledkov jazyk stránok nerozlišujeme.
  • Pěkný!

    Mimochodem, v Jyxu jsme ve výsledcích hledání u cizojazyčných výsledků psali za titulek třeba “anglicky”. Myslím, že to docela pomáhalo nastavit u uživatelů správné očekávání, co po kliknutí dostanou. Doporučoval bych to tedy i u vás.

  • Michal Illich | mi by se líbila vlaječka:) ale je to pravda, že upozornění ještě před proklikem by zvýšila relevanci prokliků

    • radofan

      Súhlasím, že by to vizuálne pomohlo rozlíšiť výsledky. Na druhej strane z jazyka úryvku (snippetu) je obvykle jasné v akom jazyku je výsledok (za prekpokladu, že užívateľ tomu jazyku rozumie).

  • Jolián Androskotak van Butthan III. z Vilémova u Všechovic nad Olomoucí

    Nové výsledky jsou horší. Váhy, které používáte zanesly některé kvalitní weby do “pryč” a krávoviny na blog.cz, neaktualizované blogy s footer linky. nahoru.

  • Pokud z překladu načerpáme více informací, proč ne.

  • Milan

    Je možné, že tato změna ovlivnila výsledky fulltextového vyhledávání českých stránek?
    3.4.2012 přišel náš web o polovinu návštěvnosti ze Seznamu.

    • Yuhů

      To možné není, protože to je nasazené zatím jenom na searchtestu.

  • Jolián Androskotak van Butthan III. z Vilémova u Všechovic nad Olomoucí

    Milane asi těžko. To je spíše způsobeno změnou vah, kdy seznámek začal přecitlivě penalizovat určitou věc a tvůj web zasadil do prdele. Mě se to u pár kvalitních webů s dobrým obsahem stalo. Momentálně mě přešla chuť na nějakou aktualizaci obsahu :-).

    • buric

      Tak pokud stránku aktualizuješ jenom kvůli vyhledávačům, tak to bude asi stejně stát za prd => žádná škoda.

      • Jolián Androskotak van Butthan III. z Vilémova u Všechovic nad Olomoucí

        Ne aktualizuji ji kvůli penězům a mohu tě ujistit, že nestojí za prd. Alespoň v té rovině, když jsou nademnou horší stránky. Například takhle uživatelsky přívětivá šílenost s minimem http://katuscin123.blog.cz/0907/online-hry-s-konmi

      • Jolián Androskotak van Butthan III. z Vilémova u Všechovic nad Olomoucí

        A ještě jedna věcička. Vždycky se snažím na své weby dívat objektivně, zda si zaslouží být na první stránce, zda opravdu přináší to nejlepší pro uživatele. No a když je vše ok + navíc stránku umístí google na první stránku, tak se seznamu trošku divím. Na závěr. Nejedná se o rychlokvašky, ale o pořádně staré weby :-), na kterých s přestávkama pracuji a přidávám obsah, takže asi tak….

  • Marek

    TO: Jolián Androskotak van Butthan III. z Vilémova u Všechovic nad Olomoucí: Víš o té změně něco víc? Je to už cca 14 dní, ale nikde ani čárka. Doufal jsem, že se o tom zmíní alespoň tady na blogu, jak to bývá zvykem, ale evidentně zpětnou vazbu nepotřebují (nebo spíše nechtěji). Čte-li toto někdo ze seznamáku, berte to jako mou prosbu o informace k updatu, který proběhl před cca 14 dny. Díky

  • Martin

    Taky by mě zajímalo co se stalo, pár webů se nám taky propadlo najednou z ničeho nic.

    Na jakým základě seznam poznává zda se jedná o cizojazyčný web? Má pro něj nějakou váhu údaj ?
    Předem dík za odpověď

    • radofan

      Pre stránku a web detekujeme jazyk hlavne podľa obsahu – to znamená textu, ktorý tam nájdu užívatelia. Ad “Má pro něj nějakou váhu údaj ?”: aký údaj? lang? xml:lang?

      • Martin

        Ha, ono se to odfiltrovalo, meta tag Content-Language, popřípadě lang v html tagu.

        • radofan

          Zohľadňujeme oba. Berú sa ako hint v prípade, že je na stránke viac jazykov, ale zásadným je jazyk textu na stránke. Napríklad sú častokrát tagy na cs weboch chybne uvádzané ako en v dôsledku použitia anglického “user friendly” editoru.

  • radofan

    Ad prepadnutie webov: na otázky tohto druhu sa ťažko reaguje. Za prvé sa nemôžeme vyjadrovať k presnému fungovaniu jednotlivých signálov pre relevanciu a ich mixovanie (váhy). Za druhé bez znalosti o aké weby išlo, a v kombinácii s akými dotazmi, nemôžem dať ani svoj názor či danú stránka/web by som chcel ako užívateľ vidieť medzi prvými výsledkami. A za tretie zmena poradia v produkčnom hľadaní nesúvisí s indexovaním a vyhľadávaním cudzojazyčných výsledkov, ktoré je zatiaľ len v teste.

  • Dear Sirs,

    Please make a note that your spider ignores file ROBOTS.TXT and tries to index pages that are forbidden for indexing. For example, admin-side login page. It is not good.

    Please fix it or I should ban your spider.

  • Jolián Androskotak van Butthan III. z Vilémova u Všechovic nad Olomoucí

    Ještě jedna pro pobavení. Náš e-shop na hlavní frázi na google první :-). Na seznamu není ani do 10. stránce. GJ

    • Radim

      Přesně. Na “dřevěné hračky” je můj e-shop http://www.hracky-ijacek.cz na první straně google. Na seznamu zmizel někde na desátou, už mě to nebaví ani hlídat, jeden den je na páté straně, druhé na jedenácté atd. Optimalizace webů pro Seznam fakt nemá cenu? přede mnou jsou úplně chabé weby a podstránky o ničem. E-shop pravidelně aktualizuji a starám se o něj, jak textově tak online i offline faktory. Seznamáci mrkněte na to a budu rád za vaše vyjádření, zde máte konkrétní příklad

      • Jolián Androskotak van Butthan III. z Vilémova u Všechovic nad Olomoucí

        Tak tohle je úplně můj případ. Rovněž web posazen na 11. stránku :-).
        Ty vaše hračky jsou na konci http://search.seznam.cz/?q=d%C5%99ev%C4%9Bn%C3%A9+hra%C4%8Dky&count=10&pId=GZ2qUyorw4Ga2QWNMv_y&from=101

        Jinak bych odstranil ty footer linky. To je zvěř! A trošku překopal texty na úvodní stránce. Dřevěné hračky se tam opakují až nezdravě = nepřirozeně hodněkrát.

        Web pěkný :-).

        • Radim

          Bohužel, linkbuilding je nutné budovat, bez toho to jde špatně. První web ve výsledcích na dřevěné hračky to má taky, takže zjevně to nevadí. (mimochodem nevím jak to dělá že už půl roku je stále na první pozici). Větší počet klíčových slov si myslím taky neuškodí. Ovšem zajímá mě proč taková bídná pozice vy fulltextu…

          • me vakérav

            Nemluvím za fulltext, ale pokud ta stránka z pohledu robota vypadá jako nějaká linkfarma, tak se nelze divit, že je dole. Dělejte stránky pro lidi, ne pro vyhledávače.

    • planicka

      Milý JA, Vaše příspěvky se přes jejich četnost už nedají ani ignorovat, tak nezbývá, než reagovat. Když už tolik povídáte, měl byste být konkretní a uvést Vaše weby a dotazy (viz radofanova poznámka o tom, že je těžko se vyjadřovat, když není k čemu). Nechť má každý možnost, udělat si vlastní závěr.

      • Jolián Androskotak van Butthan III. z Vilémova u Všechovic nad Olomoucí

        No vzhledem k množství “poškozených” webů se tady budeme bavit o jednotlivcích? Fajn :-).

        • planicka

          A vy jich jako jednotlivec takové množství vyprodukujete? To si pak o jejich kvalitě dovolím pochybovat i bez zhlédnutí.
          Ale abychom to nezamluvili, problémy je potřeba řešit konkrétně. Když Vám řeknu, že se mám špatně, také mi nebudete schopen pomoci, byť byste měl vůli. A nepomůže ani, když Vám to budu psát dokola. Taky Vás možná nebude těšit, když budu říkat na potkání, že jste neschopný pomocník.

  • wico

    aHOJ,
    to je škoda, že neumím slovensky

    • rms%

      Tak jak pak vis ,ze je to psano slovensky?

  • Radim

    to: me vakérav
    takhle určitě linkfarma nevypadá 🙂

  • Zdenec

    Měl bych dotaz ke statistikám. Podle vašich statistik je hledanost výrazu “elektrická cigareta” v přesné shodě 67 denně (pouze fulltext). Náš web je na toto spojení po většinu měsíce na prvním místě a za celý měsíc přišlo podle GA ze Seznamu 129 lidí. Četl jsem kdysi na tomto blogu nějaké vysvětlení o tom, jak započítáváte statistiky, ale toto se mi zdá jako opravdu velký nepoměr… I kdyby do statistik bylo započteno otevření všech 10 odkazů na první stránce, tak pořád by to znamenalo, že cca polovina lidí první místo přeskočí. Tomu opravdu nevěřím. Podobný trend “nadhodnocení” statistik pozoruji u stále více klíčových slov. Možná by stálo za to, poskytnout k tomuto nějaké updatované vysvětlení. Děkuji.

    • Jolián Androskotak van Butthan III. z Vilémova u Všechovic nad Olomoucí

      Otevřeno všech 10 odkazů na první stránce? Tohle nemá žádný vliv na počet hledání:-). Když přejdeš na stránku 2, 3 nebo 4, tak to má vliv na výsledné číslo, které však nikdy a vůbec neodpovídá skutečné hledanosti daného slovního spojení :-). S tím je potřeba smířit se.

      • Zdenec

        Sorry, máš pravdu, tak dokonce je to 10 stránek… (viz. http://fulltext.sblog.cz/2009/02/12/co-znamenaji-cisla-ve-statistikach-hledani/). Ale o to je to horší. Tím spíš by mě zajímalo vyjádření Seznamáků, protože ve fulltextu by mělo mít dané spojení hledanost cca 2000 měsíčně a v skliku dokonce 3000 měsíčně. Pak se opravdu těžko nastavují i PPC kampaně…

    • Prokliky jsou největší v 1/3 stránky, kolem 3 pozice. Takže někdy se opravdu nevyplatí být na prvním fleku.

      • Zdenec

        Zkuste to vysvětlit člověku, kterého po několikaměsíčním úsilí dostanete na první příčku a on díky prvním třem pozicím S-kliku má stále pocit, že je jen čtvrtý. A to přesto, že s ním na začátku spolupráce strávíte několik hodin vysvětlováním a ujistíte se, že opravdu nechce jít do PPC, ale chce SEO 🙂

        • Jolián Androskotak van Butthan III. z Vilémova u Všechovic nad Olomoucí

          Pro seznam je lepší, když klient platí ppc a ne seo :-).

    • radofan

      Zdravím. Ak chcete odpoveď na otázku, ktorá je mimo tému článku použite prosím kontaktný formulár http://search.seznam.cz/contactForm – naši administátori na všetky dotazy reagujú. Ďakujem

      • Zdenec

        Já vím, reagují. “Zkuste lépe optimalizovat. Bližší informace bohužel nemůžeme poskytovat. S pozdravem Markéta Opálková”

        • radofan

          Žiaľ k SEO otázkam majú administrátori značne limitovaný priestor na odpovede.

  • JA

    Je to chyba nebo úmysl, že na úvodních 2 stranách se jeden a tentýž web opakuje tolikrát?
    http://search.seznam.cz/?q=Kr%C3%A1tk%C3%A9+%C3%BA%C4%8Desy+2012&count=10&pId=S51nZT_WwbN_iDcR61UG&from=1

    • radofan

      Rozhodne to nie je niečo čo by sme tam chceli mať. Už je to nareportované.

  • SE-xpert

    Co jste zase o víkendu blbnuli? Taháte nitkama dost až moc…

    Například je teď evidentní, že dáváte až moc velkou váhu značkovým webům. Značkový web není přeci automaticky zárukou kvalitních a objektivních informací, a to se týká čehokoliv v jakémkoliv oboru. Přemýšlejte o tom prosím.

    Svým “hraním si” nutíte webmastery, aby dělali weby pro Vašeho robota a né pro lidi. Vykašlete se na nesmyslná hejblátka, vylepšování vzhledu, cizí jazyky a další dílčí “kravinky” a zaměřte pozornost na opravdu podstatnou věc, kterou je OBSAH webu. Před víkendem byly Vámi poskytované výsledky velice solidní… po víkendu je to katastrofa… teda něco už jste stihli za dnešní den napravit, zřejmě Vás to taky trklo do očí co?

    • SE-xpert

      Ještě dodám, že výsledky na Stestu vypadají docela dobře, jestli je to odraz nejbližší budoucnosti v ostrém provozu, tak jen-tak-dále 🙂

      • Niro

        tak zrovna Stest se mi teď zdá rozhozenej, jako už dlouho ne…… 🙁

  • Zpravodaj

    Cením si snahu jít dál, ale myslím že by to nejdřív chtělo dát dohromady tady v ČR. Když nebudu posuzovat kvalitu řazení výsledků a smířím se s tím že reakce na přirozené, umělé odkazy i úpravu onpage faktorů trvá až několik měsíců (chápu to jako ochranu před seo spamem) tak mi není jasný proč alespoň trošku nezrychlíte indexaci/zařazování nových stránek (zvlášť když máte kapacitu na indexování zahraničí. Long tail výrazy který na stránkách již několik měsíců neexistují se stále umisťují na hezkých pozicích a články z “městských zpravodajů” u vás do 14 dní po vydání nejdou nedohledat.
    Jako člověkovi co “dělá” seo mi to je více méně jedno, čím víc mi bude seznam fulltext zdát nekvalitní/nepřínosný tím menší budu mít zábrany při seo manipulaci a cpaní rychlokvašnýho obsahu na první stránky (stejně už tam je binec takže není co zkazit).
    Nevim jestli vůbec ten stav fulltextu a longtailu sledujete (na konkurenční slova není co zkazit), ale za poslední měsíc mnoho stránek o který sem se nebál (hodnotný informace a kvalitní tématický nesitewide odkazy) popadaly a weby o který sem měl strach (automaticky generované stránky s minimem odkazů) zůstály na krásných pozicích.
    Samozřejmě na věc mám asi zaujatý pohled, ale proti seo ochranám nemám nic proti, ale aspoň zkuste nějak rychlejc zařazovat/vyřazovat obsah do fulltextu…

  • Astro

    sleduji své konkurenty a občas mi připadá, že ty nejprasáčtější metody fungují na seznam nejlépe. Odkazy z patiček, nesmyslných pr katalogů, atd. Snažím se mít co největší variabilitu na anchor text, borec si to nafláká x krát se stejným anchorem, google ho samozřejmě pošle do propadliště dějin, seznam na první pozici. Epic win.

  • 1) Je důvodem indexace cizojazyčných stránek zpestření českého vyhledávání nebo Seznam plánuje expanzi na Slovensko atd.?

    2) Otázka Autor: Martin | 5.4.2012 | 22:53 nebyla zodpovězena. Mají tedy tyto meta tagy pro Seznam význam, nebo je lépe z českých stránek odstranit jakýkoliv cizojazyčný text na neškodné místo?

    • radofan

      1) Áno (zpestrujeme české vyhľadávanie)
      2) Tagy význam majú viz doplnená odpoveď. Odstraňovať z českých stránok cudzojazyčný text nie je nutné. Ak je na stránke 90% textu anglicky, tak je to anglická stránka. Ak máte prevažne český web s cudzojazyčnými stránkami tak je teraz väčšia šanca, že sa dostanú do vyhľadávania.

      • Děkuji za odpovědi. Mám jedny stránky s kytkami, kde uvádím názvy ve všech možných jazycích, takže jsem se zamyslela, že když to uděláte podle Michala Kubíčka, mohla by se mi u snipetu objevovat třeba i čínská vlaječka 🙂
        Ty vlaječky mi mimochodem přijdou jako dost dobrý nápad.

  • Andy

    A plánujete vyhledávat po zadání požadavku jen ve stránkách určité země? Např. jen na francouzských stránkách apod.? Díky. A.