Další verze crawleru

SeznamBot/3.0 vyráží na obhlídku českého internetu.

Už je to hodně dlouho, co jsme naposledy představili nějakou novinku kolem fulltextového robota. Není to tak, že by na něj sedal prach a špína, běžné údržbě jsme se věnovali neustále. Podnětů ke zlepšení jsme sice měli mnoho, jenže realizace na staré platformě byla většinou krkolomná. Z tohoto důvodu jsme se rozhodli k radikálnímu řezu, celou původní architekturu jsme opustili a přistoupili ke zcela novému pohledu na problematiku.

Že by to chtělo napsat a navrhnout všechno hezky znova od začátku jsme si již před časem řekli, síly a kapacity pro takový úkol jsme dali dohromady letos na jaře. A vida, už se chystáme ho vypustit ven. Nějaký čas ho ještě budeme ladit a až se bude chovat mravně, nahradí současného robota. Na Vaše weby se bude hlásit jako „SeznamBot/3.0-alpha“, pokud by páchal nějakou neplechu, neváhejte nám dát vědět.

Pokud si říkáte, že s tím hodně naděláme, vězte že se nejedná jen o přepracování nějakého pavouka stahujícího obsah webu, jedná se o přechod na zcela odlišnou technologii poskytující úplně jiné možnosti pro práci s nasbíranými daty. Ty se ukládají do úložiště typu NoSQL a nad daty pracuje Map/Reduce framework. Pokud Vám tyto technologie nic neříkají, dozvíte se více v dalším zápise.

PS: hledáme posily do Brna, Prahy a Českých Budějovic

  • [1]Dobré zprávy koukám 🙂 budeme držet palce. Je možné sledovat novou robotovu práci na searchtest? Nebo lépe řečeno, je možné, že se to nějak dotkne výsledků? 😉

  • [2]Paráda, jsem zvědavej co zněho vyleze. IMHO nároky na programátory máte šílený, třeba seženete nějakou chodící encyklopedii 🙂

  • [3]Takže nahradí robota který se hlásí jako Python-urllib/2.5 ?

  • [4][1] Na searchtestu počítám ještě nějaký čas tahle změna vidět nebude. Tam se dávají až změny, které jsou nainstalované na serverech ve vyhledávací, nejvyšší vrstvě. Crawler je vrstva jakoby nejnižší. Ale vzhledem k tomu, že by se měla přepsat ještě indexovací vrstva, což do výdeje zasáhne, tak to nakonec na searchtest stejně „bude muset“. Zatím se dá sledovat, jak se nový crawler chová, jenom v access logu na serveru. Počítám, že proto to sem Digri psal. [2] Nároky na programátory šílený? Vždyť je to jenom pracovat na linuxu A (Java NEBO C/C++ NEBO Python) A musí umět číst anglicky. Spíš je šílený vyplňování toho následného odpovědního formuláře, na to bych nervy neměl.

  • Duch

    [5]Když by indexoval rychle jako Google nebo Centrum, tak už by Seznam neměl chybu 🙂

  • [6]Tak to jsem silně zvědav. Poznamenávám si jeho identifikaci;)

  • [7]Že byste zprovoznili „Webmaster tools“ s tím nepočítáte, že? Nebo možná by mi i stačilo počítání linků a varianta, že by to snad i mohlo zobrazovat datum. To asi nebude za mého života? BTW: „Ověřovací kód vypršel“, to je optimalizace pro spam roboty? Protože člověk to tak rychle nestihne napsat :/

  • [8]Naše stránky byly do změn na klíčové slovo „šperky“ na první straně v půlce a pak jsme spadli před třemi dny na třetí stranu a nyní se nemůžeme ani najít. Prosím o pomoc co je? Přitom platím jedné firmě za Seo a myslím, že nejsme na tom tak špatně. Neustále na tom děláme a zlepšujem. Ale tyhle změny byly i minulý rok v říjnu a zpět jsme se dosatli zase až na jaře. Čím to bude?

  • Zdeněk Večeřa

    [9]Tak se zdá, že se máme opět na co těšit. Držím palce.

  • [10]Díky za poskytnuté informace i za odpovědi v diskusi. Taktéž držíme palce českému vývojářskému týmu… 🙂

  • [11]Paráda, věřím, že to bude mít i vliv na rychlejší indexování nových stránek 😉

  • [12]Divím se, že to nepostavíte jako Google na Pythonu.

  • Franta

    [13]Bot Google je v Pythonu?

  • Duch

    [14]On přestal chodit starej bot? :-O Jak se tady objevila informace o tomto, tak se u mě ten původní neukázal. Ale ani ten nový 🙂

  • Duch

    [15]EDIT: Už přišel původní bot 🙂

  • Václav

    [16]Dobrý den, mám stejný problém, při staré verzi vyhledávání byly stránky na prvních stranách a nyní na třetí a níže. Prosím o radu co s tím. Václav

  • [17]Osobně bych se také přimlouval ke zprovoznění webmaster tools

  • Duch

    [18]Webmaster Tools ale nemá se Seznam.cz nic společného

  • Jan

    [19][18] ze by pisatel mel na mysli obdobu webmaster tools jako ma google, chytroline

  • [20]a zase změna sakra co radeji zachovat kontinuitu a konzistentnos …

  • [21][16] Václave, dal jsem si tu práci a dohledal Váš web podle mailu. Doporučuju změnu webhostingu a přečtěte si také něco o odkazech a linkfarmách…

  • PR

    [22]Pevně věřím, že Sbot 3.0 bude aspoň o půl řádu rychlejší, než stará verze. Z hlediska větších webů vám citelně ujíždí vlak a jednoduše nestíháte indexovat. I když Sbotovi nadržujeme a dáváme mu víc prostředků než konkurenci, starý robot je bohužel mizérie. Starý bot byl fajn pro neměnící se weby (do 20 nových stránek denně) a pro zpravodajství které je ve freshi, to co je mezi mělo prostě asi smůlu (my). Snad se to změní. dobrou

  • [23]Tak nám snad robůtek pomůže zase trošku nahoru…

  • [24]Jsem zvědavý… 🙂

  • digri

    [25][1] Jak píše Yuhů, na searchtestu bude možné vidět data nasbírané novým robotem až výrazně později, zhruba za 2 měsíce. Robot však Váš web může navštívit již teď. [20] Nový robot si neklade za cíl míchat s výsledky. Kontunuitou a konzistentností máte na mysli zmražení vývoje? To abychom poprosili ředitele internetu, aby ho taky zmrazil a pořád nám jeho obsah neměnil :). [22] To také pevně věříme, starý robot má skutečně s určitými typy webů velké problémy.

  • PR

    [26]Pokud to není úplně tajné, je možné nějakým způsobem pozitivně ovlivnit, aby k nám bot lezl častěji, než 1x za 3 dny? Určitě to bude zajímat webmastery, kteří vydávají články několikrát denně a v současné době se na to v podstatě jen kvůli sbotovi musí při návrhu webu brát ohled, aby se články v mezidobí dostaly vůbec do pozornosti (a cesty) vašemu botovi. Pokud se zásadně zvýší frekvence v takových případech, stačí mi jednoslovná odpověď 🙂 díky

  • [27]zajímavý článek…

  • [28]Zajímalo by mne, co rozhoduje o četnosti návštěv bota na webech. Aby byla četnost častější musí na web odkazovat co nejvíce odkazů, nebo mít pro Sbota co největší Srank?

  • Duch

    [29]Na naše weby už tři dny pozorujeme príchody nového crawleru a prochází krásně všechny podstránky. Už se těším, až bude v ostré verzi.

  • [30]To je uplně výborná zpráva 🙂 konečně zaplácnutý asi nejvýraznější negativum oproti googlu (a pak má Seznam snad už jenom pozitiva :)) Ale spíš by mě zajímalo co se Vám aktuálně už dva tejdny cca. děje s NAŠEPTÁVAČEM – že už to moc neřadí podle četnosti hledání ale víceméně náhodně, jak se mu zachce? dostal jenom podzimní depky nebo to je už trvalej jev?

  • [31]Nechápu, když se ve výsledcích vyhledávání zobrazuje místho HP jen podstránka, přestože v ní vyhledávaná fráze vůbec není, zatímco na HP je, a to třeba dokonce v hlavním h1 nadpisu. Např. když zadám „webové stránky levně“, tak na druhém místě ve vyhledávání je http://www.simplyeasy.cz/jak-na-to.html, kde ta vyhledávaná fráze vůbec není, zatímco HP http://www.simplyeasy.cz, kde ta fráze je v hlavním nadpisu, ve výsledcích vyhledávání nefiguruje vůbec(!) – přitom i ostatní faktory, jako počet linků na tu stránku, hodnota S-ranku atd. naznačují, že by ve výsledcích místo té podstránky měla být ta HP. Je to chyba na vaší straně nebo je něco špatně s tím webem a penalizujete ho (v tom případě bych byl velmi zvědavý co je špatně)? V každém případě mi to připadá jako dost divná a zásadní chyba.

  • [32]Ještě malý poznatek k Vašemu fultextu. Vím, že se na něm snažíte poctivě makat, aby byl opravdu dobrý. Myslím, že momentálně je to ale spíš věci na škodu. Dnes jsem potřeboval najít kontakty a domovskou stránku na Avion Shoping Park Ostrava (největší nákupní centrum v Ostravě) Po hledání na Seznamu, který mi vyplivl toto: http://search.seznam.cz/?sourceid=szn-HP&thru=sug&q=avion+shoping+park+ostrava a při prvním pohledu mě ani nenapadlo, že nadpis „Autogramiáda Jakuba Smrže“ je to co zrovna hledám. jse, se obrátil na konkurenci, tedy Google.cz, který mi naprosto přesně a s určitostí vrátil právě to co jsem hledal a to dokonce s mapou http://www.google.cz/#hl=cs&source=hp&biw=1341&bih=687&q=avion+shopping+park+ostrava&aq=4&aqi=g10&aql=&oq=avion&gs_rfai=&fp=f99e3211baf34f55 Aby jste to s těmi podmínkami pro indexaci stránek trochu nepřekombinovali. Zatím jste nejoblíbenější, ale takhle alespoň u mě docela dost ztrácíte. Zkuste to prosím předat vývojářům fulltextu. Děkuji!!!

  • michal

    [33][32]chybicka se vloudila, shoping park se pise shopping park;) a pak to funguje docela dobre..http://search.seznam.cz/?sourceid=szn-HP&thru=sug&q=shopping+park+ostrava

  • Roman Jedlicka

    [34][31] – to je problem, protoze i kdyz ma clovek web hodne vysoko ve vyhledavani, tak tam Seznam da misto hlavni stranky nejakou podstranku. Vyhledavana fraze sice na hlavni strance je, ale kdyz uzivatel na odkaz na Seznamu klikne, tak ho to hodi na tu podstanku kde to nenajde, tak si rekne co ze je to za bordel, na hlavni stranku uz se nepodiva a jde pryc. Pekne na houby 🙁

  • Martin
  • [36]Přidání stránky přes http://search.seznam.cz/pridej-stranku nefunguje nebo má teď robot jen hodně práce?

  • [37][36] Musím se přidat – mám úplně stejný pocit, že současný robot nestíhá. Nová stránka přidaná před půl měsícem má na seznamu zaindexovanou pouze úvodní stránku a na google jich je už 33. Podobně je to i s aktualizací běžících webů.

  • Tomáš

    [38]Výsledky až tak relevantní nejsou, např. spojení ikea bazar na druhém místě nějaký mimibazar kde vůbec žádný ikea bazar nenajdu 🙁 Hledáme více zboží z ikei a ne jen jeden inzerát na mimibazaru http://search.seznam.cz/?q=ikea+bazar

  • [39]Ještě k tomo shopingu s jedním „P“. Ukliknul jsem se, protože mi to Váš našeptávač nabídl. Proti tomu Google takový nesmysl vůbec nenabízí a proto jsem tam našel správný výsledek okamžitě ;-)Hledal jsem pod slovem „Avion“

  • [40]Asi si nastavím jako výchozí vyhledávač Google. Tenhle paskvil už mě nebaví. Hledám „Matrix pro“ firmu, která mi poskytuje internetové připojení. Seznam najde trekongové boty, skůtry, program pro roztřepené konečky vlasů a zadaná firma NIKDE. Zadám to samé na Google a ejhle, je na prvním místě. Gratuluji k takovému skvělému vyhledávači!

  • Radek

    [41]Ano. Fulltext nesklamal! Opět upgdate chvíli před vánocemi, ostatně jako každý rok. To je schválně? Opět stojí indexování. Nekolikrát jsem přidával nový obsah stránek do indexu a již víc jak týden není načten nový obdsah!

  • Roman

    [42]To je normální, stačí se podívat na to jak zviditelnuji jen sve projekty 🙁 4 stranky seznamu na prvni strance apod. dalsi weby jsou az nekde na 5 strance 🙁 Nepovedene

  • [43]chtel bych se zeptat na relevanci slov a obsahu jak se snazite stale zlepsovat: jedna se o slovo „cirkulárka“. Web na 7 pozici (http://www.dilna-eshop.cz/cirkularky/) nemá ani zmínku o cirkulárkách na stránce kde to odkazuje a web co je na 10míste (http://www.akunaradi.cz/cirkularky/c-1032/) jich tam má nekolik..

  • Michal Malý

    [44]Má vůbec smysl sem psát příspěvky, když se k tomu stejně nikdo nevyjadřuje? Navštěvuje tuto diskuzi vůbec někdo ze seznamu? Pokud ano, prosím o komentář… děkuji

  • [45]Opravdu již delší dobu se nic neděje s S-Rankem a indexací. Může někdo říct kdy se vše vrátí zpět do normálu?

  • [46]Seznam mi přijde, že normálně indexuje. Možná pomaleji, než běžně, ale změny které jsem na několika webech udělal, zaznamenal asi za 5 dní…

  • Adhiraj

    [47]Nevím kam to napsat, ale to co se děje s výsledky poslední cca tři týdny je dost horor. Zaspamované první pozice doménami třetího řádu od jedné hlavní domény. Web který na google už dva týdny funguje seznam ani nemá naindexovaný. Co se prosím u Vás děje? 🙁

  • Vlada

    [48]Ja nasadil pred 14-ti dny PHPBB3 diskusi. Google jiz projel 1400 stranek, seznam pochybne 6 a jeste blbe 🙂 Pak mam stranku nasazenou od poloviny zari (mesic) a zaindexovano seznamem je pouze hlavni stranka a to je vse. Mizerie, mizerie 🙁

  • [49]Tomuhle už se nedá říct mizerie, spíš horor. V září jsem začala tvořit nové stránky na webu TipFinance.cz, a do dnešního dne není na Seznam.cz zaindexovaná žádná. A to údajně má být nový robot o hodně lepší a hlavně rychlejší. No promiňte pánové a dámy ze Seznam.cz, ale já (a věřím, že i mnoho dalších) bychom raději chtěli zpátky toho starého dobrého robůtka :).

  • Míša

    [50]Na mém starším eshopu byl robot 30.9. a pak až 19.10. Ale stránku, kterou jsem komplet odstranila na kw ve vyhledávání pořád zobrazuje. Nějak si v té rychlosti asi nevšiml… Druhý eshop mám nasazený od 10.9. a je zaindexovaná jen hlavní strana. Postaru by už byl zaindexovaný komplet.

  • Duch.Veliky

    [51][48]: Stejná situace. Na Seznam.cz máme jen homepage a na google už 1.400 výsledků.

  • [52]Kdybych byl sprostej, asi by jste si tu něco přečetli :-((( Tohle je největší internetová katastrofa za posledních x měsíců. To se jmenuje vyhledávač od slova „hledat“, jako že tam nic nenajdu, takže budu furt vyhledávat. SUPER! Mimochodem našeptávač je taky výbornej. Napíšu „fulltext“ a našeptávač mi radí: facebook, facebook.com, freevideo, farmerama… To už máte reklamu i v našeptávači ?

  • Míša

    [53]V eshopu mám produkt s dost specifickým názvem, který prodávám v ČR jako jediná. Tomu produktu jsem vytvořila ještě speciální web, takže jsem logicky byla na 1. a 2. místě ve vyhledávači. Teď, když zadám kw, tak na žádné z těch 7 stran nejsem. Ale odkazy z katalogů na mé stránky a diskuse o výrobku z jiných stránek to zobrazuje. Relevantnost jako prase.

  • [54]Jak získat zpět stracené pozice se dozvíte na www nad příspěvkem.

  • [55]A jé to bude na dlooooouho… viz. odkaz na www a clanek s titulem: „Seznam.cz rozšiřuje tým, hledá zkušené odborníky i absolventy“ Následně budou hledat obchodníky pro posíleni Skliku… Bohuzel jak ho nemusím zlatej Google. S tímto přístupem za rok dva bude platit „Seznam? Tak ten neznám!“ jelikož teď jak před rokem v této době platilo a opět platí „Seznam, nenajdu ani co znám“

  • [56]Ten samý problém co tu byl už řešen. Dva roky na „kamerové systémy“ na 1-5 místě a nyní na seznamu ani nejsme. Co s tím?

  • Míša

    [57]Tak já hlásím návrat mých 2 webů na původní místa(1. a 2.). Jeden web se vrátil cca o týden dřív než ten druhý (na stejné kw). Chce to vydržet:-) Ale web, který jsem spustila před 1,5 měsícem, má zaindexovanou jen 1.stranu a 2 odkazy, což je málo. A na kw se nezobrazuje vůbec.

  • Radim

    [58]Webové stránky http://www.sylva-klaun.cz byly na třetí pozici na první straně na slovo „klaun“. Teď jsou z ničeho nic na druhé straně uprostřed, nechápu… Tyto stránky nejvíce odpovídají danému slovu, jsou optimalizovány, přesto se bezdůvodně propadají

  • Stan

    [59]Tak nevím, zatím jsem žádné zlepšení nezaznamenal spíš naopak. V září jsme spustili nový projekt. Na stránky zajistili dostatek zpětných odkazů z našich projektů i z hlavních katalogů. Robot si zaregistroval úvodní stránku a od té doby nic. Na podpoře mi řekli, že teď musí nový robot přeindexovat miliardy stránek, tak že to potrvá. Do listopadu žádná změna, tak jsem hlavní stránky přidal ručně, přes formulář. Stránky jsou již přes příkaz site: vidět, ale na klíčová slova stejně dohledám pouze hlavní stránku.

  • Petr

    [60][59] šťastný to muž, my jsme přidali nové podstránky přes ruční formulář a to již několikrát a za 21 dní žádná změna. O našem eshopu raději ani nemluvím. Stránky, které dříve znal už nezná. Začínám opravdu věřit v konspiraci skliku a doufám, že díky těmto výsledkům nabere google ještě větší vítr do plachet. Smutné je, že všude čtu co je dobré pro lidi, určitě když někdo dělá web se zprávami, tak chce aby se vše horké zobrazovalo až po půl roce. Myslím že každého budou zajímat výsledky voleb v roce 2010 po indexaci někdy v listopadu 2011 🙂

  • Honza

    [61]Fulltext seznamu opravdu skvěle funguje :-)) Na první stránku výsledku (z cca 18000) se nám dostala adresa našeho zkušebního webu, který nemá texty, titulky, nadpisy, odkazy a hledaný výraz je pouze v adrese.

  • [62]Nějaké stránky se mi podařilo přidat přes přidávací formulář.

  • Duch.Veliky

    [63]Kašlou na nás.

  • [64]Dobrý den, na klíčová slova bazén, bazény jsme na google.cz na 1 stránce v SEO optimalizaci z webem http://www.bazeny-niveko.cz u Vás na seznamu jsme měli 1 stránku také, ale po nasazení nového robota jsme spadli na 3 stránku…, zkuste prověřit relevanci těchto slov…

  • Radim

    [65]Jako někdo už by tady mohl dát vědět jak dlouho tenhle chaos bude trvat… už to přestává být vtipné

  • mates

    [66]… a Vy si myslíte, že ty naše otázky někdo čte? Že se sem někdo ze Seznamu dívá? Koukněte se na příspěvky #63, #61 a bude Vám jasná zbytečnost tohoto počínání!

  • Míša

    [67]V lednu prý bude nasazen nový rychlejší robot. Takže další chaos se asi dá očekávat.

  • Martin

    [68]Na seznamu.cz je to fakt podivné. Kupříkladu naše stránky jsou na google první a na seznamu spadly během 14 dní z 10 na 14 a teď dokonce na 27. Divné a připadá mi to jako čistý amatérismus. Asi by se kluci měli jít učit ke Googlákům jak se to má dělat, nebo fakt už nevím. Seznam je nelogický, čím lepší SEO tím horší pozice 🙁

  • Přepísk

    [69][69] Pokud se robot nerozbije hned při prvnim kolečku, tak bych viděl výhodu v rychlejší reakci – o pozice přijdete hned a ne až za 2 měsíce 😉

  • [70]Tak seznam mi uz par stranek zaindexoval 🙂

  • [71]Zdravim Seznam, jsem rád, že pokračujete směrem dopředu. Pořád je co zlepšovat… 🙂

  • Kalitch

    [72]Ahoj, jak to vypadá s tim novym robotem? Namátkově jsem mrknul do access logu pár webů a v prosinci jsem přístup 3.0 bota nezaznamenal. Rozjede se v lednu?

  • [73]Ať koukám do logu jak chci, tak vidím stále SeznamBot/2.0. Pokud bude 3.0 inteligentnější a výkonnější, tak to bude určitě ku prospěchu.

  • Honza

    [74]Současný crawler se do logu opravdu hlásí stále jako seznambot 2.0, kdy bude zařazeno do vyhledávání nový crawler?

  • Tom

    [75]1) Nefunguje Vám stránka pro nahlášení spamu – vždy vypíše 500, interní chyba systému. 2) http://sevnet.cz/archiv/kvd/ – linkfarma Dobrý den, tato stránka je nejen účelově vytvořená aby zobrazovala viditelně tři boxy s Sklikem, ale zároveň generuje obsah na nejrůznější klíčová slova. Když si stránku zanalyzujete, zjistíte, že mnoho jejich stránek bere tak, že vezme výsledky vyhledávání seznamu na určité klíčové slovo, převede výsledky do textu a pak na samotných stránkách zobrazuje holý text. Obsah mnoha jejích stránek pak vypadá asi takto: =============================================== Parfémy Elnino.cz – parfémy u Vás do 24 hodin Parfémy – Elnino.cz … 12 důvodů pro nákup parfémů v parfumerii Elnino http://www.parfemy-elnino.cz/ – Jičín – Zobrazit na mapě Náhled http://www.parfemy.cz Parfemy.cz – levně … levné parfémy se slevou 40–60% Nakupovat parfémy a parfumerii se u nás vyplatí … Přes 3000 originálních značkových parfémů http://www.parfemy.cz/ – Chrudim – Zobrazit na mapě Náhled http://www.parfem.

  • martin

    [76]tak na takové stránky jsem seznam upozorňoval již před 4 měsíci – ale je jim to úplně jedno – aby nebylo když tam je sklik z kterého mají peníze – smutné je že tyto weby tlačí na 1. stránky ve vyhledávání.

  • Mr Bean

    [77]google – 1 stranka yahoo – 1 stranka tisice vyhledavacy – 1 stranka seznam.cz – 8 stranka a proc ? Seznam je nelogický. Lide taki

  • Džamajka

    [78]Už je nějaký odhad k jakému dojde zrychlení? U starších webů jsem během ledna 3.0 bota potkával docela často, ale z novějších webů se mi za poslední 3 týdny objevily v indexu pouze 1-3 stránky/doména…