Nový screenshot generátor

Náš nový systém pro generování náhledů stránek je v závěrečné testovací fázi.

V blízké době spustíme do ostrého provozu novou verzi programu, který se stará o náhledy stránek pro naše vyhledávání – alias „screenshot generátor“.

Nový systém je napsaný komplet od píky a běží na jádru Mozilly (MozEmbed). Původně jsme sice chtěli použít WebKit, ale bohužel na Linuxu ještě nebyl v takové formě v jaké bychom si přáli.

Očekávané přínosy:

  • častější aktualizace náhledů,
  • snížení počtu chybějících screenshotů,
  • snížení počtu špatně vygenerovaných screenshotů (např. celý bílý),
  • odstranění problému, že za určité situace se u url zobrazil náhled z úplně jiného webu ;-),
  • … a samozřejmě hezčí a menší screenshoty.

V celkové koncepci systému budou pro Vás (majitele webů) zajímavé asi dvě změny:

  1. Náhradní screenshot. V případě, že nemáme screenshot pro konkrétní url, systém se pokusí najít a vydat nejbližší vhodný. Ten hledá tak, že postupně zkracuje url (nejprve query string, potom cestu až na úroveň homepage webu) a vrátí první existující.  Pokud neexistuje ani screenshot homepage, vydá se default „náhled není k dispozici“. Ověřili jsme si, že screenshot HP je lepší než žádný screenshot 😉
  2. Pevný rozměr browseru. Obrázky jsou snímány v rozlišení cca 700×550 pix. To způsobuje, že užší designy stránek jsou zobrazené centrovaně a širší designy jako výřez z levého horního rohu – to je záměr. Široké stránky nebyly v malém náhledu moc čitelné a toto zachová její čitelnost v nejdůležitější části tak, aby jí uživatel pohodlně rozpoznal.

Hledání s novými screenshoty si můžete vyzkoušet na našem searchtestu.

Pokud chcete otestovat jak bude vypadat screenshot Vaší stránky, ale stránka ještě není vyfocená, stačí jí přidat přes přidávací formulář (libovolně na searchtestu nebo na ostrém; oba jsou již připojeny na nový screenshotátor) a screenshot se vám během pár minut vygeneruje.

Nový screenshotátor budou používat také firmy.cz a náš odkazový katalog.

Pokud narazíte na problém s vygenerování náhledu pro vaše stránky, pište to prosím sem do diskuze.

Update 6.3.2009: Nedávno se změnila IP adresa, z které screenshotátor chodí do internetu. Aktuální IP je: 77.75.76.115 (nat.seznam.cz). User-agent screenshotátoru je stále stejný: Mozilla/5.0 (compatible; Seznam screenshot-generator 2.0; +http://fulltext.sblog.cz/screenshot/) , doporučuji hledat string „Seznam screenshot-generátor“.

  • insekticid

    [1]Tak na tohle jsem netrpelive cekal. fulltext me reindexoval cely web pri zmeny domeny redirectem 301 a zahodil screenshoty. Ty nove byly z 60% z jineho webu. Jeste byste meli poladit ty 301 redirecty. Mesic od reindexace a web porad neni na prvnich mistech kde byl pred zmenou domeny. 16.+ stranky urcite neznaci ze si s tim prechodem robot dokazal poradit

  • Ivan

    [2]Super, drzim palce at splni ocekavani. to insekticid: redirect ti nezaruci stejny pozice po presunu webu – presun webu s dobrejma pozicema neni dobrej nápad…

  • [3]2insekticid: zrovna nedavno jsme objevili jednu chybu, ktera trochu zpomalovala presun redirectovanych stranek. oprava uz je ve vyrobe.

  • [4]Nechapu proc jste vybrali tak nestandardni rozmer, proc neni na sirku aspon 800px, coz je standardni sirka? Pokud nekdo optimalizuje na toto rozliseni, tak mu 100px odriznete.

  • [5]Díky za zprávu o použitém jádru, nás příznivce Mozilly to potěší =)

  • [6]Jakékoli hledání na searchtestu vrátí chybu – Chyba komponenty 🙂

  • [7]Rozmer se mi zda taky trosku hodne nestandardni – jedine co mi dneska vadi na screenshotech u seznamu je, ze se delaji v malem rozliseni – dnes, kdyz se weby optimalizuji na 1024×768 a vys mi to prijde trosku zpatecnicke. Mate v planu casem zvetsit „tipaci“ rozliseni? Ja osobne bych to velmi ocenil ;). Kazdopadne diky i za to co je :).

  • [8]Super, chválím na toto jsem čekal konečně se mi zobrazují korektně náhledy. Doufám že to brzy bude na živo:)

  • [9]Dobrá zpráva! Vygenerování screenshotu pomocí „přidávacího formuláře“ v poslední době nefungovalo. Teď už to vypadá dobře.

  • lukas ;)

    [10]Nechapu, proc jste vybrali tak nesmyslny rozmer, kdyz vetsina webu s pevnym layoutem se dela na sirku monitoru 1024px (960px cista sirka), takhle vetsina webu bude oriznuta…

  • [11]Super! Už mě nebavilo přidávat desítky podstránek do formuláře jen proto, aby se pro ně vygenerovaly screeny:-)

  • [12]Super, bylo to už potřeba! na testu to vypadá hezky, už aby jste to nasadily.

  • Radek

    [13]Často u mnou zadaných kw vidím, že to zobrazuje screenshot homepage webu, nikoliv dané stránky. Ale jak už někdo psal výše, lepší než nic.

  • Clay

    [14]Má screenshot generátor nějaký time out po kterém obrazovku snímá? Některé flashové prezentace (které se načítají déle) jsou pak „vyfoceny“ v době, kdy stránka není načtena úplně např. sportovni vysledky (dot)cz … co s tím?

  • [15]Super, z toho mám radost. Všiml jsem si, že jiné i zobrazování firem – v searchtestu se zobrazuje logo první společnosti daného jména (pokud je logo): http://searchtest.seznam.cz/?q=emocio&mod=f Nyní je prezentováno především logo firmy.cz: http://search.seznam.cz/?q=emocio&mod=f Takže se z prvního odkazu, který je převážně rozcestník na víc firem, stává skoro plnohodnotný search result, tedy alespoň vizuálně 🙂

  • [16]hlásím chybu! 🙁 nedělá to dobře náhledy, patrně to bere nastavení pro hanheld.css výsledek LUNCHTIME http://searchtest.seznam.cz/?q=lunchtime&mod=f&sId=PlRNtbl3ogC1 detail podniku http://searchtest.seznam.cz/?q=hacienda+mexicana+lunchtime&mod=f&sId=PlRNtbl3orB9

  • Karel Pětruchno

    [17]Rozměr 700px je zcela záměrný. Kdybychom típali stránku v rozlišení 1024px, poté ji zmenšili na velikost 100x70px, pak by vypovídající hodnota konečného obrázku byla šumová.

  • [18]Re Karel Pětruchno: porovnaval jsem ze zvedavosti 300 pixelovy rozdil pri zmenseni na 100px dle toho, jak pisete, ale nejsem si az tak jist, nakolik je vypovidajici hodnota vetsi. Osobne mam spise pocit, ze u obrazku 100px velkeho nemuzete cekat nejakou zavratnou vypovidaci hodnotu. Chapu vase argumenty, ale pripada mi lepsi mit obsah obrazku titernejsi, nez oriznout cast webu a tim riskovat „uplneho vypusteni“ casti vypovidajici hodnoty. Berte prosim jen jako nazor, nikoliv kritiku :).

  • Sten

    [19]Clay: timeout se určuje podle obsahu stránky, u flashových je větší. Bohužel u flash je problém, že nelze jednoduše určit, jestli zobrazuje teprve načítací obrazovku nebo obsah. adan: Problém je, že styly vydáváte jako text/plain, ne jako text/css. Firefox je proto ignoruje.

  • [20]mě to přijde jako naopak poměrně rozumné (rozměry obrázku). Hodně webů je centrovaných, hodně jich má v pravo sidebar… Argumenty pro tohle rozhodnutí chápu, přestože to je hodně zvláštní 🙂

  • [21]Chápu, že šířka 1024 by vedla k náhledům s příliš titěrnými detaily, ale 700px je opravdu příliš málo. Proč tam prostě nedat alespoň těch standardních 800px? Jinak dobrá práce, ty náhledy už opravdu chtěly předělat 🙂

  • [22]Velikost screenshotů je dobře zvolena, optimální kompromis. Nechápu, proč to někomu přijde málo.

  • [23]to Zdeněk Večeřa: třeba proto, že je to naprosto nestandardní rozlišení. Jestli někdo oprimalizuje na nějakou šírku tak 640, 800 a 1024. Nevím o nikom, že by optimalizoval na 700px. To nemá ani žádný mobilní zařízení… prostě úlet

  • Karel Pětruchno

    [24]Nejde o to dostat všechny informace do náhledu! Důležité je, aby čitelný náhled spolu titulkem, popiskem, url tvořili dobrý výsledek 🙂

  • [25]Reaguji na Radka: Když se zobrazuje homepage místo náhledu konkrétní stránky, tak to neznamená, že se screenshotátor nepokusí v budoucnu to konkrétní URL sejmout. On ho jenom v tu chvíli hned nemá. Reaguju na Claye: ten timeout tam je a je pro flashe docela dlouhý. Jenomže když flashová aplikace tahá moc dat, tak se prostě místo aplikace vyfotí její preloader. Reaguji na všechny, kdo se přou o rozlišení: Cílem screenshotování není vyfotit stránku. Cílem je dát uživateli na co nejmenší ploše co nejvíc informací. Pokud budeme sledovat záměr fotit stránky, tak souhlasím, že 1024 by bylo lepší. Pokud ovšem chceme informovat uživatele, musíme mu dát obrázek, ze kterého se něco dozví, ne hromádku barevného šumu, velmi podobnou jiným hromádkám barevného šumu. Fotit na rozlišení plus mínus 700 není náhodný nápad nějakého programátora, ale výsledek minimálně dvou relativně bouřlivých porad. Nějak jsme to rozseknout museli a myslím, že to dopadlo dobře.

  • [26]Když už máte screenshoty, co udělat službu katalogů screenshotů webů nebo alespoň jejich prohledávač podle kategorií? Pro odbornou komunitu by to bylo hodně užitečné (například vyhledat si screenshoty na téma „homepage eShopu zaměřeného na IT“).

  • [27]Díky za všechny klienty! 🙂

  • [28]Radime, když nám ke katalogu screenshotů vymyslíš sedmimístný obchodní model, tak se tomu budu rád věnovat. Jinak se rád vzdám úkolu vyhledávat screenshoty na téma „homepage eShopu zaměřeného na IT“. Fázi vývoje hračiček pro geeky už máme doufám za sebou. Jsme malá firma a musíme se soustředit na naše hlavní služby.

  • [29]Koukám že se diskuze docela rozjela, nez jsem stacil odpovedet, takze jenom doplnim: timeout pro flash je asi 20sec. screenshotovaci sirka 700px – puvodni zamer byl screenshotovat v 1024px a pak delat vyrezy. Postupnym testovanim jsme ale zjistili, ze je to docela komplikovane, aby vypadaly dobre a ze lepsi vysledky dava primo zuzeni sirky browseru na mensi hodnotu (i kdyz je riziko ze to muze rozhodit nektere stranky; rozhozenych stranek je ale min nez jsme meli spatne vyriznutych). k hodnote 700px jsme dospeli testovanim ze dava nejlepsi obrazek) ve vyslednem screenshotu. standardni rozmery (640, 800 a 1024) jsme samozrejme zkouseli a z jejich testu nam prave vyslo ze budeme muset pouzit neco mezi. tak asi tak 🙂

  • K2O

    [30]pokud to tedy dávalo špatné výsledky (screen 1024px), proč nezvětšit i ten náhled ve vyhledávání? ze 100x70px třeba na 120x80px, nebo ještě více, do šířky klidně i 150 a do výšky by tam určitě taky ještě pár pixelů rezerva byla…ale jinak chválím, vypadá to lépe 🙂 PS>pokud vyprší ověřovací kód při vkládání komentáře, ocenil bych kdyby se mi stránka vrátila na formulář abych nemusel scrollovat

  • Mirek

    [31]nedal by se provest opet nejake vycisteni vysledku? na prvnich stranach vysledku mi lezi stranky, ktere maji uz 2-3 tydny uplne jiny obsah…

  • [32]skvělé změny, jen pořád zůstal problém se screenováním některých flash prvků – například můj web http://www.herni.cz nemá v searchtestu flashové logo ..:( a taky se objevuj dnes dvojí výsledky některých hledání, jednou mam herni.cz např. na „online hry“ na první stránce a při reloadu zas na stránce páté – nemám web třeba nějak penalizován nebo tak? protože todle je hodně divné

  • Honza

    [33]Nezverejnite zdrojaky toho screenshotovace? Myslim, ze by to ocenila spousta lidi. Dobre funguji opensource reseni pro screenshotovani moc neexistuje…

  • [34]2honza – covece, nevim jestli by to nekomu prilis pomohlo. Je to pomerne velka aplikace delana na velke objemy, ktera kombinuje screenshotovani s vydejem screenshotu (ted to bezi asi na 25 serverech). Myslim ze pro male objemy je lepsi sosnout MozEmbed s obalem v python/ruby/perlu a upravit (nekde u toho je i demo applikace). To prakticky bude generovat uplne stejne screenshoty a rozbehnuti bude daleko mene nakladne/pracne :-).

  • [35]Vypadá to na první pohled docela fešně akorát mi trošku vadí již zmiňovaný flash náhled a to konkréně u youtube videí. Bílá barva kazi někdy screen, ale zas si jí uživatel lépe všimne :).

  • Roman

    [36]Měl bych jeden dotaz. Mám adult webovou stránku. Mám pomocí javascriptu udělán script, který zobrazí pravidla pro vstup na stránky (podobně jako má freevideo), bohužel, pokud javascript na web implementuji, screenshot je budto s bilym pozadim a to proto, ze kdyz se klikne na nesouhlasim, zobrazi se bila stranka. Lze neco udelat s tim, aby pri pridavani webu se nebral v uvahu javascript? Díky moc

  • [37]Roman: yes, vyzaduje to ale workaround na vasi strane. Screenshotator automaticky zabiji vsechna vyskakovaci okna, takze kdyz vyskoci disclaimer tak ho proste killne a zobrazi se to kam redirectnete. S touto funkci se bohuzel neda nic delat. Reseni je pro screenshotator nevyhazovat disclaimer. Rozpoznani doporucuju podle useragenta (lepsi) nebo ip adres (horsi, podlehaji zmenam casteji nez useragent). Upravu lze realizovat v javascriptu primo na strankach. User-Agent screenshotatoru je: Mozilla/5.0 (compatible; Seznam screenshot-generator 2.0; +http://fulltext.sblog.cz/screenshot/) Nejlepsi je tedy hledat substring „screenshot-generator“. IP adresa – zatim se pouziva pro pristup do netu pouze jedna adresa 77.75.77.123, ale v ramci bezpecnosti bych to udelal aktivni na dva pravdepodobne rozsahy 77.75.77.0/24 a 77.75.73.0/24.

  • [38]2solamyl: //nedavno jsme objevili jednu chybu, ktera trochu zpomalovala presun redirectovanych stranek… nesouvisi s tim i to, ze jsem dal vytvorit screenshot pridavacim formularem v momente kdy vysel tento clanek a screenshot stale chybi?

  • Roman

    [39]Solamyl: Díky za návod, já to na webu měl takto upravené, bohužel jsem neměl kdy otestovat jakou hlavičku posíláte, screenshoty se delší dobu neobnovovaly, tak jsem ji nemohl odchytit 🙁 Teď dle Vaší specifikace jsem script upravil a funguje parádně. Díky

  • Slávek

    [41]nevypadá to lépe, ale výrazně hůře a každej kdo je kodér, kterej to nemá na háku se musí ošívat, dle zvoleného řešení pak vytípává nehezké fragmenty u webů s pevnou šířkou tam, kde člověk ctil 770px a zbytek jen opticky doladil pro vyšší rozlišení, u flexi layoutů to dostalo slušně na zadek, a u těch větších je to v podstatě jedno, nevešly se do záběru celé předtím, teď je z nich vidět o minipidi více logo, pokud ovšem není na pravé straně, takže je to téměř jedno, čili předtím lepší, ale co zmůžem že 🙂 každopádně za sebe 800 nechat

  • Sten

    [42]adan: Tak chyba byla u nás, váš server neposílá vůbec žádný content type a naše proxy tam doplňovala text/plain. Při nasazení nové verze to bude opravené. mara666: Problém je v tom, že flash na YouTube (a i Streamu) je načítaný přes JavaScript, který aplikace pro rozpoznávání obsahu nepodporuje a u příslušné stránky nepozná, že obsahuje flash a tak ji nechá fotit bez flashe. Nicméně zkusíme přijít na nějaký workaround. insekticid: Nesouvisí, screenshotator funguje nezávisle na hledání.

  • milan

    [43]tak vidim, ze uz to frci na ostrem… co si budeme povidat, web bez nahledu ke kliknuti nelakal – jen doplneni screenshotu dokazalo na spravnych mistech zvednout navstevnost webu i o 30procent… spatny nahled nebo sedy obdelnik je snad minulosti… a jestli ten nahled je ze 700px nebo 800px, tak tam tu holou prdel poznam a vyhnu se ji, diky

  • [44]Jojo prave pred chvili jsme to uz pustili do ostreho provozu.

  • milan

    [45]jj, je to fajn, ze nahledy jsou vsude…

  • [46]Paráda, já jsem měl třeba u fórka náhled z uplně jiného webu, nyní vše OK.

  • [47]Takze jste vlastne nic nezmenili. Gecko to umi nativne. Sirsi designy jsou v dnesni dobe normou. Dalsi vec, ktera se mi nelibi u vaseho screeneru je ta, ze si nedokaze poradit s Flash animacemi = flash web vyplivne prazdny screen. Nic proti, ale ty testovaci screeny jsou fakt hnusny a necitelny!!!

  • [48]Když vyloucim v google analytics provoz z domény seznam.cz budu mít jistotu, že sem vyloučil právě tohoto robota? A pak mám ještě problém se screenshotem http://www.uzuzu.cz a je to jen xhtml+css+png.

  • [49]Dobrý den, neuvažovali jste někdy o tom, že by vám český webdesigner s tímhle náhledem mohl pomoci? Já bych rád někde do rootu svého webu vygeneroval náhled s požadovaným rozměrem.

  • Sten

    [50]Petr: Screenshotator ode dneška chodí z IP adresy 77.75.77.115, předtím chodil z 77.75.77.123. Proto doporučuji filtrovat podle User-Agenta.

  • [51]Your bot does not respect my site’s robot.txt, my logs show that it also downloaded elements that are off limits to robots. I invite you to read up about the robot exclusion standards on http://www.robotstxt.org/

  • [52]A kdy se dočkáme kvalitnějších výsledků vyhledávání, které zobrazí alespoň ne úplně zcestné výsledky?? Viz: http://search.seznam.cz/?q=site%3A100plus.cz&mod=f

  • lama

    [53]Jak nastavím v GA exclude filter podle UA?

  • [54]Dobrý den, také bych se chtěl zeptat, jak vyfiltrovat vašeho robota z Analytics. Zkoušeli jsme exclude filter na IP adresy s regulárem ^77.75.7(7|3).[d]+$, ale nefunguje to.

  • [55]Nedavno se zmenila ip adresa ze ktere screenshotator chodi. aktualni je 77.75.76.115 (nat.seznam.cz). Useragent zustal stejny. Pokud delate filtraci, doporucoval bych primarne pres useragenta ten podleha zmenam minimalne. IP adresy se muzou cas do casu zmenit.

  • [56]Jeste me napadlo, jestli chcete mit od IPecek pokoj, tak muzete filtrovat cely seznam rozsah, ktery by mel byt 77.75.72.0-77.75.77.255 .

  • [57]Pro všechny, kdo si není jistý, jak odfiltrovat screenshotovač v Google Analytics, máme malý návod na našem blogu (viz. www)

  • Braveman

    [58]Dobrý den, mohli byste se podívat, proč od nasazení nového screenshot generátoru generátor špatně zobrazuje naše stránky? Horní menu je OK, ale dále je vše značně posunuto doprava. Ukázkový příklad: http://search.seznam.cz/?q=hodnoceniher+grand+theft+auto Děkuji za omrknutí, prosím, napište sem do diskuse, že se na to někdo podíval, at pak nespamuju ještě někde jinde:) Díky moc

  • [59]Dobry den. Uz 3x mi screenshot generator shodil server. Doporucil bych, aby pozadavky rozlozil do delsich casovych intervalu. Mam 250 domen na jednom IP a screenshot generator zazadal o spoustu pristupu, sice na ruznych URL, ale server byl jeden. Doporucuji bud udelat nejaky webmaster tool, kde to pujde nastavovat nebo prochazet stranky pomaleji a s ohledem na URL a IP serveru. Ne vsechny stranky maji CACHE… Doufam, ze jsem to popsal, tak bya se to dalo pochopit, kdyztak popisu blize pres email. Honza

  • [60]dneska se mi po ránu zahltily všechny procesy Apache, na místě činu v inkriminovanou dobu googlebot, slurp, a SCREENSHOT, jenže ti dva ostatní jsou v tom asi nevinně – nedá se v robots.txt nastavit rate limit rate speciálně pro screenshot???

  • Mára

    [61]Dobrý den, váš screenshot generator mi vyhazuje chybu – Cannot use a leading .. to exit above the top directory. Tato chyba byla v asp.net 2.0, proto jsem presel do 3.5 a chyby z googlu, yahoo apod nechodi, vse je vporadku, ale od vas chodi, proc jinde je to ok a u vas ne? diky

  • [62]Dobry Den, staram se o weby na Sanoma Magazines napr.: http://www.kafe.cz a http://www.marieclaire.cz Vas screenshot generator, nam generuje nahledy s errorem , nejspise nevalidni xml podle nahledu tezko rict. priklad: http://searchtest.seznam.cz/?q=marie+claire&sId=YSJKeH5Fww55fotkq1ts&sourceid=top Neda se nekde vyzkouset vas generator s vysledky ve vetsim rozliseni ktere by nam rekli co je spatne, nebo poradit jak zajistit aby takoveto vysledky nahradili skutecne nahledy nasich webu? S Pozdravem Petr