Hledání obrázků a videí je nyní pod křídly Seznamu

Za posledního půl roku se v Seznamu a na jeho službách událo spousta změn. Jedny z  podstatných jsou spuštění

Ještě před cca půl rokem dodávaly výsledky vyhledávání v obrázcích PicSearch a hledání videí Yandex. V uplynulém pololetí jsme obě služby vybavili hledáním postaveném na vlastní vyhledávací technologii.

Texty a nejen texty

Obě hledací technologie jsou založeny na té z hledání pro Seznam.cz. Fulltext.

Byť je hledání z většiny fulltextové a velkou váhu mají signály jak textové, tak zpětnovazební či offpage faktory, díváme se také do obrázků pomocí hlubokých neuronových sítí.

Na texty se nelze vždy spoléhat, proto především obrázky, obrazová data, klasifikujeme do témat a odhadujeme, co je či není na daném obrázku. Náš výzkum v této oblasti udělal spoustu super práce.

Hledání obrázků byla výzva. Veliká.

Při vývoji hledání pro službu Obrázky.cz  jsme řešili hned několik technologických výzev.

  • Jednak muselo dojít k výraznému posílení databáze a výkonu robota. Do hadoop klastru robota v této souvislosti přibylo přes 100 silných strojů. Obrázky stahujeme, zpracováváme, zmenšujeme, extrahujeme fíčury a redundantně ukládáme.
  • Musely se vyřešit obrázkové duplicity od úrovně identit až po velmi podobné obrázky lišící se pouze výřezem, odstínem barev či několika pixely.
  • Velkou výzvou byla výběrová funkce, které zakládá obrázky v databázi a která vybírá obrázky pro samotné hledání. Na internetu je počet obrázků (od klasických fotek, webové grafiky, ikonek, jiného šumu…) řádově vyšší než počet samotných dokumentů – html stránek.
  • Museli jsme vytvořit velmi rychlé úložiště obrázků pro webovku.
  • Nemůžeme zapomenout také na relevanci, které se náš výzkumný tým věnoval celého půl roku.

omalovanky

Videa na nové vyhledávácí technologii

V Seznamu musíme skloubit dva vývojové směry. Tyto jsou:

  1. technologický směr, kdy sledujeme nejnovější trendy, upgradujeme, rozšiřujeme, zrychlujeme v souvislosti s tím, jak nám narůstají data;
  2. a produktový směr, kdy se zaměřujeme na samotnou službu a její uživatele, funkce a fíčury.

Hledání ve videích je postavené na nové hledací technologii, kterou již používají také Mapy.cz a v budoucnu se rozšíří i na další služby Seznamu s vyhledáváním.

Použití nového engine pro hledání významně urychlilo vývoj a hotový produkt byl připraven pro spuštění za necelý kvartál.

Významným technologickým pokrokem bylo rozšíření našeho fotiče náhledů stránek o možnost fotit zástupné obrázky či náhledy videí.

Ukázka starého hledání videí poskytovaného Yandexem:

Hledání videí yandex

Ukázka aktuálního hledání na naší technologii:

Hledání videí Seznam

Sezname! Najdi mi poslední díl Teorie velkého třesku

Protože jsme super firma a záleží nám na našich uživatelích, zaměříme se v dalším půl roce u hledání videí na seriály, televizní pořady a zpravodajství. To je právě segment, který ve vyhledávání roste kvapným tempem.

Budeme rychleji indexovat nové díly oblíbených seriálů, pořadů a také zpráv. Chceme také, aby uživatelé na Seznamu vždy našli konkrétní epizody pořadů, které například nestihli předchozí večer, protože přišli o trochu později z práce.

Je pruda, když člověk musí hledat a přemýšlet, kde svůj propásnutý díl seriálu nebo pořadu najde a jak. Bude pecka, až tím jedním místem bude práve Seznam.cz.

Úloha to není nikterak jednoduchá, jelikož uživatelé pokládají dotazy do hledání opravdu všemožným způsobem.

Podívejte se na ukázku dotazů zadaných do vyhledávání videí:

14. díl. jídlo s. r. o.
vraždy v midsomeru 2.díl 14. série
7.díl seriálu labyrint
2883. díl ulice tv nova
ordinace v růžové zahradě díl 589
vraždy v midsomeru 7.díl 14. série
soudkyně barbara 34díl
temná tajemství (2. díl 14. série) youtube
ordinace v růžové zahradě 2 - 361. díl
novaplus ordinace v růžové zahradě2 /video/ 596-díl
ordinace v růžové zahradě 1 360
violetta 3 série (1 díl)
vinaři 5 díl
znělka harry potter 8 díl
winx club 1.série díl zrada
vinaři ii 1. díl
vítejte v novém těle díl 42
výměna manžel 2. díl 2015
vraždy v midsomeru 10.díl 15. série
velkolepé století 4.řada online 84.díl
taková-normální-rodinka--díl--1.
synové a dcery jakuba skláře seznam dílů
simpsonovi čarodějnické díly
soudkyně barbara díl 2.9.2015
simpsonovi 1díl,1.serie
rychlyprachy.cz - 87. díl (dvacítka z letiště)

Cílem je… abychom měli správnou odpověď

Cílem služeb Obrázky.cz a videa.seznam.cz je hlavně vylepšit fulltextové SERPy a odpovídat uživatelům na jejich dotazy multimediálním obsahem, pokud je to vhodné.

Na mnoho dotazů v hledání uživateli nejlépe odpovíme právě multimediálním obsahem. Návody, recepty, seriály, filmy, hudba… Právě proto budeme hledání videí a obrázků dále vylepšovat.

  • Jak váš robot chápe obrázkovou sitemapu (jako používá Google) v XML?

    • VM

      Obrázkové sitemapy zatím nepodporujeme. Plánujeme je zahrnout jako zdroj v první polovině 2016, určitě o tom napíšeme včas. Chápat je ale budeme stejně jako gooogle.

  • Která metadata berete v potaz při zpracovávání obrázků / videí na webu – ergo která dává smysl využít, pro Seznam?

    • VM

      Jednoduchá odpověď. Všechna, co najdeme. 🙂

      Konkrétně u videích jsou silnou skupinou OpenGraph data. Bereme ale také texty ze zdrojových stránek a zpětných odkazů.

      • tom

        Tak doufám, že budete lepší než googl a zahodíte duplicitní obrázek co má v metadatech zdrojovou url… Googl totiž asi ignoruje metadata a klidně zobrazí ukradený obrázek před originálem ikdyž se zloděj ani nenamáhal smazat původní metadata kde je stále uvedena url zdroje….

        • VM

          Problematiku autorství neřešíme. Podle mne nelze automaticky rozpoznat, který obrázek je na které website je původní-originál.
          Problematiku duplicit naopak řešíme, bohužel pak může vyhrát při prokliku stránka, která obrázek ukradla.
          Nicméně pro proklik vybíráme autoritativnější URL, takže věřím, že těch případů nebude mnoho. Za konkrétní negativní příklady budeme ale rádi.

          • Tomáš Kafka

            „Nicméně pro proklik vybíráme autoritativnější URL“ – napadá mě, že asi nejčastější scénář kradení obrázku a fotek je:
            1. konkrétní autor nebo komunita zveřejní na své zapadlé stránce svůj výtvor
            2. někdo ho tam najde, a aby si nahnal karmu, hodí ho na 500px, 9gag, FB apod., kde sbírá lajky

            Jestli to chápu dobře, tohle je případ, kdy na autoritativnější URL budou ty ukradené věci, je to tak?

  • Videa ještě nemám ověřena, ale Obrázky.cz fungují velmi dobře a návštěvníci chodí, takže díky, dobrá práce.

  • Pingback: Seznam.cz spouští vlastní hledání obrázků a videí | Změny ve vyhledávačích()

  • MartinezZ

    To fakt nikdo nehledal seriál ve tvaru „název-seriálu S01E15“? 🙂

    Řešit autorství u obrázků v době internetu je nesmysl. Umístí-li autor svůj obrázek na internet, činí tak s vědomostí toho, že se jinde objeví bez jeho jména a odkazu na zdroj. Nějaké javascripty a css řešení nemají význam, printscreen to jistí. Reálně neexistuje nic jako „ukradený obrázek“.

  • Pingback: Obrázky.cz nabízí větší náhledy | Blog fulltextového týmu()