Rozpoznání citlivého obsahu

24. února jsme nasadili v hledání detekci a filtrování „neslušných“ stránek na slušné dotazy.

Minulé úterý byla ve vyhledávání nasazena funkce zajišťující, že se na „slušné“ dotazy nezobrazují „neslušné“ výsledky. Na druhou stranu u vulgárních dotazů (především pak s erotickou  tématikou) výsledky filtrovány nejsou.

Cílem je vytěsnit z hledání vulgární a erotický obsah na dotazy, u kterých uživatel takový obsah neočekává, a tak jej nevhodný obsah může pohoršovat.

Detekování „neslušných“ dotazů funguje automaticky a ve vyhledávání je bez označení. Současně existuje možnost filtr ovlivnit pomocí parametru v URL adrese.

Příklad:

Pokud narazíte na problém, kdy je třeba nějaká stránka chybně rozpoznána jako neslušná, napište to prosím sem do diskuze.

  • Cube

    [1]Kdyby se radši opravila stávající verze robota, která má velké nedostatky ve zobrazování relevantních výsledků a ne se přidávali další věci, které jak jsem se již přesvědčil nefungují. Zajímalo by mě zda vývojáři Seznamu přemýšleli o sexshopech a jaké jim tím způsobí problémy, že se na některé běžné výrazy a návzy produktů nezobrazí. Ale tak pořád tak nějak všichni doufají, že se to jednou vylepší.

  • David Filip

    [2]Ad Cube: jaka je souvislost mezi robotem a relevanci? Rekl bych ze naprosto zadna. Stejne tak druha cast tveho komentare je naprosto mimo: nebude to pusobit naprosto zadne problemy. Viz text prispevku („. Na druhou stranu u vulgárních dotazů (především pak s erotickou tématikou) výsledky filtrovány nejsou.“)

  • Luksha

    [3]Rekl bych ze Cube mel na mysli treba dotaz „pouta“.

  • [4]Dobrý den, provozuji stránky http://www.starmagazin.cz, které byly jak mi potvrdil jeden váš kolega omylem zařazeny do tohoto filtru a kompletně vypadly na všechny důležité fráze jako celebrity, bulvár, názvy celebrit atd z fulltextu. Předtím se přitom pravidelně objevoval web na tyto slova na prvních pozicích. Bylo mi slíbeno, že jde o chybu a že bude vše v půlce tohoto týdne napraveno. Od té doby však se mnou nikdo nekomunikuje a když ano, bylo mi řečeno, že je chyba v mé optimalizaci. Web rozhodně v porovnání s ostatníma bulvárnímí magazíny nemá neslušný obsah a na erotice si opravdu nezakládá. Proto celou situaci upřímně nechápu. Fulltext rovněž špatně indexuje i mé vlastní články, kdy na prvních místech zobrazuje pochybné rss čtečky, které můj obsah a články přejímají, přičemz mé stránky k nalezení na hledanou frázi vůbec nejsou. Prosím tedy o nápravu, případně mne kontaktujte na email admin@defile.cz jelikož to není příjemná situace. Děkuji Michal Ptáček admin@defile.cz

  • [5]Pouta jsou správně konkrétní dotaz. Ta první stránka, kterou jsme odfiltrovali, prezentuje pouta explicitně jako nástroj na erotické hry nebo co. Na tom webu se podle toho, co sám prezentuje, prodávají například „mrdací stroje“. Chování toho algoritmu je správné, za předpokladu, že kdo hledá pouta, hledá je na něco jiného než na SM. To nevím, jestli je správný předpoklad, ale je to současný předpoklad. Ale děkujeme za příklad sporného dotazu, věnujeme se tomu.

  • Yuhů

    [6]Teď reakce na pana Ptáčka: ta chyba, která tam byla, je skutečně opravená. Vy jste si stěžoval, že na dotaz http://search.seznam.cz/?q=site:www.starmagazin.cz nevyjíždí vaše stránky. Za report děkujeme a tohle už je opravené. Že nevyjíždíte na prvním místě na dotazy celebrity, názvy celebrit a podobně, to je ale úplně jiné téma. Prostě je teď první někdo jiný, to je život. Rozhodně není pravda, že byste byl někam zařazen omylem, ten proces funguje stoprocentně automaticky. Problém s RSS výsledky už taky známe a analyzujeme ho.

  • Marty

    [7]Ahoj, předem díku Yuhů, že reaguje. Mám dotaz jaký je rozdíl mezi prvním výsledkem na kw nafukovací panny, nebo například Lelo, což jou erotické věci a vetšina sexshopů, tedy těch kteří měli nějaký obsah a vedly na ně odkazy jsou zcela z hledání pryč a nyní tam vyjíždějí mladé a někdy i divné stránky. Konkrétně nafukovací panny v první výsledku je taková jaká si microsite, která ukazuje na jiný sexshop. Díky za komentář

  • Yuhů

    [8]Tak jenom abych to ještě uvedl. Tohle rozpoznávání pro nás není žádná klíčová funkce, na kterou bychom měli čas a zdroje a věnovali se jí od nevidím do nevidím. Současná funkčnost je ale už docela dobrá a pomůže. Dotaz [nafukovací panny] je typicky dotaz, který se nemá filtrovat, takže naše chyba. Proto to blogujeme, abychom tyhle reakce sesbírali. Už jsme těchto zvláštních dotazů během posledního roku posbírali stovky (možná tisíce), když jsme učili ten automat. Dotaz [lelo] je to samé. Dodnes nikdo z nás (aspoň myslím) vůbec nevěděl, že nějaké lelo existuje. Automaty to nenašly, zřejmě jsme na tenhle úkol měli zaměstnat nějakého pornoobchodníka.

  • Marty

    [9]Díky za info, pokud to pomůže, sestavím seznam slov, které dle mého názoru jsou podobná a zašlu. Pomůže to asi oběma stranám. Provozuji sexshop tak k tomu mám blíže a a je pochopitelné že je spousta věcí o kterých „běžný smrtelník“ ani neví 🙂

  • Marty

    [10]Díky za info, pokud to pomůže tak sestavím seznam slov, kterí dle mého názoru jsou z oboru sexshopu a tedy nepatří do filtru. Pak můžete posoudit co je a co není chyba.

  • [11]Ahoj, Tak mám pocit, že můj katalog http://www.flirtshop.cz byl zařazen do neslušného obsahu. Je to sice katalog obchodů zaměřený na obchody s prádlem, oblečením a sexshopy, ale nějak vulgární myslím není. Například na dotaz: „www.beate-uhse.cz“ jsem byl do 4 místa, nyní neexistuji (ve výsledcích nefiguruje ani samotný obchod beate-uhse 🙂 Jde zjistit na základě čeho jsem zařazen jako web s neslušným obsahem a jestli je možnost to změnit?

  • Marek

    [12]Přijde mi nefér poku někdo zadá do vyhledávače konkrétní url např. tvrdepecko.cz samotný vyhledávač we nenajde i když našeptávač toto slovo dokonce doporučí… takto se tomu děje i u jiných url. Pokud teda chci hledat adult obsah doporučíte mi vyhledávač který mi něco najde? Jsem laik a podle vašeho návodu nevím jak vypnout filtr a hlavně se bojím abymi to nenacházelo spam místo adult obsahu..

  • [13]1. Na slovo sexshopik byl vyřazen sexshopik.cz, respektive zobrazuje se tam jen jeho affilate program. 2. Když už máte lelo, tak zkuste ještě dildo 😉 3. Co říkáte na slova jako „dlouha videa“ která sama o sobě nejsou adult, ale hledající s nimi mají spojený adult obsah a taky je s tím cílem hledají?

  • Ja
  • VfB

    [15]a nebylo by lepší nedělat z lidé nesvéprávné pitomce?

  • [16]No sice je jasné že toto bylo nutné ale myslím si že když člověk hledá věci pro rozkošnějsí sex tak zmizely veškeré sex shopy a nyní se otevírá velký prostor pro doopravdu pornostránky. Nehledě na to že na takové slovo lubrikační gel vyjede spousta lékáren ano má to něco do sebe ale velmi se diskriminují kvalitní sex shopy. je to ještě tak trochu v plenkách a měli by jste se tomu, pánové z fulltextu, více věnovat.

  • [17]Dobry den, vypada to, zed cely segment internetovych obchodu v erotickem zbozi muze pomalu zavirat. Napr. nas obchod prodava i kosmeticke veci a diky tomuhle opatreni se na nase misto dostanou lekarny apod., nikdo nas na klasicke slovova pomalu nenajde. Pokles trzeb je markantni… i lidi, kteri prisli ze seznamu z klicovych slov. Vec jsem vcera avizoval jednanim s manazerkou a budu k tomu chtit prizvat apek. Panove musite si uvedomit, ze tohle uz neni sranda, zamestanavam nekolik lidi a obchod se stale rozsiruje, ale tedka to muzem zabalit.. navic vam prudce mohou klesnou trzby v katalogu firem… hold misto 0,5m se bude davat jen par tisic. Muzu vam poslat i statistiku z GA, kde je vse krasne videt.

  • Pavel Kotala

    [18]Dnes mi vypadl z vyhledávání na slovo dermacol můj web dermacol.biz (býval dlouhou dobu na 1. místě, teď není ani v první stovce). Může to být touto funkcí? Nebo ještě něčím jiným? Neodkazuju na neslušné weby a není tam ani neslušný obsah.

  • [19]Provozuji kamenný a zásilkový obchod již 10 let, ale aby fultext úplně zablokoval vyhledávání jsem ještě nezažil. Nemůžu se ubránit dojmu, že jde o cílený záměr „odstřihnout“ menší prodejce, mnohdy s lepší cenou a podporovat pouze ty e-shopy, které si platí první pozice. Za této situace se úplně vytrácí svoboda pro obyčejné zákazníky svobodně se rozhodnout od koho a za jakou cenu si nakoupí zboží a je jim vnucována pouze pozice platících e-shopů. Budu zvažovat i právní rozbor celé situace. Chci se zeptat na základě jakých žádostí a od kolika návštěvníků Seznamu se takto Seznam rozhodl. Erotika je dnes běžnou součástí života, televize, noviny, časopisy, prodej porno DVD v trafikách a další. Cenzurovat něco z této oblasti mi připadá účelově vytvořené pro někoho.

  • Jirka

    [20]Zdravím, je nějaký termín, kdy by se mohly nějaké ty slova opravit ?

  • Roman

    [21]Problém nacházím např. při vyhledávání megarotic.com což je doména na které je jen adult obsah, bohužel mi to hledá nějaké warez servery. Tak je alespoň odstraňte ;o) Těším se až aplikujete možnost zapnout a vypnout filtr.

  • Cube

    [22]To David Filip: Och pardon já zapomněl, že výsledky fulltextu řadí administrátoři Seznamu. A ohledně Druhé části: Proč tedy některé (vetšina a známe) sexshopy vypadly na slovo Viamax, aniž by jejich stránky obsahovali vulgární nebo nevhodnou tématiku. Ostatní weby snad tyto produkty prodávat mohou? Pane Filipe děkuji Vám za reakci, avšak zřejmě jste nepochopil můj příspěvek. Nevadí to se stává. Rád vysvětlím To Yuhů: Jsem moc rád, že se pracuje na nápravě, snad to bude v pořádku. Nevím, totiž jak uklidnit lidi, kteří mi píšou, že jim na technické podpoře řekli, že si mají zoptimalizovat stránky, které jim seznam neindexuje a pak se začnou zobrazovat (pozn: stránky zaindexované byly) a o nějakém filtru se jim ani nezmínili natož, aby se jim pokusili pomoct.

  • Pan Čau

    [23]Proč se snažíte cenzurovat internet ? Proč nenecháte na uživateli vybrat si co ho zajímá a hledá ?

  • pablo

    [24]S nasazením tohoto fitru souhlasím, jen je škoda, že je nedokonalý a nedokáže adult stránky jednozačně rozpoznat. Jde pak o boj s větrnými mlýny. Mám na mysli například slovo „escort“ http://search.seznam.cz/?q=escort&mod=f Na tento výraz bylo spoustu webů z výsledku odstraněno, čili předpokládám, že jde o ne-adult slovo viz.: http://search.seznam.cz/?q=escort&mod=f&safe=no Jak si pak ale vysvětlit, že escort.cz, escort-guide.cz a další stránky nabízející escort služby se ve výsledcích i bez fitru nadále objevují. Stejný příklad u slova „Společnice“ atd.

  • [25]Kupodivu dobra prace!

  • Roman

    [26]Zdravim, vcera jsem pridaval prispevek a dnes tady neni, nevim tedy jestli se pridal ci nikoli, pisu znovu, snad to neni nic co by se mohlo mazat, spis ma chyba. Kdyz na seznamu hledal megarotic coz je eroticky web se zapnutym filtrovanim to najde nejake warez servery, coz si myslim je na nic, na megaroticu je 99.9% erotiky, takže bych jej take nenechaval pretahovat pres filtr, jde s tim neco udelat? Dale jsem se chtel zepat, jestli budete v nejblizsi dobe nasazovat funkcci, kde si lide vyberou, zda-li chteji zapnuty filtr ci nikoli, prepinat to v URL je docela dost zdlouhave ;o) Diky

  • [27]V posledních dnech nám na eMag.cz rapidně poklesla návštěvnost ze Seznamu a vzhledem k tomu, že nedošlo k žádné zásadní změně, jeví se jako správný předpoklad, že je to důsledkem nasazení tohoto filtru. Náš web rozhodně adult kontent nenabízí – dalo by se s tím něco udělat?

  • haVaj

    [28]Zdravim. Vyhledavani vyrazu „sexualni pomucky“ je filtrovano. Z vysledku vypadne vetsina sexshopu. Nezda se mi to spravne, vzdyt se prece jedna o konkretni vyraz a ocekavam konkretni weby (sexshopy) s nabidkou sexualnich pomucek. Nebo se pletu? Ted mi to nabidne idnes, blesk a spoustu inzerce, to si asi jako koupechtiny jedinec moc nevyberu.

  • Roman

    [29]To vite, sex je vulgární, pohoršující a velice neslušná věc. Fuj! Zakázat sex a všechno, co s ním souvisí! Hi,hi. Vy máte dost. V době ky jsou všude běžné adult filtry je tohle jako reklama na samu svátost. 😀

  • [30]Jak se pozná,která stránka je nevhodná a která ještě ne? Zkoumá se každé slovíčko a nesmí jich být moc,nebo jde o titulky…?

  • [31]dotazů během posledního roku posbírali stovky (možná tisíce), když jsme učili ten automat. Dotaz [lelo] je to samé. Dodnes nikdo z nás (aspoň myslím) vůbec nevěděl, že nějaké lelo existuje. Automaty to nenašly, zřejmě jsme na tenhle úkol měli zaměstnat nějakého pornoobchodníka. Přidat komentář

  • Tom

    [32]Ja bych mel dalsi vyraz na kterem se to velmi podepsalo. „svatebni salon“ Obecne z prvnich stran vypadly kvalitni weby, pripadne weby velkych a znamych salonu a ve vysledcich se objevuji hlavne stranky malych salonu, dokonce nekterych uz neexistujicich, coz asi neni uplne dobre. Mozna si to ten system ochrany plete s trochu jinymi salony. Predem dekuji za odpoved.