Happy hours – uvolnění limitů hledání

Potřebu sledovat pozice a posuny v hledání má asi každý, kdo řeší objem přístupů, který mu vyhledávač přivádí. Proto jsme uvolnili limity hledání v nočních hodinách, kdy je vlivem úbytku přirozeného uživatelského hledání k dispozici víc hledacích kapacit. Pokud tedy stahujete výsledky hledání (třeba nějakým skriptem), teď to budete mít o poznání snazší.

Jak funguje hlídání limitů nyní

Zjednodušeně se dá říct, že limity hledání mají za úkol předejít rozdrcení hledání pod vysokým počtem dotazů, které do hledání přicházejí; zabránit, byť nechtěnému DoS útoku. Typické dotazy od živých uživatelů nedělají fulltextu problém (uživatel nezvládne zadat ze svého počítače desítky dotazů za minutu a často se ptá na dotazy, které jsou laciné – vydávané z cache).

O poznání horší jsou dotazy, které pochází od robotů a všelijakých skriptů pro sledování pozic. Takové dotazy mají jinou a z pohledu výkonu a dostupnosti hledání nebezpečnější charakteristiku. Nejedná se o dotazy, které jsou reprezentativním vzorkem běžného hledání (například právě velká frekvence dotazování v krátkém čase).

Co se změnilo

Nově má hledání nastaven podstatně volnější limit v nočních hodinách (mezi 2:00 a 5:00). Nedá se přesně říct kolikrát. Ale zjednodušeně je nyní povolen téměř dvojnásobný počet dotazů, než hledání vrátí požadavek na ověření (CAPTCHA).

Pokud tedy potřebujete stahovat výsledky vyhledání, dělejte tak v noci mezi druhou a pátou hodinou – půjde to rychleji.

Pozn.: Běžný uživatel nemá šanci změnu postřehnout.  Už teď se ho limity nedotýkají. Zato „sledovače pozic“ na limity často naráží.:

Podle toho, jak se tahle vychytávka osvědčí, zvážíme další uvolňování limitů. Případně jiné usnadnění práce s výsledky.

  • Díky za info. Rozumné.

  • Rozumný nápad.

  • Nezbývá než poděkovat. Takže díky 🙂

  • Ondra

    Když už přiznáváte, že to je opatření pro roboty na sledování pozic, tak se nabízí otázka, zda by na to nešlo rovnou vyvinout jednoduchou RPC službu. Vstupem by byla URL a dotaz a výstupem by byla pozice. Myslím, že to ušetří výkon ještě víc (není třeba volat vyhledávač N krát, podle počtu prohledávacích stránek) a není potřeba titulkovat všechny výsledky.

    • petrox

      Jistě, takové řešení možné je. Ale jak jsem psal v poslední větě, nejdřív uvidíme, jak se tahle jednoduchá úprava osvědčí a teprve potom budeme případně vymýšlet nějaké hezčí řešení.

    • Zdenec

      Pod tohle se podepisuji.

    • Ladislav

      Myslím, že toto by byl velmi dobrý krok od Seznamu vůči uživatelům. Také by Vám to mohlo ulehčit problém se zátěží, kterou dělají právě tito roboti na sledování pozic.

  • Could you please add some information about „SeznamBot/3.0 (+http://fulltext.sblog.cz/)“ in English?

    I do not peak whatever language they speak in this Czech Republic place.

    • petrox

      What kind of information do you want? About technology or about crawling rules?