O nových URL se dozvídáme už i z Twitteru

Jednou z klíčových činností našeho robota, který spravuje naši databázi internetu, je procházení webu a nacházení nových URL, které stojí za to stáhnout. Seznam vyhledávání má mnoho cest, jak se dozvědět o nových URL. Nejčastěji se o nich dozvídáme tak, že narazíme na neznámou URL jako na odkaz na nové stránce. Včera jsme nasadili nový způsob, jak se o těchto stránkách dozvědět. Sledujeme české tweety (označené za české samotným Twitterem) a zaměřujeme se na odkazy, které lidé sdíleli. Motivací tohoto přístupu je, že když nějaká stránka stojí za to, aby ji někdo sdílel, bude pravděpodobně mít zajímavý obsah. Takto nalezené URL se mohou dostat do hledání v řádech minut. Za včerejší den jsme takto objevili 5 518 URL. Pro srovnání – náš freshbot, procházející hlavně zpravodajské weby, objevil za včerejšek 37 523 URL.

  • Skvělá práce! U facebooku to funguje podobně (myslím veřejné facebook skupiny) nebo ty zatím neumíte?

    • Vojtěch Diatka

      Z Facebooku momentálně odkazy nebereme a nemáme to v nejbližší době v plánu. Ale díky za tip, možná se k tomu někdy dostaneme, až ověříme, jak nám to funguje na Twitteru.

  • Už vidím jak všichni zakládají tweety 😀 Jen tak na okraj ale to, že člověk žádá snad už 1000x přeindexování webu, které trvá snad už půl roku to už se nic neděje. Než vymýšlet nové věci, radši zdokonalte ty staré, podle mě špatně fungující.

  • VM

    Zdravim,
    dobra prace, jde ‘pouze’ o rychlejsi zaindexovani noveho obsahu? Nebo berete zminky na twitteru take jako signal pro razeni vysledku?

    • Vojtěch Diatka

      Momentálně jde primárně o to, abychom se dozvěděli o NOVÝCH URL, které jsme doteď neviděli. Brát výskyt na Twitteru jako signál je jednou z možných cest dalšího vývoje.

      • Proč sbírat nové URL když nestíháte reindexovat ty staré?

  • Zajímalo by mne, jestli odkazy ze všech Twitter účtů berete stejně? Nebo jestli – v to doufám – máte nějakou detekci spamových nicneříkajících Twitter účtů? Pak ještě dotaz, jak a zda identifikujete českté tweety? Díky za odpověď.

  • To beztak cucaj z nějakýho katalogu typu follow.cz apod. Kdybyste radši urychlili tu reindexaci webů, jak psal chucker.

  • Zajímavý postřeh, akce. Zeptám se, jak moc je ošetřené twetování z twetovacích placených služeb? Tedy, že člověk na svém TW účtu publikuje twety za peníze? Takže tedy máte nějaký seznam a robot tam pinguje pro obsah a nebo jsou indexace twetů nahodilé dle počtu výskytu anebo relevance zdroje?

    • Placené služby…to si můžete zaplatit odkaz na nějakém webu a je to stejné. Podle mě je teď moc velkej Hype, zatím jde jenom o získávání nových odkazů na stránky, které lidé neoptimalizují (protože je ručně neindexují). Smysl zakládat fake účty apod, bude mít smysl v případě, že to bude považováno za hodnotící faktor….Spam účty jsou také k ničemu

  • Na hodnocení je ještě brzo…

  • Pingback: Nasazení Freshbota Mach II | Blog fulltextového týmu()

  • Pingback: Zrychlení Freshbota na Seznamu - Informace o změnách ve vyhledávačích()

  • Pingback: SEO novinky duben 2016 | A-WebSys Blog()

  • Pingback: Jak urychlit indexaci nových stránek na Seznam.cz | Miloš Lácha()