Spousta služeb na internetu využívá automatické programy, které prochází internetové stránky. Mají různé úkoly a cíle. Někteří z nich jsou prospěšní, jiní neutrální a pak tu máme skupinku škodlivých či přímo nebezpečných robotů. Roboti se mohou sami identifikovat anebo přímo snažit maskovat jako skutečný uživatel. Záleží jak je jejich tvůrce naprogramoval. V tomto článku si jednotlivé druhy internetových botů přiblížíme a také si povíme něco o jejich identifikování.
Prospěšní roboti
Mezi nejznámější druh patří web crawler anebo také web spider. Jejich historie sahá do konce minulého století, kdy začaly vznikat první vyhledávače. Snad všechny stránky v Česku navštívil SeznamBot a GoogleBot. Sbírají informace a hledají nové stránky. Obecně je považujeme za prospěšné, protože obsah našich stránek zpřístupňují dalším uživatelům vyhledávačů.
Monitorovací roboti jsou napojeni na služby, které hlídají zdraví našeho webu. Navštíví jej, zjistí stavový kód, který vrátí server a uloží odezvu. Tyto data pak pošlou na server monitorovací služby, která je pak předá uživateli. Mezi nejznámější monitorovací služby patří UptimeRobot a Pingdom. Řadí se do kategorie prospěšné, protože nám pomáhají a také respektují pravidla pro roboty, které jim dáme v robots.txt. Ty využijeme pokud si nepřejeme, aby náš web sledovala třeba konkurence.
Hledač bezpečnostních děr je specifický druh robota, který může sloužit například tvůrcům redakčních systémů a procházet weby, které jej využívají. Pokud zjistí, že jste například zapomněli aktualizovat na poslední verzi může vám poslat zprávu. Často také slouží pouze k statistickým účelům různých agentur. Někdy ovšem mohou sloužit hackerům, kteří takto hledají právě nezaplátané redakční systémy. Jakmile nějaký najdou předají informaci dalšímu robotovi, který provede pokusy o proniknutí do CMS.
Neutrální roboti
Většina neutrálních robotů slouží ke statistickým účelům. Mezi nejznámější patří rogerbot a AhrefsBot, kteří hledají na internetu zpětné odkazy pro SEO služby Open Site Explorer a Ahrefs. Pokud tyto služby nepoužíváte tak vám nepřináší žádný užitek, ale zároveň ani nijak neškodí, pomineme li, že spotřebovávají menší výkon serveru, na vygenerování obsahu stránky. Nestahují však už obrázky, takže přenesená data jsou minimální.
Škodliví roboti
Škodlivých robotů je celá řada. V podstatě mezi ně řadíme všechny přístupy, které nejsou lidské a nějakým způsobem nás poškozují.
DoS/DDoS je druh útoku, který má za úkol přetížit server a náš web udělat nedostupným. V podstatě má za využití co nejmenších zdrojů útočníka spotřebovat co nejvíce zdrojů cílového serveru. Proto také útočí na stránky, které jsou nenáročnější na vygenerování (vyhledávání, kategorie podle specifického vzorce). Zatímco u DoS nám většinou stačí zablokovat IP adresu odkud robot přichází, tak u DDoS se už neobejdeme bez pomoci serverového administrátora či dodavatele konektivity v případě opravdu silných útoků.
Site scraper je robot, který z našeho webu stahuje texty za účelem jejich publikování jinde. Text je často upraven (rozdělený, automaticky poupravený). Pokud nechceme znepříjemnit život robotům vyhledávačů, tak prakticky neexistuje účinná ochrana.
Spamující roboti mají za úkol umísťovat automaticky generovaný anebo předem určený text do komentářů. Ve většině případů jim jde jen o zpětné odkazy. Nejjednodušší ochranou je captcha kód, který je ovšem nepříjemný i pro návštěvníky. Pokročilejší ochrana je postavená na javascriptu. Ten například při pohybu myši/zmáčknuté klávese doplní do skrytého políčka určitou hodnotu, která umožní komentáři projít.
Instrukce pro roboty
Chování robotů na webu můžeme ovlivnit pomocí souboru robots.txt. Tam jim vkládáme instrukce co mohou anebo nemohou indexovat. Kde najdou mapu webu anebo konkrétním úplně zakázat přístup. Samozřejmě tato pravidla nejsou pro ně závazná a záleží čistě na nich zdali se jimi budou řídit.
Identifikace robota
Slušný robot se vždy identifikuje. Využívá se k tomu User agent při posílání požadavku přes HTTP. Běžný uživatel takto odešle informace o svém internetovém prohlížeči. Robot internetový prohlížeč nepoužívá, takže User agent využije k představení se.
Toto platí pro prospěšné a neutrální roboty. Ti škodlivý se naopak snaží maskovat a jejich identifikace je náročnější. Pak je nutné sáhnout například po javascriptu, který zavolá PHP skript.