Roboty internetowe, nazywane w anglojęzycznej literaturze web crawler, web spider czy web robot to programy komputerowe automatycznie przeszukujące zasoby sieci WWW. Wędrują one po sieci WWW, pobierając adresy kolejnych stron do odwiedzenia z hiperłączy znalezionych w dokumentach. Robot, który trafi na stronę główną witryny zawierającej kod:
<body>
...
<ul id="menu">
<li><a href="lorem.html">lorem</a></li>
<li><a href="ipsum.html">ipsum</a></li>
<li><a href="dolor.html">dolor</a></li>
...
</ul>
...
</body>
pozna adresy podstron: lorem.html, ipsum.html i dolor.html. W następnym etapie pobierze wymienione trzy dokumenty i przeanalizuje je. Wyszuka wszystkie występujące w nich hiperłącza, a znalezione adresy doda do listy stron, które zostaną przeszukane w następnym etapie. W ten sposób robot internetowy, rozpoczynając wędrówkę od strony głównej, może wędrować po wszystkich podstronach serwisu, a także — w przypadku hiperłączy prowadzących do innych witryn — przemieszczać się pomiędzy różnymi domenami.
Każdy robot jest identyfikowany poprzez nazwę przekazywaną w parametrze User-Agent protokołu HTTP:
User-Agent: CERN-LineMode/2.15 libwww/2.17b3
Zatem dostęp do stron serwisu możemy blokować wybranym robotom na podstawie ich nazwy. (Obszerna baza danych z nazwami robotów jest dostępna pod adresem http://www.user-agents.org. Nazwy robotów Google są zawarte w ramce.)
Nazwy robotów Google:
Zadania realizowane przez robota mogą być różne: od utworzenia kopii serwisu, przez audyt i walidację aż po utworzenie indeksu podstron na potrzeby wyszukiwarki. Bez wątpienia najważniejszą grupą są roboty wyszukiwarek internetowych, odpowiedzialne za indeksację witryny. Google, Onet, Yahoo, WP — wszystkie wyszukiwarki dysponują własnymi robotami, które bezustannie przeszukują internet i uaktualniają bazę danych wyszukiwarki. To, na ile witryna jest przyjazna robotom wyszukiwarek, może mieć wpływ na pozycjonowanie.
Dwie podstawowe techniki ułatwiania dostępu do podstron witryny robotom wyszukiwarek to czytelne hiperłącza i strona z mapą witryny. Metody te warto wzbogacić o pliki robots.txt oraz sitemap.xml. W ten sposób zyskamy dodatkowe możliwości poinformowania robotów o pełnej zawartości serwisu. Ułatwi to indeksację nowych podstron oraz aktualizację danych stron już zaindeksowanych.