Plik robots.txt pozwala na zablokowanie dostępu do stron WWW robotom internetowym. Należy go umieścić w folderze głównym serwisu WWW. Na przykład dla witryny http://www.example.net plik robots.txt powinien być dostępny pod adresem http://www.example.net/robots.txt.
Brak pliku robots.txt lub plik robots.txt o pustej zawartości pozwalają wszystkim robotom na pełny dostęp do wszystkich dokumentów na serwerze.
W zależności od robota, plik robots.txt może być pobierany w różnych odstępach czasu. Na przykład roboty Google pobierają plik robots.txt raz na dobę. (Datę i godzinę ostatniego pobrania pliku robots.txt przez robota Google możemy sprawdzić w Narzędziach Webmastera dostarczanych przez Google http://www.google.com/webmasters/.) Ilustruje to rysunek 1.
Rysunek 1. Data i godzina ostatniego pobrania pliku robots.txt
Każda domena ma oddzielny plik robots.txt. Dla domen:
example.net a.example.net b.example.net
roboty będą szukały plików:
http://example.net/robots.txt http://a.example.net/robots.txt http://b.example.net/robots.txt
Należy pamiętać, że robot może nie stosować się do zaleceń zawartych w pliku robots.txt. Plik ten nie może być traktowany jako mechanizm zabezpieczania dostępu do tajnych danych.
Protokół Robots Exclusion Protocol (nazywany również Robots Exclusion Standard lub robots.txt Protocol) pozwala na ochronę zawartości całości lub fragmentów publicznie dostępnego serwisu WWW przed robotami internetowymi.
Powstał w 1994 lecz pomimo powszechnego użycia aż do dzisiaj nie doczekał się oficjalnej specyfikacji czy dokumentu RFC. Najpełniejsze informacje dotyczące protokołu są zawarte na stronach The Web Robots Pages pod adresem http://www.robotstxt.org/wc/robots.html.