Pierwotnie, pliki robots.txt mogły zawierać wyłącznie dwa rodzaje wpisów:
User-agent Disallow
Błędem jest na przykład użycie Allow:
PRZYKŁAD BŁĘDNY Allow
Co ciekawe, wpisy Allow występują w pliku http://www.google.com/robots.txt.
Pierwszy z wpisów, User-agent, ustala nazwę robota, np.:
User-agent: * User-agent: Slurp User-agent: Googlebot
Drugi wpis, Disallow, podaje nazwę pliku lub folderu, do którego dostęp ma być zablokowany, np.:
Disallow: / Disallow: /tmp/ Disallow: /info.html Disallow: /me.jpg
Wpis User-agent występuje jako pierwszy, a po nim następuje jeden lub kilka wpisów Disallow, np.:
User-agent: Googlebot Disallow: /cgi/ Disallow: /tmp/ Disallow: /data/photos/ Disallow: /data/texts/
W pliku robots.txt mogą występować jednolinijkowe komentarze rozpoczynające się znakiem # (haszmark):
# Ogolne User-agent: * Disallow: /
Uwaga: znak * nie jest dozwolony w ścieżkach. Część robotów może go nie interpretować, przez co uzyskają dostęp do zasobów, które miały być zablokowane. Zamiast:
PRZYKŁAD BŁĘDNY Disallow: /tmp/*
należy pisać:
Disallow: /tmp/