1   2   3   4   5   6   7   8  ...

Pliki robots.txt i sitemap.xml. Kontrola zachowania robotów internetowych

3. Składnia pliku robots.txt

Pierwotnie, pliki robots.txt mogły zawierać wyłącznie dwa rodzaje wpisów:

User-agent
Disallow

Błędem jest na przykład użycie Allow:

PRZYKŁAD BŁĘDNY
Allow

Co ciekawe, wpisy Allow występują w pliku http://www.google.com/robots.txt.

Pierwszy z wpisów, User-agent, ustala nazwę robota, np.:

User-agent: *
User-agent: Slurp
User-agent: Googlebot

Drugi wpis, Disallow, podaje nazwę pliku lub folderu, do którego dostęp ma być zablokowany, np.:

Disallow: /
Disallow: /tmp/
Disallow: /info.html
Disallow: /me.jpg

Wpis User-agent występuje jako pierwszy, a po nim następuje jeden lub kilka wpisów Disallow, np.:

User-agent: Googlebot
Disallow: /cgi/
Disallow: /tmp/
Disallow: /data/photos/
Disallow: /data/texts/

W pliku robots.txt mogą występować jednolinijkowe komentarze rozpoczynające się znakiem # (haszmark):

# Ogolne
User-agent: *
Disallow: /

Uwaga: znak * nie jest dozwolony w ścieżkach. Część robotów może go nie interpretować, przez co uzyskają dostęp do zasobów, które miały być zablokowane. Zamiast:

PRZYKŁAD BŁĘDNY
Disallow: /tmp/*

należy pisać:

Disallow: /tmp/
 1   2   3   4   5   6   7   8  ...