1   2   3   4   5   6   7   8  ...

Pliki robots.txt i sitemap.xml. Kontrola zachowania robotów internetowych

5. Rozszerzenia oryginalnej składni robots.txt

Najważniejszym rozszerzeniem składni pliku robots.txt jest dyrektywa Sitemap. Służy ona do wskazania pliku zawierającego mapę witryny. Parametrem dyrektywy jest adres URL mapy:

Sitemap: http://www.example.com/sitemap.xml

Dyrektywa Sitemap jest niezależna od dyrektywy User-agent i może być obecna w dowolnym miejscu pliku robots.txt. Na stronach wyszukiwarki Google znajdują się informacje mówiące o tym, że roboty Google respektują dyrektywę Sitemap.

Kolejnymi rozszerzeniami są dyrektywy Request-rate oraz Visit-time. Pierwsza z nich ustala maksymalne tempo, w jakim robot może przeszukiwać cały serwis, a drugi wskazuje godziny, w których robot może wędrować po serwisie. Na przykład wpis:

User-agent: *
Request-rate: 1/5       
Visit-time: 0600-0845

ogranicza tempo pobierania do jednej strony na pięć sekund w godzinach pomiędzy 6:00 a 8:45. Powyższe informacje pochodzą z Wikipedii. Na stronach wyszukiwarki Google nie znalazłem potwierdzenia, że powyższe dyrektywy są respektowane.

Ponadto niektóre roboty, na przykład Googlebot, wprowadziły interpretację znaków * oraz ? w nazwach plików i folderów.

lp. Dyrektywa Wartość Czy obsługiwane przez Google?
1. User-agent Nazwa robota Tak
2. Disallow Folder, do którego dostęp ma być zabroniony Tak
3. Sitemap Nazwa pliku z mapą witryny Tak
4. Request-rate Maksymalna prędkość wędrowania robota po witrynie ?
5. Visit-time Godziny, w których robot może odwiedzać witrynę ?

Tabela 1. Dyrektywy pliku robots.txt

 1   2   3   4   5   6   7   8  ...