Najważniejszym rozszerzeniem składni pliku robots.txt jest dyrektywa Sitemap. Służy ona do wskazania pliku zawierającego mapę witryny. Parametrem dyrektywy jest adres URL mapy:
Sitemap: http://www.example.com/sitemap.xml
Dyrektywa Sitemap jest niezależna od dyrektywy User-agent i może być obecna w dowolnym miejscu pliku robots.txt. Na stronach wyszukiwarki Google znajdują się informacje mówiące o tym, że roboty Google respektują dyrektywę Sitemap.
Kolejnymi rozszerzeniami są dyrektywy Request-rate oraz Visit-time. Pierwsza z nich ustala maksymalne tempo, w jakim robot może przeszukiwać cały serwis, a drugi wskazuje godziny, w których robot może wędrować po serwisie. Na przykład wpis:
User-agent: * Request-rate: 1/5 Visit-time: 0600-0845
ogranicza tempo pobierania do jednej strony na pięć sekund w godzinach pomiędzy 6:00 a 8:45. Powyższe informacje pochodzą z Wikipedii. Na stronach wyszukiwarki Google nie znalazłem potwierdzenia, że powyższe dyrektywy są respektowane.
Ponadto niektóre roboty, na przykład Googlebot, wprowadziły interpretację znaków * oraz ? w nazwach plików i folderów.
| lp. | Dyrektywa | Wartość | Czy obsługiwane przez Google? |
|---|---|---|---|
| 1. | User-agent | Nazwa robota | Tak |
| 2. | Disallow | Folder, do którego dostęp ma być zabroniony | Tak |
| 3. | Sitemap | Nazwa pliku z mapą witryny | Tak |
| 4. | Request-rate | Maksymalna prędkość wędrowania robota po witrynie | ? |
| 5. | Visit-time | Godziny, w których robot może odwiedzać witrynę | ? |
Tabela 1. Dyrektywy pliku robots.txt