1   2   3   4   5   6   7   8  ...

Pliki robots.txt i sitemap.xml. Kontrola zachowania robotów internetowych

1. Roboty internetowe

Roboty internetowe, nazywane w anglojęzycznej literaturze web crawler, web spider czy web robot to programy komputerowe automatycznie przeszukujące zasoby sieci WWW. Wędrują one po sieci WWW, pobierając adresy kolejnych stron do odwiedzenia z hiperłączy znalezionych w dokumentach. Robot, który trafi na stronę główną witryny zawierającej kod:

<body>
  ...
  <ul id="menu">
    <li><a href="lorem.html">lorem</a></li>
    <li><a href="ipsum.html">ipsum</a></li>
    <li><a href="dolor.html">dolor</a></li>	        
    ...
  </ul>
  ...
</body>

pozna adresy podstron: lorem.html, ipsum.html i dolor.html. W następnym etapie pobierze wymienione trzy dokumenty i przeanalizuje je. Wyszuka wszystkie występujące w nich hiperłącza, a znalezione adresy doda do listy stron, które zostaną przeszukane w następnym etapie. W ten sposób robot internetowy, rozpoczynając wędrówkę od strony głównej, może wędrować po wszystkich podstronach serwisu, a także — w przypadku hiperłączy prowadzących do innych witryn — przemieszczać się pomiędzy różnymi domenami.

Każdy robot jest identyfikowany poprzez nazwę przekazywaną w parametrze User-Agent protokołu HTTP:

User-Agent: CERN-LineMode/2.15 libwww/2.17b3

Zatem dostęp do stron serwisu możemy blokować wybranym robotom na podstawie ich nazwy. (Obszerna baza danych z nazwami robotów jest dostępna pod adresem http://www.user-agents.org. Nazwy robotów Google są zawarte w ramce.)

Nazwy robotów Google:

  • Googlebot — przemierza strony uwzględniane w indeksie witryn internetowych i Google News
  • Googlebot-Mobile — przemierza strony uwzględniane w indeksie witryn komórkowych
  • Googlebot-Image — przemierza strony uwzględniane w indeksie grafiki
  • Mediapartners-Google — przemierza strony w celu ustalenia treści AdSense. Ten robot jest stosowany tylko do przemierzania witryn, w których wyświetlane są reklamy AdSense.
  • Adsbot-Google — przemierza strony w celu oceny jakości strony docelowej AdWords. Ten robot jest stosowany tylko do indeksowania witryn reklamowanych w programie Google AdWords. Dodatkowe informacje o tym robocie i sposobach blokowania mu dostępu do części witryny.

Zadania realizowane przez robota mogą być różne: od utworzenia kopii serwisu, przez audyt i walidację aż po utworzenie indeksu podstron na potrzeby wyszukiwarki. Bez wątpienia najważniejszą grupą są roboty wyszukiwarek internetowych, odpowiedzialne za indeksację witryny. Google, Onet, Yahoo, WP — wszystkie wyszukiwarki dysponują własnymi robotami, które bezustannie przeszukują internet i uaktualniają bazę danych wyszukiwarki. To, na ile witryna jest przyjazna robotom wyszukiwarek, może mieć wpływ na pozycjonowanie.

Dwie podstawowe techniki ułatwiania dostępu do podstron witryny robotom wyszukiwarek to czytelne hiperłącza i strona z mapą witryny. Metody te warto wzbogacić o pliki robots.txt oraz sitemap.xml. W ten sposób zyskamy dodatkowe możliwości poinformowania robotów o pełnej zawartości serwisu. Ułatwi to indeksację nowych podstron oraz aktualizację danych stron już zaindeksowanych.

 1   2   3   4   5   6   7   8  ...