2   3   4   5   6   7   8   9 

Pliki robots.txt i sitemap.xml. Kontrola zachowania robotów internetowych

7. Format pliku sitemap.xml

Plik sitemap.xml zawiera następujące elementy XML: urlset, url, loc, lastmod, changefreq i priority.

7.1 Element urlset

Element urlset jest wymagany. Zawiera on wewnątrz wszystkie adresy URL, jakie są zawarte w mapie witryny. Atrybut xmlns ustala wersję protokołu sitemap:

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>...</url>
  <url>...</url>
  ...  
</urlset>

7.2 Element url

Element url jest wymagany. Występuje wyłącznie wewnątrz urlset. Opisuje on pojedynczy adres URL. Zawiera elementy: loc, lastmod, changefreq oraz priority.

<url>
  <loc>...</loc>
  <lastmod>...</lastmod>  
  <changefreq>...</changefreq>    
  <priority>...</priority>    
</url>

7.3 Element loc

Element wymagany. Występuje wyłącznie wewnątrz url. Ustala adres URL pojedynczego wpisu mapy. Podany adres musi rozpoczynać się od przedrostka (np. http://), np.:

<loc>http://www.gajdaw.pl/nowosci.html</loc>

W adresie należy stosować encje oraz kodowanie URL. Na przykład adres:

http://www.example.com/ümlat.php&q=name

należy zakodować jako:

http://www.example.com/%C3%BCmlat.php&q=name

Znak & zapisano w postaci encji &amp;, zaś literę ü zakodowano w utf-8 i przedstawiono w postaci %C3%BC.

Pojedynczy adres URL być krótszy niż 2048 znaków.

7.4 Element lastmod

Element opcjonalny. Występuje wyłącznie wewnątrz url. Ustala datę ostatniej modyfikacji dokumentu, którego adres URL jest podany w elemencie url. Data powinna być w formacie W3C opisanym w dokumencie http://www.w3.org/TR/NOTE-datetime. W skróconej postaci (tj. bez godziny) data jest zapisywana jako YYYY-MM-DD, np. 2007-11-02:

<lastmod>2007-11-02</lastmod>

Formatem pełnym daty jest YYYY-MM-DDTgg:mm:ss, np. 2007-11-02T18:50:24:

<lastmod>2007-11-02T18:50:24</lastmod>

7.5 Element changefreq

Element opcjonalny. Występuje wyłącznie wewnątrz url. Ustala częstotliwość zmian dokumentu. Poprawnymi wartościami są:

always
hourly
daily
weekly
monthly
yearly
never

Wartość always oznacza, że dokument podlega zmianom przy każdej próbie dostępu.

Przykładowy wpis:

<changefreq>daily<changefreq>

7.6 Element priority

Element opcjonalny. Występuje wyłącznie wewnątrz url. Ustala umowną ważność strony względem innych podstron serwisu. Wartość powinna być z zakresu od 0 do 1. Wartością domyślną jest 0.5.

<priority>0.8</priority>

7.7 Przykład pojedynczego pliku z mapą witryny

Przykładowy pojedynczy plik z mapą witryny jest przedstawiony na listingu 1, zaś tabela 2 zawiera pełne zestawienie elementów XML, które mogą wystąpić w pliku z mapą witryny.

<?xml version="1.0" encoding="utf-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>http://www.gajdaw.pl/nowosci.html</loc>
    <lastmod>2007-11-02</lastmod>    
    <changefreq>daily</changefreq>
    <priority>0.7</priority>
  </url>
  <url>
    <loc>http://www.gajdaw.pl/php/pear-auth/index.html</loc>
    <lastmod>2007-11-02</lastmod>    
    <changefreq>monthly</changefreq>
    <priority>0.6</priority>
  </url>  
  <url>
    <loc>http://www.gajdaw.pl/gimp/gimp-kurs-3/index.html</loc>
    <lastmod>2007-10-31</lastmod>    
    <changefreq>monthly</changefreq>
    <priority>0.6</priority>
  </url>    
  ...
</urlset>

Listing 1. Przykładowy pojedynczy plik z mapą witryny

lp. Element Może wystąpić w Może zawierać Wymagany/Opcjonalny Znaczenie
1. urlset - url wymagany Zawiera listę adresów URL.
2. url urlset loc, lastmod, changefreq, priority wymagany Opisuje pojedynczą stronę WWW.
3. loc url - wymagany Adres dokumentu.
4. lastmod url - opcjonalny Data ostatniej modyfikacji.
5. changefreq url - opcjonalny Informacje o tym, jak często dokument podlega zmianom.
6. priority url - opcjonalny Waga dokumentu względem innych stron (na tym samym serwerze).

Tabela 2. Elementy XML występujące w mapie witryny sitemap.xml

...  2   3   4   5   6   7   8   9