Sitemap
Sitemap je soubor, který má napomoci internetovým vyhledávačům vyznat se na webové stránce. Nejčastěji je sitemap XML soubor, nebývá to však podmínka. Často ho můžete najít i s příponami HTML či PHP. Sitemap se většinou ukládá do kořenového adresáře webu. Sitemap pomáhá vyhledávacím robotům procházet stránky, které by byly jinak těžko dosažitelné. Sitemap je doplněk pro soubor robots.txt. Zatímco robots.txt slouží pro vyloučení některých stránek z vyhledávání, tak sitemap slouží pro přidávání stránek do vyhledávače. Není tedy možné říct, že stránky, které v sitemap nejsou uvedeny vyhledávače ignorují. Sitemap je pouze doplněk ke klasickému procházení webu vyhledávacím robotem.
Příklad sitemap
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
<url>
<loc>http://www.example.com/catalog?item=12&desc=vacation_hawaii</loc>
<changefreq>weekly</changefreq>
</url>
<url>
<loc>http://www.example.com/catalog?item=73&desc=vacation_new_zealand</loc>
<lastmod>2004-12-23</lastmod>
<changefreq>weekly</changefreq>
</url>
<url>
<loc>http://www.example.com/catalog?item=74&desc=vacation_newfoundland</loc>
<lastmod>2004-12-23T18:00:15+00:00</lastmod>
<priority>0.3</priority>
</url>
<url>
<loc>http://www.example.com/catalog?item=83&desc=vacation_usa</loc>
<lastmod>2004-11-23</lastmod>
</url>
</urlset>
Elementy
Elementy je možné nalézt na oficiálních stránkách http://www.sitemaps.org/protocol.php
Element | Povinné | Popis |
---|---|---|
<urlset> | Ano | Kořenový element. Vše ostatní musí být uvnitř. |
<url> | Ano | Obalovací element pro jednotlivé položky sitemapy. |
<loc> | Ano | Obsahuje úplnou URL stránky, včetně protokolu (např. http, https) a ukončený lomítkem, pokud to server vyžaduje. Hodnota musí být kratší než 2048 znaků. |
<lastmod> | Ne | Datum poslední modifikace stránky v ISO 8601 formátu. Může obsahovat jednak plný datum a čas nebo může být ve formátu: RRRR-MM-DD. |
<changefreq> | Ne | Určuje jak často je stránka měněna:
'Always' Je použito pro stránku, která se mění při každém přístupu. 'Never' je použito pro archivní stránky (například soubory, které se nikdy nezmění). Toto je vodítko, pro vyhledávací roboty, jak často mají stránku navštívit. Není však prokázáno, že by se roboti tohoto údaje přesně drželi. |
<priority> | Ne | Určuje prioritu stránky na serveru.
Povolené hodnoty jsou od 0.0 do 1.0, kde 1.0 značí nejdůležitější. Výchozí hodnota je 0.5. Priorita je pouze relativní vlastnost webů na jednom serveru, neovlivní umístění stránky ve výsledku vyhledávání. Pokud se vyhledávač má rozhodovat při zobrazení ve výsledku ve vyhledávání mezi dvěma URL z jednoho webu, tak rozhodne právě na základě priority. Nastavení všech stránek na nejvyšší prioritu tedy není věc, která může webu pomoci. |