Protokol pro zakázání přístupu robotům

Protokol pro zakázání přístupu robotům (robots.txt) je textový soubor, který umožňuje správci webu zakázat nebo povolit přístup některých botů (např. Googlebot, Jyxobot aj.). Tento soubor se musí nacházet v kořenovém adresáři daného webu.

Příklady

Uvedením následujícího textu v souboru robots.txt lze zakázat procházení webu všem vyhledávačům:

User-agent: *
Disallow: /

Následující příklad zakáže všem robotům, aby procházeli obsah složek /cgi-bin, /images, /tmp a /private:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

Zakázaní Googlebotu procházet vše v adresáři /en:

User-Agent: Googlebot
Disallow: /en/

Alternativy

Parametr konkrétních odkazů

Zakázat procházení konkrétních odkazů lze i vložením speciálního parametru rel="nofollow" do každého z odkazů.

<a href="/stranka-kterou-nechci-prochazet" rel="nofollow">

Metatag robots

Zákaz procházení odkazů vedoucí z konkrétní URL lze pomocí umístění speciálního metatagu do hlavičky stránky.

<meta name="robots" content="nofollow" />

Sitemap.xml

Do souboru robots.txt je doporučené vložit odkaz na sitemap.xml, aby tento soubor mohly vyhledávače snáze nalézt a využívat jej k efektivnějšímu procházení webu.

Sitemap: http://www.example.org/sitemap/sitemap.xml

Zákaz procházení není zákaz indexace

Mnoho správců webů se mylně domnívá, že zákazem procházení dojde automaticky i k zákazu indexace stránek, ale praxe je mírně složitější. Internetové vyhledávače musí stránku navštívit a stáhnout, aby ji mohly zanést do svého indexu (proces indexace). Když je procházení daného adresáře zakázané v souboru robots.txt, tak danou stránku nemohou roboti navštívit a tedy indexovat. Jestliže však na danou stránku vede mnoho zpětných odkazů, tak mohou tuto stránku vyhodnotit, jako důležitou a přesto ji indexovat.

Související články

Externí odkazy

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.