Robots.txt je soubor v textovém formátu, který udává vyhledávačům informace o indexaci na Vašich webových stránkách. Určuje botům / crawlerům vyhledávačů omezení či určení přístupů na Vašich stránkách.
Co je bot / crawler: Jedná se o roboty, které využívají vyhledávače k procházení webových prezentací a jejich obsahu. Na základě tohoto procházení poté upravují indexy vyhledávání a doplňují informace do vyhledávání.
Soubor se vytváří v běžném textovém formátu .TXT a lze jej tedy vytvořit v jakémkoli textovém editoru. Jedná se o první soubor, který na Vašem webu bot navštíví. Pokud tento soubor neexistuje, pokračuje bot k procházení veškerých podstránek Vaší webové prezentace.
Robots.txt se nejčastěji využívá k omezení přístupu na jednotlivé stránky, ať už z důvodu nevyžádaného zaindexování nebo například, že se jedná o citlivou stránku jako je administrace systémů.
Struktura robots.txt
Disallow: Jedná se o relativní cestu ke stránce, kam nechcete aby měl User-agent přístup.
Allow: Tímto příkazem můžete povolit přístup User-agenta například na podstránku, i když její nadřazená stránka má přístup omezen.
Sitemap: Zde můžete uvést cestu k
Vaší Sitemapě, aby ji robot našel co nejrychleji.
Příklady robots.txt
User-agent: *
Disallow:
Na příkladu výše vidíte jeden z nejčastějších zápisů v robots.txt. Znamená to že všichni boti / agenti (značeno *) mají přístup do všech stránek.
User-agent: *
Disallow: /
Zde se jedná o pravý opak předešlého případu. Tímto zápisem dochází k zakázání přístupu botů na všechny stránky.
User-agent: Googlebot
Disallow: /administration/
Tento zápis určuje omezení pouze pro bota vyhledávače Google. V tomto případě nesmí do stránek s URL adresou /administration/.
Jak ověřit funkčnost robots.txt