Правильний файл robots.txt
Файл robots.txt – являє собою текстовий документ, який лежить в “корені” сайту і вказує пошуковим роботам, що їм можна індексувати, а що ні. Так само в ньому прописується головне дзеркало сайту, рекомендований інтервал між індексуванням сторінок сайту і т. д.
Пошуковий робот, він же краулер (від англ. crawler) – це спеціальна програма, яка є однією з основних частин пошукових алгоритмів. Головним завданням краулера є обхід сторінок
інтернету, їх завантаження та занесення в базу даних пошукової системи. По простому пошуковий робот являє звичайний браузер, який переглядає сторінки, інформацію з них переносить сервер своєї
пошукової системи, і йде далі за внутрішніми посиланнями на інші сторінки сайту. Глибина перегляду сайту у краулера зазвичай обмежена.
Якщо ви використовуєте WordPress, то приклад файлу robots.txt буде виглядати так:
User-Agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
“User-Agent: *” – означає, що всі пошукові боти (Google, Yandex, Yahoo, MSN і т. д.) повинні використовувати ці інструкції для обходу вашого сайту. Якщо ваш сайт є складним вам потрібно буде
встановлювати різні інструкції для різних павуків. Ви можете прописувати інструкції і під кожного робота окремо (актуально для робота Яндекса з їх директорією “HOSTS:…”, де замість крапок ім’я головного дзеркала сайту). Для різних пошукових ботів існують свої імена:
- robots.txt для Гугла – User-agent: Googlebot
- robots.txt для Рамблера – User-agent: StackRambler
- robots.txt для Яндекса – User-agent: Yandex
- robots.txt для Yahoo – User-agent: Slurp або Yahoo! Slurp
- robots.txt для MSN – User-agent: MSNBot
“Disallow: / WP-” – означає, що пошукові системи не будуть сканувати файли WordPress, тобто виключити всі папки та файли, що починаються з ‘ WP-” з індексації.
Якщо ви не використовуєте WordPress або Joomla і не хочете, щоб инднксировались деякі папки і файли них, просто вкажіть їх у рядку Disallow, наприклад:
Рекомендую до прочитання: Юзабіліті сайту
User-agent: *
Disallow: /images/
Disallow: /cgi-bin/
Disallow: / будь-якої іншої папки, які слід виключити /
Після того як ви створили файл robots.txt його потрібно просто завантажити в кореневий каталог вашого сайту !