Файл robots.txt

585

Правильний файл robots.txt

Файл robots.txt – являє собою текстовий документ, який лежить в “корені” сайту і вказує пошуковим роботам, що їм можна індексувати, а що ні. Так само в ньому прописується головне дзеркало сайту, рекомендований інтервал між індексуванням сторінок сайту і т. д.

Пошуковий робот, він же краулер (від англ. crawler) – це спеціальна програма, яка є однією з основних частин пошукових алгоритмів. Головним завданням краулера є обхід сторінок
інтернету, їх завантаження та занесення в базу даних пошукової системи. По простому пошуковий робот являє звичайний браузер, який переглядає сторінки, інформацію з них переносить сервер своєї
пошукової системи, і йде далі за внутрішніми посиланнями на інші сторінки сайту. Глибина перегляду сайту у краулера зазвичай обмежена.

Якщо ви використовуєте WordPress, то приклад файлу robots.txt буде виглядати так:

User-Agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/

“User-Agent: *” – означає, що всі пошукові боти (Google, Yandex, Yahoo, MSN і т. д.) повинні використовувати ці інструкції для обходу вашого сайту. Якщо ваш сайт є складним вам потрібно буде
встановлювати різні інструкції для різних павуків. Ви можете прописувати інструкції і під кожного робота окремо (актуально для робота Яндекса з їх директорією “HOSTS:…”, де замість крапок ім’я головного дзеркала сайту). Для різних пошукових ботів існують свої імена:

  • robots.txt для Гугла – User-agent: Googlebot
  • robots.txt для Рамблера – User-agent: StackRambler
  • robots.txt для Яндекса – User-agent: Yandex
  • robots.txt для Yahoo – User-agent: Slurp або Yahoo! Slurp
  • robots.txt для MSN – User-agent: MSNBot

“Disallow: / WP-” – означає, що пошукові системи не будуть сканувати файли WordPress, тобто виключити всі папки та файли, що починаються з ‘ WP-” з індексації.
Якщо ви не використовуєте WordPress або Joomla і не хочете, щоб инднксировались деякі папки і файли них, просто вкажіть їх у рядку Disallow, наприклад:

Рекомендую до прочитання: Юзабіліті сайту

User-agent: *
Disallow: /images/
Disallow: /cgi-bin/
Disallow: / будь-якої іншої папки, які слід виключити /

Після того як ви створили файл robots.txt його потрібно просто завантажити в кореневий каталог вашого сайту !

Попередня статтяПокупка посилань на біржі Sape
Наступна статтяHeroic намагалися заборонити своїм гравцям обговорювати “баг спостерігача” під загрозою штрафу в 500 000 $