Створення сайту

Як прибрати дублі сторінок на сайті через robots.txt

03.11.2021

560

Всім привіт! Сьогодні хочу поговорити про дублікати сторінок на сайті. Дублікати сторінок – це абсолютно однакові по вмісту контенту сторінки на сайті, але мають різні URL. Пошуковики індексують ці сторінки, як дві різні. так як адреси у них відрізняються. А, як вам відомо, це буде не унікальним контентом, який в свою чергу призведе до зниження довіри пошуковика і зниження позицій сайту. Розглянемо один з численних способів видалення дублікатів сторінок з пошуку.

Як прибрати дублі сторінок на сайті через robots.txt

Для того щоб прибрати дублі сторінок за допомогою robots.txt перше, що потрібно налаштувати файл. Він лежить в кореневій директорії вашого сайту. Якщо ж такий файл не знаходиться, то його потрібно створити. Саме з нього пошуковики зчитують інформацію про те, як індексувати сайт.

У Robots міститься потрібна для пошукових ботів інформація, а саме перелік сторінок, які можна відвідувати, які не можна, який основний домен сайту, де знаходиться карта сайту і так далі.

Як створити robots?

Створити такий файл – просто. Досить зробити .txt документ з назвою «robots» і завантажити його в корінь сайту. У файлі потрібно прописати такі дані, як: User-agent, Allow, Disallow, Host. Приклад:

Приклад файлу robots.txt
User-agent: *
Allow: /
Disallow: /tag
Host: seo-infa.ru

1
2
3
4

User-agent: *
Allow: /
Disallow: /tag
Host: seo-infa.ru

Ну це необхідні речі. А можна ще шлях до xml карти сайту прописати…

User-agent містить інформацію про пошукових системах, для яких вказувалися правила. Allow вказує список адрес, які дозволені для індексації. Disallow – визначає перелік заборонених для індексації адрес. Host повідає пошуковій системі, який домен у сайту є основним, з www або без, наприклад.

Рекомендую до прочитання: Навіщо створювати сайт?

Так, це вважається? як два різних домену. При реєстрації домену одночасно фіксується і його дзеркало. З технічного боку це виглядає, як два різних домену, але з однаковим змістом, тому потрібно вказати який з них головний, а який дзеркальний. Таким чином, пошукова система, відвідавши зеркало\robots.txt і розшифрує, що це і є додатковий домен.

Видалення дублів з допомогою robots.txt

Ну ось, robots.txt зробили. Наступним кроком стає безпосереднє видалення дублів з сайту. Конкретні дії можна сказати, знаючи хоча б, який у вас движок, так і цього мало, якщо чесно, треба знати адресу сайту.

А як же тоді? Та все просто. Ви подумайте, які сторінки на сайті у вас дублюються, де дублюються частини вмісту. Часто буває, що це всякі теги, архіви по даті, архіви по авторам і так далі. Подумавши і виявивши подібні сторінки, закрийте їх від індексації у файлі robots, прописавши Disallow: /stranica.

Якщо є якісь непонятки – запитуйте в коментарях. Повирішуємо.