Після викладення свого сайту http-сервер перед власником постає проблема правильної та швидкої індексації пошуковими роботами.
Спрощено кажучи, за індексацію сайту відповідають два файли: sitemap.xml і robots.txt. І якщо перший файл (карта сайту) допомагає пошуковим роботам орієнтуватися в структурі сайту в процесі індексації, то robots.txt навпаки, може вибірково забороняти пошуковому боту індексувати зазначені розділи сайту. Одночасно з цим він може вказувати роботу, що потрібно проіндексувати в першу чергу.

Куди поміщати файл robots.txt

Розміщувати файл robots.txt потрібно в кореневій директорії сайту. Першим ділом роботи заходять в кореневу папку http://domen.ru в якій сподіваються знайти файл robots.txt. Якщо в цій директорії цього файлу немає (або ви розмістили його в іншому місці) вони просто погодяться з його відсутністю і приступлять до індексації всього вмісту, в тому числі і того, яке вам хотілося б приховати. Якщо у сайту існують піддомени, то файл robots.txt потрібно створити для кожного з них.

Структура robots.txt

Структурно файл robots.txt складається з розділів (секцій) у яких містяться рядки директив (правил).
Кожен розділ повинен починатися з директиви User-agent і містити значення User-agent того робота, до якого вона належить.

User-agent: * #з символом * – відноситься до всіх роботам всіх пошукових систем;
User-agent: Yandex #- відноситься до човнів Yandex;
User-agent: Googlebot #- ботам Google;

і т. д.
Кожна секція обробляється роботом окремо, зміст попередніх секцій не враховується.
Секції розділяються між собою хоча б одним порожнім рядком.
Секція включає в себе директиви виду: [Ім’я директиви]: [пробіл (необов’язково)] [значення] [пробіл (необов’язково)].
Наприклад:

User-agent: Googlebot
Disallow:/ #Ця директива повністю забороняє боту Google індексувати весь сайт.

Запис директиви слід до кінця поточного рядка, переноси не допускаються. Між директивами всередині однієї секції не повинно бути порожніх рядків.
Директиви можна коментувати. Від директиви коментар відділяється знаком # і триває до кінця рядка. Якщо багаторядковий коментар, то кожна його рядок повинен починатися з символу #.

User-agent: Googlebot # ця директива.
Disallow:/primer #це теж директива, яка забороняє боту Google індексувати директорію /primer.
#це другий рядок цього коментаря, вона також ігнорується пошуковим ботом.

Розривати рядок директиви коментарем — не допускається.

Disallow: #так робити не можна/primer

В директивах можуть застосовуватися спеціальні символи * і $. Символ «зірочка» — * означає будь-яку послідовність (у тому числі порожню) будь-яких символів. Таким чином під маску /primer* підпадає і /primer1 та /primer.html.
Символ * приписується до кінця кожної директиви за замовчуванням, тому директиви:

Disallow: /primer*
Disallow: /primer

абсолютно ідентичні.
Щоб при інтерпретації директиви роботом уникнути «дописування» символу * застосовують спецсимвол $, який означає завершення підрядка порівняння.

User-agent: Yandex
Disallow: /primer$ # забороняє індексувати /primer, але не забороняє індексувати /primer.html.

Директива Disallow

Найпоширеніша директива, яка забороняє боту індексувати весь сайт чи його частину відповідно прописаному в ній шляху.
Директива Disallow з порожнім значенням параметра рівнозначна директиві Allow:/ тобто дозволяє індексувати весь сайт. Точно так само порожня директива Allow відповідає директиві Disallow:/ тобто забороняє індексувати весь сайт.

Disallow: = Allow:/ # дозвіл індексації
Allow: = Disallow:/ # заборона індексації

Директива Allow

Директива Allow має з Disallow схожий синтаксис, але, навпаки, вказує роботу які шляхи можна індексувати.

User-agent: Yandex
Allow: /primer
Disallow: /

Роботам Yandex заборонено індексувати весь сайт, крім шляхів, що починаються з /primer.

Спільне використання Allow і Disallow

Директиви Allow і Disallow знаходяться в межах одного розділу User-agent сортуються роботом по довжині префікс URL від меншого до більшого. До виконання приймаються послідовно, згідно отсортированному таким чином, списком. Тому не має значення в якій послідовності розташовувати директиви в розділі.
Фактично у файлі записано так:

User-agent: Yandex
Allow: /primer
Disallow: /
Робот сортує:
User-agent: Yandex
Disallow: /
Allow: /primer

Дозволяє індексувати лише шляхи починаються з /primer
Якщо обидві директиви мають префікс однакової довжини, то пріоритет віддається директиві Allow.

Директива Sitemap

Якщо структура сайту описана за допомогою файлу sitemap.xml, то вкажіть роботу шлях до нього в якості параметра директиви Sitemap.
Робот запам’ятає шлях, обробить дані і використовує їх у наступних завантажувальних сесіях.

User-agent: Yandex
Disallow: /
Allow: /primer
Sitemap: http://site.ru/struktura_site/sitemaps1/xml
Sitemap: http://site.ru/struktura_site/sitemaps2/xml

Директива Host

Директива Host коректно інтерпретується тільки ботами Yandex. Вона явно вказує пошуковому роботу-«зеркальщику» на головне дзеркало сайту. Справа в тому, що сайт з однаковим контентом може бути доступний в декількох доменних зонах, наприклад:
site.ru
site.com,
так і з лідируючим префіксом WWW або без нього:
www.site.ru
site.ru
Директиву Host рекомендується вставляти після директив Allow і Disallow, ee значенням повинно бути доменне ім’я з номером порту (за замовчуванням — 80). В кожному файлі robots.txt може бути оброблена тільки одна директива Host. Якщо їх зазначено декілька, то робот виконає тільки першу. Некоректно записані директиви Host ігноруються.

Директива Crawl-delay

C допомогою цього правила можна задати пошуковому боту мінімальний відрізок часу (в секундах) між завершенням завантаження однієї сторінки і початком завантаження наступної. Її застосування виправдане, якщо роботи надто часто індексують сайт, що викликає підвищене навантаження на сервер. Прописується вона безпосередньо після директив Allow, Disallow.
Рекомендації Yandex щодо складання файлу robots.txt
Рекомендації Google по складанню файлу robots.txt
Перевірити свій robots.txt на коректність можна в Yandex і Google.

Додав: magerhan, 08.06.2015 р.
(1 голосів, середній: 5,00 з 5)

Завантаження…

Діліться з друзями:

См. також:


Мета тег robots, приклади використання
Рубрика: Html, CSS, Javascript, SEO

Вибір тематики сайту
Рубрика: SEO, Проектування сайту

Додатковий трафік з допомогою картинок
Рубрика: SEO

Перелінковка
Рубрика: SEO

Алгоритми Google Penguin
Рубрика: SEO

Релевантність, правильні заголовки і опис сторінок
Рубрика: SEO

Мікро-розмітка breadcrumbs для Google
Рубрика: SEO

Внутрішня перелінковка
Рубрика: SEO

Як збільшити відвідуваність сайту?
Рубрика: SEO