Что такое robots.txt и зачем он нужен
Robots.txt — это текстовый файл в корне сайта (например, https://ваш-сайт.ru/robots.txt), который задаёт правила для поисковых роботов. Он указывает, какие разделы сайта можно или нельзя сканировать.
Ключевые задачи:
- защита конфиденциальных данных;
- оптимизация краулингового бюджета;
- предотвращение индексации дублей;
- управление нагрузкой на сервер.
Где разместить и как проверить?
Размещение:
- файл должен находиться в корне домена: https://site.ru/robots.txt;
- доступен по HTTP/HTTPS (не через защищённые директории);
- кодировка — UTF‑8 без BOM.
Проверка доступности:
- Введите в браузере: ваш-сайт.ru/robots.txt.
- Убедитесь, что сервер возвращает код $200$ OK.
- Проверьте в Google Search Console («Настройки» → «Файл robots.txt»).
- В Яндекс Вебмастере — раздел «Индексирование» → «Анализ robots.txt».
Основные директивы и синтаксис
1. User‑agent — указание робота.
Примеры:
User-agent: * # для всех роботов
User-agent: Googlebot # только для Google
User-agent: Yandex # только для Яндекса2. Disallow — запрет сканирования.
Примеры:
Disallow: /admin/ # запрет директории
Disallow: /search/ # запрет страницы поиска
Disallow: /*?filter= # запрет URL с параметром filter3. Allow — разрешение (для уточнения исключений).
Пример:
Allow: /images/photo.jpg # разрешить конкретный файл4. Sitemap — ссылка на карту сайта.
Пример:
Sitemap: https://site.ru/sitemap.xml5. Crawl‑delay — задержка между запросами (устаревшая для Google, актуальна для некоторых других роботов).
Пример:
Crawl-delay: 10 # пауза 10 секТиповые правила для разных сайтов
Интернет‑магазин:
User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: /*sort=
Disallow: /*filter=
Allow: /*.jpg$
Sitemap: https://site.ru/sitemap.xmlБлог/новостной сайт на WordPress:
User-agent: *
Disallow: /wp-admin/
Disallow: /search/
Disallow: /author/
Allow: /wp-content/uploads/
Sitemap: https://site.ru/sitemap.xmlКорпоративный сайт (роботс зависит от тех разделов которые нужно закрыть от индексации):
User-agent: *
Disallow: /temp/
Disallow: /test/
Disallow: /private/
Allow: /public/
Sitemap: https://site.ru/sitemap.xmlЧастые ошибки и как их избежать
- Случайный запрет всего сайта
Ошибка:
Disallow: /Решение: используйте точные пути, тестируйте через валидаторы.
- Игнорирование параметров URL
Ошибка: не закрыты динамические фильтры.
Решение: блокируйте параметры через Disallow: /*?param=. - Отсутствие Sitemap
Решение: добавьте строку Sitemap: с корректным URL. - Некорректные пути
Ошибка: /admin вместо /admin/.
Решение: всегда проверяйте совпадает ли адрес с тем, которых вы хотите запретить, к примеру, слеш в конце для директорий. - Использование комментариев внутри директив
Ошибка: Disallow: /secret/ # конфиденциально.
Решение: комментарии только с символа # в отдельной строке.
Продвинутые настройки
1. Раздельные правила для роботов
User-agent: Googlebot
Disallow: /tmp/User-agent: Yandex
Disallow: /drafts/2. Ограничение по расширениям
Disallow: *.pdf$
Disallow: *.zip$3. Разрешение конкретных файлов в запрещённой директории
Disallow: /docs/
Allow: /docs/public-report.pdfПроверка и тестирование
Инструменты:
- Google Search Console — «Тест robots.txt».
- Яндекс Вебмастер — «Анализ robots.txt».
- Онлайн‑валидаторы:
robots-txt.com;
seochat.com/robots-txt-checker.
Ручной тест:
- попробуйте открыть заблокированные URL через браузер — они должны быть доступны (robots.txt не блокирует доступ, а только сканирование).
Рекомендации по обновлению
- При смене структуры сайта — пересмотрите правила.
- При добавлении конфиденциальных разделов — сразу закрывайте их.
- После запуска новых функций (поиск, фильтры) — проверьте параметры URL.
- Раз в 3–6 месяцев — аудит текущих правил.
Чек‑лист настройки
- Разместите robots.txt в корне домена.
- Укажите User-agent для нужных роботов.
- Закройте служебные директории (/admin/, /temp/).
- Запретите динамические параметры (?sort=, ?filter=).
- Добавьте ссылку на Sitemap.xml.
- Проверьте через валидаторы Google/Яндекса.
- Протестируйте доступ к ключевым страницам.
- Обновляйте при изменениях структуры сайта.
Итог
Грамотно настроенный robots.txt:
- экономит краулинговый бюджет;
- защищает конфиденциальные данные;
- предотвращает дублирование контента;
- улучшает индексацию важных разделов.
Главное правило: регулярно пересматривайте файл при обновлении сайта и используйте точные, а не глобальные запреты.

