Генератор robots.txt и sitemap.xml за минуту
Два базовых файла, без которых поисковики хуже понимают сайт. Переключите режим, заполните поля — и получите готовый robots.txt с правилами обхода или карту sitemap.xml из списка ваших страниц. Инструмент подставляет корректный синтаксис, директивы Host и Crawl-delay для Яндекса, ссылку на карту сайта и валидную XML-структуру. Всё считается прямо в браузере, ничего не уходит на сервер.
Зачем сайту robots.txt и sitemap.xml
Это два служебных файла, на которые опираются поисковые роботы. robots.txt лежит в корне сайта и сообщает роботу, какие разделы можно обходить, а какие — нет: например, корзину, личный кабинет или результаты поиска по сайту нет смысла отдавать в индекс. sitemap.xml — это карта сайта, список всех важных страниц с подсказками о приоритете и частоте обновления. Вместе они экономят краулинговый бюджет: робот не тратит время на мусорные страницы и быстрее находит нужные. Для нового сайта это особенно важно — без карты часть страниц может неделями не попадать в поиск.
robots.txt: как он работает
Файл читается сверху вниз и состоит из блоков. Каждый блок начинается со строки User-agent — это имя робота, к которому применяются правила (* означает «для всех»). Дальше идут директивы Disallow (что закрыть) и Allow (исключения внутри закрытого раздела). В конце обычно указывают ссылку на карту сайта через Sitemap. Пустая директива Disallow: означает, что сайт открыт целиком. Важно помнить: robots.txt — это рекомендация, а не защита. Добросовестные роботы Google и Яндекса её соблюдают, но закрытая в robots страница всё равно может попасть в индекс, если на неё ведут ссылки.
| Директива | Что делает | Пример |
|---|---|---|
| User-agent | Для какого робота правила | User-agent: * |
| Disallow | Закрыть путь от обхода | Disallow: /admin |
| Allow | Исключение внутри закрытого | Allow: /admin/help |
| Sitemap | Ссылка на карту сайта | Sitemap: https://site.ru/sitemap.xml |
| Host | Главное зеркало (Яндекс) | Host: site.ru |
| Crawl-delay | Пауза между запросами, сек | Crawl-delay: 2 |
sitemap.xml: зачем нужна карта сайта
Карта сайта — это XML-файл со списком URL, которые вы хотите видеть в поиске. Для каждой страницы можно указать частоту обновления (changefreq) и относительный приоритет (priority от 0 до 1). Поисковик использует эти данные как подсказку: главную и разделы каталога обходит чаще, статичные страницы вроде «О компании» — реже. Карта не гарантирует индексацию, но заметно ускоряет обнаружение новых и обновлённых страниц. Этот инструмент собирает карту из вашего списка страниц: можно вводить как полные адреса, так и относительные пути — они автоматически дополнятся адресом сайта.
- Робот не тратит бюджет на мусорные страницы
- Новые страницы быстрее попадают в индекс
- Один файл понимают и Google, и Яндекс
- robots.txt не защищает, а лишь рекомендует
- Ошибка в Disallow может закрыть весь сайт
- Карту нужно обновлять при добавлении страниц
Частые ошибки
Самая опасная ошибка — случайно закрыть весь сайт строкой Disallow: /: такое нередко остаётся с этапа разработки и обнуляет трафик. Вторая по частоте — забыть указать Sitemap в robots.txt, из-за чего робот дольше ищет карту. Также встречается закрытие папок со стилями и скриптами (/css, /js): тогда поисковик не может корректно отрисовать страницу и хуже её оценивает. В карте сайта типичная проблема — добавление закрытых в robots или несуществующих (404) страниц. Перед публикацией проверьте оба файла в панелях вебмастеров — это занимает минуту и страхует от потери позиций.
Как это сделать
- Выберите режим: robots.txt или sitemap.xml.
- Для robots.txt задайте User-agent, закрываемые пути (Disallow) и ссылку на карту сайта; при необходимости — Host и Crawl-delay.
- Для sitemap.xml укажите адрес сайта и список страниц — по одной в строке.
- Скопируйте результат кнопкой «Копировать код».
- Сохраните файл как robots.txt или sitemap.xml и положите в корень сайта.
- Проверьте файлы в Яндекс.Вебмастере и Google Search Console.
Частые вопросы
Это файлы с противоположными задачами, но они работают в паре. robots.txt — это запреты: он говорит роботу, какие разделы НЕ нужно обходить (корзина, админка, дубли). sitemap.xml — наоборот, приглашение: список страниц, которые вы ХОТИТЕ видеть в поиске, с подсказками о приоритете и частоте обновления. robots.txt экономит краулинговый бюджет, а карта ускоряет обнаружение нужных страниц. Правильно настроенный сайт использует оба файла одновременно, причём ссылку на sitemap указывают прямо в robots.txt.
Оба файла должны лежать в корне сайта, то есть быть доступными по адресам https://вашсайт/robots.txt и https://вашсайт/sitemap.xml. robots.txt поисковики ищут строго в корне — в подпапке он работать не будет. Карту сайта технически можно разместить где угодно, но удобнее тоже в корне, а её адрес обязательно прописать в robots.txt директивой Sitemap. После загрузки откройте оба адреса в браузере и убедитесь, что файлы отдаются и не возвращают ошибку 404.
Не полностью, и это частое заблуждение. Disallow запрещает роботу ОБХОДИТЬ страницу, но если на неё ведут внешние ссылки, поисковик может всё равно показать её в выдаче — без описания, по одному URL. Чтобы гарантированно убрать страницу из индекса, используйте мета-тег noindex или HTTP-заголовок X-Robots-Tag, причём страница при этом должна оставаться доступной для обхода. robots.txt подходит для экономии бюджета и скрытия служебных разделов, но не для надёжного сокрытия конфиденциальных данных.
Сейчас — практически нет. Директиву Host использовал Яндекс, чтобы определить главное зеркало сайта (например, с www или без). С 2018 года Яндекс перешёл на определение главного зеркала через 301-редиректы, и Host стала необязательной. Google её никогда не поддерживал. Оставлять Host не вредно, но гораздо важнее настроить корректные 301-редиректы с неосновных зеркал на основное. В инструменте поле Host оставлено опциональным — заполняйте только если точно знаете, что оно вам нужно.
Один файл sitemap.xml вмещает до 50 000 URL и должен весить не больше 50 МБ в несжатом виде. Если страниц больше, карту разбивают на несколько файлов и объединяют их через индексный sitemap — отдельный XML со ссылками на все карты. Для большинства сайтов одного файла более чем достаточно. Этот инструмент рассчитан на ручной список страниц и подходит для небольших и средних сайтов; для крупных каталогов карту обычно генерирует CMS автоматически.
Ничего страшного — сайт будет индексироваться полностью, как будто весь контент разрешён. Отсутствие robots.txt не ошибка, но это упущенная возможность: вы не управляете краулинговым бюджетом, и робот тратит время на служебные и дублирующие страницы. Кроме того, без robots.txt поисковику негде взять ссылку на вашу карту сайта. Поэтому даже минимальный файл с открытым доступом и строкой Sitemap уже полезен. Создать его — дело одной минуты в этом инструменте.
Карту стоит обновлять каждый раз, когда на сайте появляются новые страницы или удаляются старые. Если вы ведёте блог или каталог, который часто пополняется, удобнее настроить автоматическую генерацию через CMS. Для статичного сайта на несколько десятков страниц достаточно обновлять карту вручную при изменениях. Значения changefreq и priority — это подсказки, а не команды: поисковик учитывает их, но решение об обходе принимает сам, опираясь и на реальную динамику изменений страниц.