Генератор robots.txt и sitemap.xml за минуту

Два базовых файла, без которых поисковики хуже понимают сайт. Переключите режим, заполните поля — и получите готовый robots.txt с правилами обхода или карту sitemap.xml из списка ваших страниц. Инструмент подставляет корректный синтаксис, директивы Host и Crawl-delay для Яндекса, ссылку на карту сайта и валидную XML-структуру. Всё считается прямо в браузере, ничего не уходит на сервер.

Что генерируем

Зачем сайту robots.txt и sitemap.xml

Это два служебных файла, на которые опираются поисковые роботы. robots.txt лежит в корне сайта и сообщает роботу, какие разделы можно обходить, а какие — нет: например, корзину, личный кабинет или результаты поиска по сайту нет смысла отдавать в индекс. sitemap.xml — это карта сайта, список всех важных страниц с подсказками о приоритете и частоте обновления. Вместе они экономят краулинговый бюджет: робот не тратит время на мусорные страницы и быстрее находит нужные. Для нового сайта это особенно важно — без карты часть страниц может неделями не попадать в поиск.

robots.txt: как он работает

Файл читается сверху вниз и состоит из блоков. Каждый блок начинается со строки User-agent — это имя робота, к которому применяются правила (* означает «для всех»). Дальше идут директивы Disallow (что закрыть) и Allow (исключения внутри закрытого раздела). В конце обычно указывают ссылку на карту сайта через Sitemap. Пустая директива Disallow: означает, что сайт открыт целиком. Важно помнить: robots.txt — это рекомендация, а не защита. Добросовестные роботы Google и Яндекса её соблюдают, но закрытая в robots страница всё равно может попасть в индекс, если на неё ведут ссылки.

Основные директивы robots.txt
Директива	Что делает	Пример
User-agent	Для какого робота правила	User-agent: *
Disallow	Закрыть путь от обхода	Disallow: /admin
Allow	Исключение внутри закрытого	Allow: /admin/help
Sitemap	Ссылка на карту сайта	Sitemap: https://site.ru/sitemap.xml
Host	Главное зеркало (Яндекс)	Host: site.ru
Crawl-delay	Пауза между запросами, сек	Crawl-delay: 2

sitemap.xml: зачем нужна карта сайта

Карта сайта — это XML-файл со списком URL, которые вы хотите видеть в поиске. Для каждой страницы можно указать частоту обновления (changefreq) и относительный приоритет (priority от 0 до 1). Поисковик использует эти данные как подсказку: главную и разделы каталога обходит чаще, статичные страницы вроде «О компании» — реже. Карта не гарантирует индексацию, но заметно ускоряет обнаружение новых и обновлённых страниц. Этот инструмент собирает карту из вашего списка страниц: можно вводить как полные адреса, так и относительные пути — они автоматически дополнятся адресом сайта.

✓ Что это даёт

Робот не тратит бюджет на мусорные страницы
Новые страницы быстрее попадают в индекс
Один файл понимают и Google, и Яндекс

✕ О чём помнить

robots.txt не защищает, а лишь рекомендует
Ошибка в Disallow может закрыть весь сайт
Карту нужно обновлять при добавлении страниц

Частые ошибки

Самая опасная ошибка — случайно закрыть весь сайт строкой Disallow: /: такое нередко остаётся с этапа разработки и обнуляет трафик. Вторая по частоте — забыть указать Sitemap в robots.txt, из-за чего робот дольше ищет карту. Также встречается закрытие папок со стилями и скриптами (/css, /js): тогда поисковик не может корректно отрисовать страницу и хуже её оценивает. В карте сайта типичная проблема — добавление закрытых в robots или несуществующих (404) страниц. Перед публикацией проверьте оба файла в панелях вебмастеров — это занимает минуту и страхует от потери позиций.

Как это сделать

Выберите режим: robots.txt или sitemap.xml.
Для robots.txt задайте User-agent, закрываемые пути (Disallow) и ссылку на карту сайта; при необходимости — Host и Crawl-delay.
Для sitemap.xml укажите адрес сайта и список страниц — по одной в строке.
Скопируйте результат кнопкой «Копировать код».
Сохраните файл как robots.txt или sitemap.xml и положите в корень сайта.
Проверьте файлы в Яндекс.Вебмастере и Google Search Console.

Частые вопросы

Это файлы с противоположными задачами, но они работают в паре. robots.txt — это запреты: он говорит роботу, какие разделы НЕ нужно обходить (корзина, админка, дубли). sitemap.xml — наоборот, приглашение: список страниц, которые вы ХОТИТЕ видеть в поиске, с подсказками о приоритете и частоте обновления. robots.txt экономит краулинговый бюджет, а карта ускоряет обнаружение нужных страниц. Правильно настроенный сайт использует оба файла одновременно, причём ссылку на sitemap указывают прямо в robots.txt.

Оба файла должны лежать в корне сайта, то есть быть доступными по адресам https://вашсайт/robots.txt и https://вашсайт/sitemap.xml. robots.txt поисковики ищут строго в корне — в подпапке он работать не будет. Карту сайта технически можно разместить где угодно, но удобнее тоже в корне, а её адрес обязательно прописать в robots.txt директивой Sitemap. После загрузки откройте оба адреса в браузере и убедитесь, что файлы отдаются и не возвращают ошибку 404.

Не полностью, и это частое заблуждение. Disallow запрещает роботу ОБХОДИТЬ страницу, но если на неё ведут внешние ссылки, поисковик может всё равно показать её в выдаче — без описания, по одному URL. Чтобы гарантированно убрать страницу из индекса, используйте мета-тег noindex или HTTP-заголовок X-Robots-Tag, причём страница при этом должна оставаться доступной для обхода. robots.txt подходит для экономии бюджета и скрытия служебных разделов, но не для надёжного сокрытия конфиденциальных данных.

Сейчас — практически нет. Директиву Host использовал Яндекс, чтобы определить главное зеркало сайта (например, с www или без). С 2018 года Яндекс перешёл на определение главного зеркала через 301-редиректы, и Host стала необязательной. Google её никогда не поддерживал. Оставлять Host не вредно, но гораздо важнее настроить корректные 301-редиректы с неосновных зеркал на основное. В инструменте поле Host оставлено опциональным — заполняйте только если точно знаете, что оно вам нужно.

Один файл sitemap.xml вмещает до 50 000 URL и должен весить не больше 50 МБ в несжатом виде. Если страниц больше, карту разбивают на несколько файлов и объединяют их через индексный sitemap — отдельный XML со ссылками на все карты. Для большинства сайтов одного файла более чем достаточно. Этот инструмент рассчитан на ручной список страниц и подходит для небольших и средних сайтов; для крупных каталогов карту обычно генерирует CMS автоматически.

Ничего страшного — сайт будет индексироваться полностью, как будто весь контент разрешён. Отсутствие robots.txt не ошибка, но это упущенная возможность: вы не управляете краулинговым бюджетом, и робот тратит время на служебные и дублирующие страницы. Кроме того, без robots.txt поисковику негде взять ссылку на вашу карту сайта. Поэтому даже минимальный файл с открытым доступом и строкой Sitemap уже полезен. Создать его — дело одной минуты в этом инструменте.

Карту стоит обновлять каждый раз, когда на сайте появляются новые страницы или удаляются старые. Если вы ведёте блог или каталог, который часто пополняется, удобнее настроить автоматическую генерацию через CMS. Для статичного сайта на несколько десятков страниц достаточно обновлять карту вручную при изменениях. Значения changefreq и priority — это подсказки, а не команды: поисковик учитывает их, но решение об обходе принимает сам, опираясь и на реальную динамику изменений страниц.