Поисковый робот не обходит ваш сайт бесконечно — у него есть лимит на количество страниц, которые он скачает за единицу времени. Этот лимит и называют краулинговым бюджетом. Если бюджет тратится на мусорные URL — дубли, бесконечные фильтры, цепочки редиректов — то важные страницы индексируются медленно или не индексируются вовсе. Для небольшого сайта это редко проблема, но для интернет-магазина с десятками тысяч URL краулинговый бюджет напрямую определяет, как быстро новые товары и изменения попадают в выдачу Google и Яндекса. Разберём, как он устроен, что его съедает и как навести порядок.
Что такое краулинговый бюджет на самом деле
Google описывает краулинговый бюджет через две составляющие. Первая — лимит скорости обхода (crawl rate limit): сколько одновременных соединений робот откроет и какую паузу выдержит между запросами, чтобы не положить ваш сервер. Если сервер отвечает быстро и без ошибок, лимит растёт; если тормозит или отдаёт 5xx — падает. Вторая — потребность в обходе (crawl demand): насколько поисковику вообще интересно переобходить ваши страницы. Популярные и часто обновляемые URL обходятся чаще, забытые и статичные — реже. Краулинговый бюджет — это произведение этих двух факторов.
Важен ли краулинговый бюджет именно вашему сайту
Честный ответ: большинству небольших сайтов (до нескольких тысяч страниц) о краулинговом бюджете беспокоиться не нужно — робот успевает обойти всё. Проблема становится реальной, когда выполнено хотя бы одно из условий: на сайте десятки или сотни тысяч URL; есть автогенерируемые страницы (фильтры, сортировки, поиск по сайту, календари); контент часто меняется и важна скорость переиндексации; вы заметили в Search Console, что часть страниц месяцами висит в статусе «Обнаружена, не проиндексирована». Если это про вас — оптимизация бюджета даст ощутимый прирост охвата индексации.
Что тратит краулинговый бюджет впустую
Бюджет утекает на URL, которые роботу обходить не нужно, но он всё равно их скачивает, потому что нашёл на них ссылки или они есть в sitemap. Вот главные пожиратели бюджета, в порядке частоты:
- Дубли страниц — один и тот же контент по нескольким URL (с/без слэша, с UTM-метками, http/https, www/без-www, índex.html). Робот скачивает каждый вариант отдельно.
- Фасетная навигация и фильтры — комбинации «цвет × размер × цена × сортировка» порождают миллионы почти одинаковых URL. Классическая беда e-commerce.
- Бесконечные пространства — календари с переходом «вперёд» без конца, пагинация в никуда, страницы поиска по сайту с любыми параметрами.
- Цепочки и петли редиректов — каждый лишний прыжок робот скачивает отдельно, а до цели может не дойти (см. наш гайд по редиректам).
- Soft 404 — страницы, которые отдают код 200, но по сути пустые или «ничего не найдено». Робот тратит на них обход, а пользы ноль.
- Медленный сервер и ошибки 5xx — снижают лимит скорости обхода: робот видит, что сервер не справляется, и приходит реже.
- Низкокачественные и тонкие страницы — теги с одной записью, пустые карточки, автогенерированный текст. Снижают общую потребность в обходе сайта.
Как найти проблемы с обходом
Прежде чем что-то оптимизировать, нужно увидеть, на что робот реально тратит бюджет. Три источника данных. Первый — отчёт «Статистика сканирования» (Crawl Stats) в Google Search Console: показывает число запросов в день, средний размер ответа, время ответа и разбивку по кодам и типам файлов. Резкий рост запросов к одному типу URL — сигнал утечки. Второй — Яндекс.Вебмастер: разделы «Статистика обхода» и «Страницы в поиске» показывают, что Яндекс обошёл и что исключил и почему. Третий и самый точный — анализ логов сервера: в них видно каждое обращение робота (по User-agent Googlebot/YandexBot), и можно посчитать, какая доля обхода уходит на мусорные URL.
Лог-анализ — недооценённый, но самый честный инструмент технического SEO. Выгрузите access-логи за пару недель, отфильтруйте по ботам, сгруппируйте по шаблону URL и посмотрите топ обхода. Почти всегда обнаруживается, что 30–60% запросов робота уходит на параметрические URL, страницы фильтров или редиректы — то есть бюджет горит впустую. Это и есть ваш список на исправление.
Как оптимизировать краулинговый бюджет
Оптимизация — это перенаправление бюджета с мусора на ценные страницы. Порядок действий по эффективности:
- Закройте бесполезные URL в robots.txt — параметры сортировки, поиск по сайту, корзину, служебные страницы. Робот не будет их обходить и сэкономит бюджет (но помните: robots.txt запрещает обход, не индексацию — для уже проиндексированного используйте noindex).
- Настройте canonical для дублей и параметрических URL — указывайте каноническую версию, чтобы вес и обход концентрировались на ней.
- Уберите цепочки редиректов — каждый 301 должен вести сразу на финальный URL, без промежуточных прыжков.
- Держите чистый sitemap.xml — только канонические, индексируемые URL с актуальными датами lastmod. Робот доверяет sitemap и обходит указанное в приоритете.
- Ускорьте сервер — снизьте TTFB, включите кеширование и сжатие. Быстрый ответ напрямую повышает лимит скорости обхода.
- Уберите soft 404 — пустые страницы должны честно отдавать 404 или 410, а не 200.
- Усильте внутреннюю перелинковку к важным страницам — чем больше внутренних ссылок ведёт на страницу, тем выше её приоритет обхода.
Особенности Яндекса
Яндекс обходит сайты по своей логике и даёт чуть больше прямого контроля, чем Google. В Яндекс.Вебмастере есть инструмент «Переобход страниц» — можно вручную отправить до нескольких десятков URL в день на приоритетный обход, что полезно для свежих важных страниц. Историческая директива Crawl-delay в robots.txt Яндексом раньше учитывалась (пауза между запросами), но сейчас рекомендуется управлять скоростью через настройки в Вебмастере, а не через robots.txt. Также Яндекс медленнее Google убирает из индекса закрытые страницы, поэтому после правок наберитесь терпения — переобход и переиндексация в рунете занимают дольше.
Чек-лист оптимизации обхода
- Проверили Crawl Stats в GSC и «Статистику обхода» в Вебмастере — знаете, на что уходит бюджет.
- Параметрические и служебные URL закрыты в robots.txt, дубли получили canonical.
- Цепочки редиректов схлопнуты до одного прыжка, петель нет.
- Sitemap содержит только канонические индексируемые URL с корректными lastmod.
- TTFB низкий, ошибок 5xx нет, soft 404 устранены.
- Важные страницы хорошо перелинкованы и не глубже 3 кликов от главной.
Краулинговый бюджет — это не магия, а гигиена: вы помогаете роботу не тратить силы на мусор и сосредоточиться на том, что приносит трафик. Site Metrics Tool помогает держать это под контролем — мониторит индексацию, Core Web Vitals (включая TTFB), цепочки редиректов и техническое состояние сайта в одном дашборде по Google и Яндексу, и присылает алерт, когда что-то ломается.
Частые вопросы
Нужно ли мне вообще думать о краулинговом бюджете?
Если у сайта меньше нескольких тысяч страниц и нет автогенерируемых URL — почти наверняка нет, робот обойдёт всё. Думать о бюджете стоит при десятках тысяч URL, фасетной навигации или когда страницы месяцами не индексируются.
Поможет ли robots.txt сэкономить бюджет?
Да — закрытые в robots.txt URL робот не обходит, и бюджет перенаправляется на полезные страницы. Но помните: robots.txt запрещает обход, а не индексацию. Если страница уже в индексе, её нужно закрывать через meta noindex (и НЕ блокировать в robots.txt, иначе робот не увидит noindex).
Как быстро ускорить индексацию новой страницы?
Добавьте страницу в sitemap, поставьте на неё внутренние ссылки с обходимых страниц, отправьте URL на переобход в Яндекс.Вебмастере и через «Проверку URL» в GSC. Протокол IndexNow (поддерживают Яндекс и Bing) уведомляет о новых URL почти мгновенно.
Влияет ли скорость сайта на обход?
Напрямую. Чем быстрее сервер отвечает (низкий TTFB) и чем меньше ошибок 5xx, тем выше лимит скорости обхода — робот открывает больше соединений и приходит чаще. Медленный сервер сам себя ограничивает в индексации.
Что такое soft 404 и чем он вреден?
Soft 404 — это страница, которая фактически пуста или сообщает «ничего не найдено», но отдаёт HTTP-код 200 вместо 404. Робот считает её рабочей, тратит на неё обход и может проиндексировать как тонкую страницу. Пустые страницы должны честно отдавать 404 или 410.