Маркетинг 25 марта 2026 · 10 мин чтения 302 0

Краулинговый бюджет: что это и как его оптимизировать для крупного сайта

Краулинговый бюджет — понятие, которое для малых сайтов звучит как теоретическая абстракция, а для крупных e-commerce превращается в практическую проблему, ограничивающую рост органического трафика. Если поисковый робот не успевает проиндексировать новые товары и обновлённые страницы, любые усилия по созданию контента упираются в потолок краулинга.

В этой статье — разбор, что такое краулинговый бюджет, кому он реально важен, как его измерить и какие 10 практик помогают использовать каждый запрос поискового робота эффективно. Информация актуальна для Google и Яндекса; различия между ними отмечены отдельно.

Что такое краулинговый бюджет

Краулинговый бюджет — количество URL, которое поисковый робот готов обойти на конкретном сайте за определённый период. Это лимит обращений к серверу, который алгоритм устанавливает на основе двух факторов: возможностей сайта (crawl rate limit) и потребности в индексации (crawl demand).

Поисковая система не может бесконечно сканировать каждый сайт: ресурсы Google и Яндекса конечны, серверы сайтов имеют ограничения по нагрузке. Поэтому каждому сайту достаётся свой пул запросов в день, неделю, месяц. На этот пул и приходится распределять внимание робота между миллионами потенциальных страниц.

Концепция официально подтверждена Google: в документации Search Central есть отдельный раздел про crawl budget, который описывает механизм и факторы влияния. Яндекс не использует термин «краулинговый бюджет» в публичной документации, но логика аналогична — у каждого сайта есть лимит сканирования, который зависит от качества сайта и его технического состояния.

Когда краулинговый бюджет важен

Не каждому сайту нужно беспокоиться о краулинге. Малый блог на 50 страниц поисковый робот обходит за один визит, и оптимизировать там нечего. Проблема возникает, когда число URL превышает скорость их обхода.

Размер сайта Краулинговый бюджет важен? Что отслеживать
До 1 000 страниц Почти никогда Базовая индексация, ошибки 4XX/5XX
1 000 – 10 000 страниц В случае проблем Доля проиндексированных, скорость индексации новых
10 000 – 100 000 страниц Регулярная задача Логи сервера, отчёты Search Console
Свыше 100 000 страниц Постоянная работа Глубокая аналитика логов, приоритизация краулинга

Граница 10 000 URL — условный порог, за которым задача начинает требовать внимания. Для интернет-магазина с 30 000 товаров, 200 категорий, фильтрами и пагинацией реальное число URL легко превышает миллион, а краулинговый бюджет — десятки тысяч в день. Простая арифметика показывает: чтобы робот обошёл все страницы хотя бы раз в месяц, нужно либо повышать бюджет, либо сокращать число URL.

Как поисковые системы определяют размер бюджета

Размер краулингового бюджета не публикуется в Search Console или Вебмастере, но логика его расчёта известна.

Crawl rate limit (лимит скорости)

Сколько запросов в секунду поисковая система может отправлять серверу, не создавая ему проблем. Зависит от:

  • Скорости ответа сервера. Чем быстрее сервер возвращает страницы, тем больше запросов в секунду готов отправлять Googlebot.
  • Стабильности. Если сайт периодически отдаёт 5XX-ошибки, бот снижает частоту запросов, чтобы не усугублять нагрузку.
  • Настроек в Search Console. Вебмастер может явно ограничить скорость сканирования (раньше эта функция была доступна, сейчас Google убрал её, но автоматически адаптируется к нагрузке).

Crawl demand (потребность в краулинге)

Сколько страниц данного сайта система реально хочет переобойти. Зависит от:

  • Популярности контента. Часто посещаемые страницы переобходятся чаще.
  • Свежести. Часто обновляемые разделы (новости, акции, остатки в магазине) краулятся активнее.
  • Авторитетности домена. Сильные домены получают больший интерес от поисковика.
  • Размера сайта. Крупные сайты автоматически получают больше внимания, но и большую нагрузку.

Итоговый бюджет — минимум из двух величин: ровно столько, сколько готов запросить алгоритм и сколько может выдержать сайт.

Что съедает бюджет: где утечки

Основные «пожиратели» краулингового бюджета — страницы, которые не должны попадать в индекс, но систематически обходятся роботом.

Параметрические URL

Один товар может быть доступен по десяткам URL за счёт параметров: ?utm_source=, ?sort=price, ?color=red, ?session_id=. Без canonical и правильных директив поисковик считает их разными страницами и тратит бюджет на дубли.

Фасетная навигация и фильтры

Каталог с 5 категориями и 7 фильтрами по 4 значения генерирует тысячи комбинаций. Если все они открыты для индексации, бюджет уходит на десятки тысяч страниц-комбинаций, по которым никто никогда не приходит из поиска.

Пагинация

Страницы /page/2, /page/3, …, /page/100 — формальные URL, но реальная ценность их в индексе сомнительна. Часто решается через rel=«next»/«prev» или директивы noindex follow на страницах глубокой пагинации.

Бесконечная прокрутка с URL-обновлением

Современные интерфейсы подгружают контент при скролле и обновляют URL — каждый скролл создаёт новый URL для робота.

Календарные архивы

Блоги с архивами по дням, неделям, месяцам, годам генерируют тысячи URL, дублирующих одну и ту же ленту записей.

Дубликаты по протоколу и зеркалам

http и https, с www и без, со слешем и без — без 301-редиректов и canonical алгоритм видит четыре сайта вместо одного.

Soft 404 и пустые страницы

Категории без товаров, теги без публикаций, поисковые запросы с пустым результатом — формально страница есть, но контента нет. Бюджет тратится впустую.

Цепочки редиректов

Каждое звено цепочки А → Б → В — отдельный запрос робота. Цепочка из трёх шагов умножает расход бюджета в три раза.

Как проанализировать краулинг: источники данных

Без данных оптимизация краулингового бюджета невозможна. Используются три основных источника.

Google Search Console

Раздел «Статистика сканирования» (Crawl Stats) показывает: среднее число запросов в день, динамику за 90 дней, средний размер скачиваемых страниц, среднее время ответа сервера, распределение по типам файлов и кодам ответа. Это первичные данные для любого анализа.

Логи сервера

Логи nginx, Apache или другого веб-сервера содержат запись каждого обращения к сайту — в том числе всех визитов поискового робота. Из логов извлекается полная картина: какие URL посещаются, как часто, какие коды ответа получают, сколько времени тратит сервер.

Парсеры логов: Screaming Frog Log File Analyser, JetOctopus, OnCrawl, Splunk. Бесплатные альтернативы — Python-скрипты на pandas или GoAccess для базового анализа.

Яндекс Вебмастер

Раздел «Индексирование» → «Статистика обхода» показывает динамику обхода YandexBot. Менее детально, чем Search Console, но достаточно для базового мониторинга.

10 практик оптимизации краулингового бюджета

Список практик, которые применимы к большинству сайтов с активным краулингом.

  1. Запретить в robots.txt всё, что не должно индексироваться. Корзина, личный кабинет, страницы оформления заказа, фильтры с UTM-метками, страницы поиска по сайту. Каждый запрет — освобождённый кусок бюджета.
  2. Использовать canonical для дубликатов. Все варианты страницы с разными параметрами должны указывать на каноническую версию.
  3. Настроить 301-редиректы для зеркал. http, www, slash-варианты — всё ведёт на один URL без цепочек.
  4. Закрыть фасетную навигацию от индексации. Комбинации фильтров — через noindex и/или canonical на основную категорию. Открытыми оставлять только реально востребованные комбинации.
  5. Удалять soft 404 и пустые страницы. Пустая категория — либо наполняется контентом, либо закрывается через noindex или 410.
  6. Оптимизировать sitemap. В sitemap.xml должны быть только индексируемые страницы. Включение туда страниц с canonical на другие URL запутывает робота.
  7. Ускорить сервер. Чем быстрее ответ, тем выше crawl rate. Кэширование, CDN, оптимизация запросов к БД повышают доступный бюджет.
  8. Усилить внутреннюю перелинковку важных страниц. Чем больше внутренних ссылок ведёт на страницу, тем выше её приоритет краулинга.
  9. Удалять старый и неактуальный контент. Архивные новости 10-летней давности с нулевым трафиком — бесполезный груз. Лучше удалить через 410.
  10. Регулярно анализировать логи. Раз в месяц для крупного сайта — обязательная процедура. Видно, куда тратится бюджет и где утечки.

Robots.txt, noindex, canonical: чем управлять краулингом

Три инструмента работают по-разному, и путаница между ними — распространённая ошибка.

Инструмент Что делает Когда использовать Что НЕ делает
Robots.txt Disallow Запрещает обход страницы Технические разделы, динамические параметры Не удаляет из индекса уже проиндексированные страницы
Meta noindex Запрещает индексацию (страница обходится, но не попадает в выдачу) Малоценные страницы, тег-страницы, пагинация Не экономит бюджет на краулинг — робот всё равно скачивает страницу
Canonical Указывает основную версию для дубликатов Параметрические URL, версии для печати, AMP Не запрещает обход — это рекомендация, а не директива
301 Redirect Постоянное перенаправление Удалённые страницы, объединение зеркал Цепочки расходуют бюджет
410 Gone Страница удалена навсегда Окончательно удалённый контент В отличие от 404, ускоряет удаление из индекса

Главное правило: для реальной экономии краулингового бюджета работает только robots.txt и 410. Noindex и canonical экономят место в индексе, но робот всё равно обходит страницу.

Случаи: разный подход для разных типов сайтов

Интернет-магазин

Главная боль — фасетная навигация и параметры. Стратегия: открыть для индексации основные категории и подкатегории, закрыть редкие комбинации фильтров, использовать canonical на параметрах сортировки и просмотра. Sitemap содержит товары и категории, но не фильтры.

Для крупного магазина с активным ассортиментом — приоритет на индексацию новых товаров через sitemap и внутреннюю перелинковку (блоки «новинки», «акции», «популярное»). Старые товары без продаж переводятся в архив или удаляются.

Новостной сайт и медиа

Особенность — постоянный поток новых публикаций. Краулинг должен быть быстрым: новость, которая попадает в индекс через сутки, теряет актуальность. Решения: News sitemap, push-уведомления через Indexing API (для Google), быстрая ссылочная подача в социальных сетях для разогрева краулинга.

Старые новости через 1–2 года могут переводиться в архив с noindex или объединяться в тематические страницы.

Корпоративный сайт

Краулинговый бюджет — почти не проблема. 100–500 страниц обходятся легко. Внимание уделяется не объёму краулинга, а качеству: чтобы важные посадочные (услуги, цены, контакты) обходились часто и обновлялись быстро.

SaaS и продуктовый сайт

Структура обычно небольшая: главная, тарифы, фичи, документация, блог. Краулинговый бюджет неважен, кроме случаев, когда документация автогенерируется и разрастается до десятков тысяч страниц. Тогда применяются те же принципы, что и для крупного сайта: noindex для устаревших версий, sitemap с приоритетами, canonical для дубликатов.

Сайт с пользовательским контентом

Форумы, доски объявлений, сайты с UGC — массовый источник проблем с краулингом. Тысячи дублирующих веток, профили без контента, теги, поиск по форуму, пагинация. Без жёсткой стратегии индексации такие сайты быстро теряют долю важных страниц в индексе.

Как ускорить индексацию новых страниц

Помимо общей оптимизации, есть техники для приоритетной подачи новых страниц поисковому роботу.

  • Indexing API Google. Программный интерфейс для приоритетной индексации. Официально предназначен для вакансий и трансляций, но работает для многих типов контента.
  • IndexNow. Открытый протокол, поддерживаемый Яндексом и Bing (но не Google). Сайт отправляет ping при появлении или изменении страницы.
  • Sitemap с указанием lastmod. Точная дата последнего изменения помогает алгоритму приоритизировать переобход.
  • Внутренние ссылки с главной и активных страниц. Робот, обходящий главную ежедневно, увидит ссылку на новую страницу и обойдёт её следом.
  • Социальные сигналы. Ссылка из активной соцсети ускоряет обнаружение нового URL.
  • Ручная отправка через Search Console. Для важных страниц — кнопка «Запросить индексирование» в инструменте проверки URL.

Краулинг AI-агентами: новая реальность 2026 года

Кроме классических поисковых ботов, сайты сегодня обходятся AI-краулерами: GPTBot, ClaudeBot, PerplexityBot, Google-Extended, Bytespider. Эти боты собирают данные для обучения моделей или для генерации ответов в AI-поиске.

Объём AI-краулинга на популярных сайтах в 2026 году сопоставим с объёмом классического. Для крупных проектов это создаёт двойную нагрузку и расход краулингового бюджета — но из другого источника. AI-боты не индексируют сайт в классическом смысле, а собирают контекст для своих ответов.

Стратегические варианты:

  • Открыть всё. Шанс попасть в источники AI-ответов выше, но контент используется для обучения без компенсации.
  • Закрыть всё. Защита контента, но и исключение из AI-выдачи.
  • Селективный подход. Открыть для одних AI-ботов, закрыть для других; открыть статьи, закрыть оригинальные исследования.

Решение зависит от бизнес-модели: контент-сайты, живущие на рекламе и просмотрах, теряют от AI-краулинга; справочные сайты, где главная цель — узнаваемость, выигрывают.

Часто задаваемые вопросы

Можно ли увеличить краулинговый бюджет напрямую?

Прямой кнопки нет, но косвенно — да: ускорение сервера, повышение качества контента, рост авторитета домена и активная подача sitemap расширяют доступный бюджет. Также сокращение бесполезных страниц освобождает бюджет на ценные.

Как понять, что краулинг — узкое место?

Признаки: новые страницы попадают в индекс через недели, а не дни. Доля проиндексированных URL в Search Console меньше 70%. В логах сервера видно, что робот ходит по бесполезным дубликатам, а важные страницы посещаются раз в месяц.

Влияет ли краулинговый бюджет на позиции?

Косвенно — да. Если важная страница давно не обходилась, актуальные изменения не попадают в индекс, а старая версия может потерять релевантность. Сама величина бюджета — не фактор ранжирования, но качество краулинга напрямую отражается на свежести и полноте индекса.

Стоит ли запрещать AI-краулерам обход сайта?

Зависит от модели монетизации и юридической позиции. Для контентных сайтов с подпиской или платным доступом — обоснованно. Для сайтов, заинтересованных в максимальной видимости — нет. Многие крупные издатели в 2025–2026 годах заключали отдельные лицензионные соглашения с разработчиками AI вместо полного запрета.

Какой инструмент выбрать для анализа логов?

Для разовых задач и малых сайтов — Screaming Frog Log File Analyser. Для регулярной работы с крупным сайтом — JetOctopus или OnCrawl. Для разработчиков, готовых писать скрипты — Python с pandas даёт максимальную гибкость бесплатно.

Заключение

Краулинговый бюджет — не самостоятельная цель, а ограничение, в рамках которого работает SEO крупного сайта. Управление бюджетом — это не про «увеличить число обходов», а про разумное распределение внимания робота на действительно важные страницы. Сайты, которые экономят бюджет на дубликатах и тратят его на ключевые посадочные, получают преимущество перед конкурентами с раздутой структурой и неуправляемым краулингом.