Война дистилляций: OpenAI и Google тоже стали жертвами массового скрейпинга
Скандал с дистилляцией Claude оказался лишь вершиной айсберга. В течение февраля выяснилось, что все три крупнейших AI-провайдера столкнулись с масштабным извлечением данных из своих моделей.
OpenAI: замаскированные методы
Ещё 12 февраля — за 11 дней до публикации Anthropic — OpenAI направила официальное письмо американским законодателям. Компания заявила о выявлении «систематических попыток DeepSeek дистиллировать фронтирные модели, в том числе с использованием новых замаскированных методов». По данным OpenAI, атакующие разработали способы обхода ограничений доступа через непрозрачные сторонние маршрутизаторы, которые затрудняют отслеживание источника запросов.
OpenAI подчеркнула, что фиксирует подобную активность с начала 2025 года — с момента выхода первой версии DeepSeek R1, чьё сходство с ChatGPT сразу бросилось в глаза специалистам. Однако масштаб и изощрённость методов значительно выросли за год.
Google: 100 000 запросов к Gemini
Группа по анализу угроз Google (GTIG) подтвердила, что Gemini подвергалась аналогичным кампаниям. В одном из задокументированных случаев атакующие отправили модели более 100 000 специально сконструированных промптов, прежде чем система обнаружила аномалию. Запросы были нацелены на извлечение полных цепочек рассуждений — именно того материала, который наиболее ценен для воспроизведения интеллектуальных способностей модели.
Отличительная черта атаки на Gemini — охват множества языков. По мнению аналитиков Google, это указывает на попытку воспроизвести мультиязычные рассуждения Gemini в модели-конкуренте, а не просто скопировать ответы на английском.
Новая реальность для индустрии
Февраль 2026 года стал месяцем, когда AI-индустрия осознала масштаб проблемы. Если раньше дистилляция воспринималась как теоретическая угроза или нишевая практика, то теперь все три крупнейших AI-провайдера публично подтвердили: их модели систематически скрейпятся в промышленных масштабах.
Ожидается, что следующим шагом станет ужесточение контроля доступа к API: многоуровневая верификация, мониторинг поведенческих паттернов в реальном времени и, возможно, технические ограничения на объём и характер запросов, которые могут указывать на дистилляцию.
Ни одна из обвиняемых компаний — DeepSeek, Moonshot AI и MiniMax — на момент конца февраля не прокомментировала обвинения.

