Нейросети 15 октября 2025 · 1 мин чтения 121 0

DeepSeek V3.1: open-source модель из Китая обгоняет GPT-4o на 40%

Китайский стартап DeepSeek продолжает удивлять индустрию. Модель V3.1, выпущенная под лицензией MIT, демонстрирует гибридную архитектуру с режимами «думающего» и «не думающего» ответа — по аналогии с тем, что OpenAI реализовал в своих reasoning-моделях, но в открытом доступе.

На бенчмарках SWE-bench и Terminal-bench модель превосходит предшественницу V3 и модель R1 более чем на 40%. Используется DeepSeek Sparse Attention — эффективный механизм внимания, снижающий вычислительные затраты при работе с длинными контекстами.

Для разработчиков главное преимущество — сочетание мощности фронтирной модели с возможностью локального развёртывания. DeepSeek продолжает доказывать тезис, что для создания конкурентоспособных моделей не обязательны десятки миллиардов долларов инвестиций: обучение V3 обошлось компании, по её заявлению, в $6 миллионов.