Безопасность 6 октября 2025 · 1 мин чтения 270 0

Groq: инференс-чип в 10 раз быстрее GPU

Groq — стартап, разработавший Language Processing Unit (LPU) — специализированный чип для инференса языковых моделей — продемонстрировал скорость генерации в 800+ токенов в секунду. Для сравнения: Nvidia GPU в типичной конфигурации генерирует 60–100 токенов/сек. Разница — на порядок.

Как это работает

LPU — не универсальный процессор. Он оптимизирован для одной задачи: последовательной генерации токенов. Архитектура ASIC (Application-Specific Integrated Circuit) жертвует гибкостью ради скорости: LPU не может обучать модели (это территория Nvidia), но запускать уже обученные — быстрее всех.

Для разработчиков, строящих чат-ботов, AI-ассистентов и агентов, скорость инференса — критический параметр. Пользователь не будет ждать 10 секунд, пока модель сгенерирует ответ. Groq сокращает задержку до уровня, при котором AI отвечает быстрее, чем человек успевает дочитать предыдущее предложение.

Groq предлагает cloud API, конкурируя с OpenAI, Anthropic и Google по скорости инференса. Для стартапов, где latency определяет пользовательский опыт, Groq — привлекательная альтернатива: та же модель (Llama, Mistral) работает в 10 раз быстрее, чем на GPU.