vLLM на TPU: оптимизированный инференс для всех
Google объявил об оптимизированной поддержке vLLM — самого популярного open-source движка для инференса больших языковых моделей — для TPU и GPU на Google Cloud. vLLM используется тысячами компаний для запуска Llama, Qwen, Mistral, Gemma и других open-source моделей; оптимизация для TPU делает Google Cloud предпочтительной платформой для этих рабочих нагрузок.
Почему vLLM важен
vLLM решает ключевую проблему инференса: эффективное управление памятью при обслуживании сотен параллельных запросов. Технология PagedAttention позволяет обслуживать больше пользователей на одном GPU/TPU — то есть снижает стоимость инференса без потери качества. Для компаний, запускающих чат-ботов, AI-ассистентов и агентов, стоимость инференса — главная статья расходов.
Google не только оптимизировал vLLM для TPU, но и интегрировал его с GKE — Kubernetes-платформой для управления контейнерами. Результат: разработчик описывает модель и конфигурацию → GKE автоматически разворачивает vLLM на TPU → масштабирует по нагрузке → мониторит производительность. «Инференс как сервис» из коробки.
Для конкурентов (AWS с SageMaker, Azure с ONNX Runtime) — давление: Google предлагает нативную интеграцию open-source инференса с собственными чипами. Разработчик, привыкший к vLLM, получает на TPU лучшее соотношение производительность/цена — и остаётся на Google Cloud.