Разработка
· 1 мин
vLLM на TPU: оптимизированный инференс для всех
Google оптимизировал vLLM — популярнейший движок инференса — для работы на TPU. Open-source модели теперь запускаются на инфраструктуре Google с максимальной эффективностью.