vLLM на TPU: оптимизированный инференс для всех
Google оптимизировал vLLM — популярнейший движок инференса — для работы на TPU. Open-source модели теперь запускаются на инфраструктуре Google с максимальной эффективностью.
Google оптимизировал vLLM — популярнейший движок инференса — для работы на TPU. Open-source модели теперь запускаются на инфраструктуре Google с максимальной эффективностью.
Сундар Пичай раскрыл: модели Google обрабатывают 16 млрд токенов в минуту через API — рост с 10 млрд за квартал. Масштаб агентной эры.
Google представил восьмое поколение TPU: два специализированных чипа — TPU 8t для обучения и TPU 8i для инференса. Разделение обязанностей ради эффективности.
Anthropic выпустила Claude 3.5 Haiku — компактную модель для задач, где скорость важнее глубины. Идеальна для чат-ботов, классификации и обработки потоков данных.
Groq представил LPU — чип для инференса, который обрабатывает запросы к LLM в 10 раз быстрее GPU Nvidia. 800 токенов/сек вместо 80.