Нейросети 22 апреля 2026 · 2 мин чтения 311 0

Google TPU 8t и 8i: два чипа для эпохи агентов

На Google Cloud Next 2026 компания представила восьмое поколение Tensor Processing Unit — и впервые разделила его на два специализированных чипа: TPU 8t для обучения моделей и TPU 8i для инференса. До сих пор каждое поколение TPU было универсальным — один чип для всего. Разделение — признание того, что обучение и инференс предъявляют принципиально разные требования к вычислениям.

TPU 8t: обучение

TPU 8t — «силовая установка» для обучения крупных моделей. Производительность — примерно в 3 раза выше предыдущего поколения на уровне суперпода. Масштабирование: до 9 600 TPU в одном суперподе через 3D-торусную топологию, с 2 петабайтами разделяемой высокопропускной памяти. На пиковой мощности кластер TPU 8t обеспечивает более 100 экзафлопс в низкоточных форматах — достаточно для обучения моделей с триллионами параметров.

TPU 8i: инференс

TPU 8i оптимизирован для того, что происходит после обучения: запуск модели в production. Фокус — минимальная задержка и максимальная эффективность. 80% лучше по соотношению производительность/доллар и двукратное улучшение производительности на ватт. Увеличенная on-chip SRAM позволяет держать модели ближе к вычислениям, снижая зависимость от внешней памяти. До 1 152 TPU в одном поде — достаточно для обслуживания миллионов AI-агентов одновременно.

Зачем разделение

Обучение — это марафон: максимальная пропускная способность, огромные объёмы данных, неделя непрерывной работы кластера. Инференс — это спринт: минимальная задержка, мгновенный отклик, миллионы запросов в секунду. Один чип не может быть оптимален для обоих сценариев. Google сделал вывод: специализация > универсальность. Для клиентов — экономия: обучать на 8t, обслуживать на 8i, не переплачивая за универсальность.