Технологии 20 декабря 2025 · 2 мин чтения 109 0

AI-чипы 2025: Nvidia, AMD, Google TPU, Amazon Trainium

Nvidia контролирует более 80% рынка AI-ускорителей — но впервые за десятилетие альтернативы становятся реалистичными. AMD MI300X, Google TPU v5p/8t/8i и Amazon Trainium 2/3 — три платформы, каждая из которых предлагает собственный подход к AI-вычислениям.

Nvidia: H100/H200/B200

Стандарт индустрии. Архитектура CUDA, 15+ лет экосистемы, десятки тысяч оптимизированных библиотек. PyTorch, TensorFlow, vLLM — всё нативно работает на Nvidia. Blackwell (B200) — последнее поколение: 4x производительность по сравнению с H100 для AI-задач. Слабость — цена: H100 стоит $25 000–30 000, B200 — дороже. И монополия CUDA: код, написанный для Nvidia, не работает на AMD/TPU без переписывания (хотя Spectral Compute работает над решением).

AMD: MI300X

Главный hardware-конкурент Nvidia. 192 ГБ HBM3 памяти (больше, чем у H100) позволяют загружать более крупные модели на один чип. Цена — на 20–30% ниже Nvidia при сопоставимой производительности для инференса. Слабость — софтверная экосистема: ROCm (аналог CUDA от AMD) менее зрелая, меньше оптимизированных библиотек, меньше инженеров с опытом. Spectral Compute (CUDA→AMD компилятор) может изменить ситуацию, но технология молода.

Google TPU: v5p → 8t/8i

Специализированные ASIC, доступные только через Google Cloud. TPU 8t — для обучения (3x производительность предыдущего поколения), TPU 8i — для инференса (80% лучше по цене/производительности). Преимущество — вертикальная интеграция: TPU + Virgo Network + Managed Lustre — оптимизированный стек, где каждый компонент спроектирован для совместной работы. Слабость — привязка к Google Cloud: TPU нельзя купить и поставить в свой дата-центр.

Amazon Trainium: 2 → 3

Собственные чипы Amazon для AWS. Trainium 2 — текущее поколение; Trainium 3 обещает 4x улучшение. Стратегия — самая дешёвая альтернатива: Trainium оптимизирован для стоимости, а не для пиковой производительности. Для компаний, где бюджет — основной ограничитель, Trainium может быть оптимальным выбором. Слабость — ограниченная экосистема: Trainium работает только на AWS, поддержка фреймворков — уже PyTorch и JAX, но не все модели оптимизированы.

Кто побеждает

Nvidia — в обучении фронтирных моделей (CUDA-экосистема незаменима). AMD — в инференсе для компаний, ищущих альтернативу (цена, память). Google TPU — для клиентов Google Cloud (оптимизация стека). Amazon Trainium — для клиентов AWS с фокусом на стоимость. Монополия Nvidia размывается, но не исчезает: пока 80% ML-кода написано под CUDA, Nvidia остаётся «по умолчанию». Переход — постепенный, и займёт 3–5 лет.