Компания заявила, что её амбициозная инициатива по объединению разрозненных центров обработки данных с крупнейшим в истории развёртыванием ИИ-чипов для поддержки моделей Claude LLM от Anthropic теперь завершена.

Amazon Web Services сообщила, что проект Rainier, представляющий собой масштабное объединение центров обработки данных и беспрецедентное внутреннее развёртывание чипов ИИ для поддержки программ магистратуры Клода LLM компании Anthropic, достиг финишной черты.

Компания заявила, что, разместив более 500 000 чипов AWS Tranium 2 в нескольких центрах обработки данных в США, этот проект знаменует собой важную веху в развитии масштабного и эффективного развёртывания обучения моделей. Компания планирует увеличить количество чипов Tranium до миллиона к концу года. На одной из площадок в Индиане будет размещено 30 центров обработки данных общей площадью 200 000 квадратных футов (19 000 кв. м) с соединёнными между собой серверами Trainium 2.

Помимо площадки в Индиане, AWS не раскрывает местоположение других центров обработки данных в США, участвующих в проекте «Рейнир». Тем не менее, организация управляет сотнями центров обработки данных в четырёх регионах США, а в Северной Каролине и Пенсильвании только в этом году было запланировано или находится в стадии строительства ещё больше центров, а также объявлено о многомиллиардных проектах.

AWS заявляет, что для корпоративных клиентов разветвлённая инфраструктура Project Rainier обеспечивает преимущества в виде экономической эффективности, более быстрого и масштабного обучения и вывода ИИ, а также эксплуатационной устойчивости. AWS инвестировала 8 миллиардов долларов в партнёрство с Anthropic, которая будет использовать чипы Trainium 2 вместе с чипами Graviton и Inferentia в экосистеме Project Rainier.

«Когда мы создаём собственные устройства, мы можем оптимизировать весь стек, чтобы существенно сократить время разработки и время, необходимое для достижения массового масштабирования», — рассказал Рон Диамант, вице-президент AWS и выдающийся инженер Tranium. «Это огромный кластер, который Anthropic использует для обучения и вывода своих современных моделей… Он готов к развёртыванию и полностью работоспособен».

Достижение устойчивости суперкомпьютеров

AWS утверждает, что её суперкластер обеспечит большую устойчивость и энергоэффективность.

«С самого начала проектирования мы уделяли большое внимание энергоэффективности», — сказал Диамант. «Это привело нас к нескольким пунктам оптимизации. Во-первых, мы построили чипы на основе исторической архитектуры массивов, которая чрезвычайно энергоэффективна для матричных операций, которые доминируют в общем объёме вычислений в современных задачах машинного обучения. Во-вторых, мы перешли от горизонтальной подачи питания к вертикальной. Это позволяет разместить регуляторы напряжения под самим чипом, что позволяет нам эксплуатировать устройство с большей эффективностью».

AWS использует комбинацию воздушного и жидкостного охлаждения, уделяя первостепенное внимание эффективности и экономии воды. AWS заявляет, что её подход сочетает традиционное охлаждение с замкнутой системой охлаждения с прямой подачей жидкости на чип для аппаратных средств ИИ. Такая схема позволяет AWS использовать наружный воздух в холодные месяцы, что позволяет сократить общее потребление воды.

«Мы используем эти преимущества в области энергоэффективности, чтобы обеспечить экономию средств для наших клиентов», — сказал Диамант. «Это также позволило нам максимально быстро перейти от нескольких устройств в лаборатории к полумиллиону устройств, работающих в масштабе. Это обеспечило максимальную гибкость развёртывания центра обработки данных».

Он добавил: «Каждый аспект Rainier включает в себя достижения в области энергетики, охлаждения и материалов — от механических компонентов, которые сокращают потребление энергии на 46%, до бетона, который сокращает выбросы углерода на 35%».

Преимущества и стратегия предприятия

Навин Чхабра, ведущий аналитик Forrester по инфраструктуре, частному облаку и автоматизации инфраструктуры, отметил, что предприятия клиентов ищут более высокую эффективность, поскольку рабочие нагрузки растут из-за бума ИИ.

«Преимущество [проекта Rainier] заключается в том, что если у вас есть конкретное приложение или рабочая нагрузка, которые можно оптимизировать на конкретном чипсете, вы выбираете именно его», — сказал он в интервью. «Организации выясняют, какой чипсет обеспечивает им наилучшие возможности — не только производительность, но и эффективность. Эффективность становится важной, поскольку она может определить окупаемость инвестиций».


Автор Игорь Савин

Контакты, администрация и авторы