Материалы по тегу: nvidia
|
23.10.2024 [16:57], Владимир Мироненко
NVIDIA переименовала будущие ИИ-ускорители Blackwell Ultra в B300Согласно данным аналитической компании TrendForce, NVIDIA решила переименовать продукты семейства Blackwell Ultra в серию B300. В связи с этим ускоритель B200 Ultra стал B300, а GB200 Ultra теперь называется GB300. Кроме того, B200A Ultra и GB200A Ultra получили имена B300A и GB300A соответственно. Серия ускорителей B300, как ожидается, выйдет в I–II квартале 2025 года, а поставки (G)B200 начнутся не позднее I квартал 2025 года. TrendForce отметила, что NVIDIA совершенствует сегментацию чипов Blackwell, чтобы лучше соответствовать требованиям по стоимости и производительности со стороны облачных провайдеров (CSP) и OEM-производителей серверов и смягчить требования к цепочкам поставок. Так, модель B300A нацелена на OEM-клиентов, её массовое производство планируется начать во II квартале 2025 года после пика поставок H200. Изначально NVIDIA хотела предложить данному сегменту упрощённый вариант B200A, но, судя по всему, спрос на него оказался более слабом, чем ожидалось. Вместе с тем переход с GB200A на GB300A для стоечных решений может привести к увеличению первоначальных затрат для корпоративных клиентов, что также может отразиться на спросе. Сейчас компания вкладывает значительные средства в улучшение стоечных решений NVL, помогая поставщикам серверных систем с оптимизацией производительности и жидкостным охлаждением для систем NVL72, а AWS и Meta✴ настоятельно призывают перейти с NVL36 на NVL72. TrendForce также ожидает, что предложение топовых ускорителей NVIDIA будет расширяться, а их общая доля в поставках, как ожидается, достигнет около 50 % в 2024 году, то есть вырастет на 20 п.п. год к году. Ожидается, что выпуск ускорителей Blackwell увеличит этот показатель до 65 % в 2025 году. Аналитики также отметили роль NVIDIA в стимулировании спроса на технологию упаковки CoWoS. Благодаря Blackwell спрос на данный тип упаковки вырастет более чем на 10 п.п. в годовом исчислении. NVIDIA, скорее всего, сосредоточится на поставках чипов B300 и GB300 крупным североамериканским гиперскейлерам — оба варианта используют технологию CoWoS-L. Компания активно наращивает закупки HBM — согласно прогнозам, в 2025 году на NVIDIA придётся более 70 % мирового рынка HBM (рост на 10 п.п. год к году). TrendForce также отмечает, что все чипы серии B300 будут оснащены памятью HBM3e 12Hi, производство которой начнётся не позднее I квартал 2025 года. Но поскольку это будут первые массовые продукты с таким типом памяти, поставщикам, как ожидается, потребуется не менее двух кварталов для отработки процессов и стабилизации объёмов производства.
22.10.2024 [18:10], Руслан Авдеев
Индия и NVIDIA обсуждают совместную работу над ИИ-ускорителямиИндийское правительство ведёт переговоры с NVIDIA о возможности совместной разработки ИИ-чипов. Министр Ашвини Ваишнав (Ashwini Vaishnaw), отвечающий за электронику и IT в целом, заявил, что обсуждение находится на начальной стадии, не сообщив никаких деталей, передаёт The Register. В рамках новой стратегии страны приоритетным стало развитие ИИ-инфраструктуры, причём с опорой на собственные решения там, где это возможно. В частности, планируется построить суперкомпьютер с 10 тыс. ускорителей. Также выделены средства на аренду ускорителей для тех, кто не может их купить, а условия поддержки смягчили, дав возможность развиваться небольшим IT-провайдерам. При это страна готова закупать даже урезанные варианты ускорителей NVIDIA, которые из-за санкций не достались Китаю. С соседом у Индии отношения всё ухудшаются и ухудшаются, а некоторые крупные китайские игроки сами уходят из страны, а их место занимают западные и локальные компании. Индия давно стремится к развитию полупроводникового производства и намерена расширить своё влияние в этой сфере. Местные СМИ сообщают, что переговоры властей и NVIDIA якобы касаются разработки чипов, оптимизированных для некоторых сфер. Например, для обеспечения работы систем безопасности разветвлённой сети индийских железных дорог. У NVIDIA уже есть подобные решения на платформе Orin. Но выпуск даже такой платформы на территории Индии пока не представляется возможным, так что речь, вероятнее всего, идёт именно о сотрудничестве в сфере разработки.
22.10.2024 [11:01], Сергей Карасёв
Supermicro представила All-Flash JBOF-массивы на базе NVIDIA BlueField-3 DPUКомпания Supermicro анонсировала высокопроизводительные системы хранения Storage SuperServer типа JBOF All-Flash, оптимизированные для HPC-задач, обучения ИИ-моделей и инференса. Устройства, рассчитанные на монтаж в стойку, выполнены в форм-факторе 2U. Новинки построены на основе DPU NVIDIA BlueField-3. Эти изделия содержат 16 ядер Cortex-A78, поддерживают интерфейс PCIe 5.0 и обеспечивают скорость в 400 Гбит/с. Системы Supermicro JBOF могут использовать до четырёх ускорителей BlueField-3. В число представленных устройств вошли модели SSG-229J-5BU24JBF и SSG-229J-5BE36JBF. Первая рассчитана на 24 накопителя SFF U.2 NVMe, вторая — на 36 накопителей E3.S. Отсеки для SSD расположены во фронтальной части; допускается горячая замена. В обоих случаях имеются два коннектора M.2 для SSD формата 2280/22110 с интерфейсом PCIe 5.0 x4. Предусмотрены три слота для карт PCIe 5.0 x16 FHFL.
Источник изображения: Supermicro Системы оснащены двумя портами 1GbE и дополнительным портом 1GbE на основе контроллера Realtek. Габариты составляют 762 × 449,4 × 88 мм. Питание обеспечивают два блока с сертификатом 80 Plus Titanium мощностью 1600 Вт у SSG-229J-5BU24JBF и 2000 Вт у SSG-229J-5BE36JBF. Установлены шесть вентиляторов охлаждения диаметром 60 мм. Диапазон рабочих температур — от +10 до +35 °C. Supermicro отмечает, что при использовании SSD вместимостью 30,71 Тбайт можно сформировать хранилище суммарной ёмкостью 1,1 Пбайт. Архитектура контроллеров «активный — активный» гарантирует высокую доступность.
20.10.2024 [11:01], Сергей Карасёв
NVIDIA передаст OCP спецификации компонентов суперускорителя GB200 NVL72Некоммерческая организация Open Compute Project Foundation (OCP), специализирующаяся на создании открытых спецификаций оборудования для ЦОД, сообщила о том, что для её инициативы Open Systems for AI собственные разработки предоставят NVIDIA и Meta✴. Проект Open Systems for AI был анонсирован в январе 2024 года при участии Intel, Microsoft, Google, Meta✴, NVIDIA, AMD, Arm, Ampere, Samsung, Seagate, SuperMicro, Dell и Broadcom. Цель инициативы заключается в разработке открытых стандартов для кластеров ИИ и дата-центров, в которых размещаются такие системы. Предполагается, что Open Systems for AI поможет повысить эффективность и устойчивость ИИ-платформ, а также обеспечит возможность формирования цепочек поставок оборудования от нескольких производителей. В рамках инициативы NVIDIA предоставит OCP спецификации элементы электромеханической конструкции суперускорителей GB200 NVL72, включая архитектуры стойки и жидкостного охлаждения, механические части вычислительного и коммутационного лотков. Кроме того, NVIDIA расширит поддержку стандартов OCP в своей сетевой инфраструктуре Spectrum-X. Речь идёт об обеспечении совместимости со стандартами OCP Switch Abstraction Interface (SAI) и Software for Open Networking in the Cloud (SONiC). Это позволит клиентам использовать адаптивную маршрутизацию Spectrum-X и управление перегрузками на основе телеметрии для повышения производительности Ethernet-соединений в составе масштабируемой инфраструктуры ИИ. Адаптеры ConnectX-8 SuperNIC с поддержкой OCP 3.0 появятся в 2025 году. В свою очередь, Meta✴ передаст проекту Open Systems for AI свою архитектуру Catalina AI Rack, которая специально предназначена для создания ИИ-систем высокой плотности с поддержкой GB200. Это, как ожидается, позволит организации OCP «внедрять инновации, необходимые для создания более устойчивой экосистемы ИИ».
18.10.2024 [20:45], Игорь Осколков
Microsoft стремительно увеличила закупки суперускорителей NVIDIA GB200 NVLПо словам аналитика Минг-Чи Куо (Ming-Chi Kuo), Microsoft резко нарастила закупки суперускорителей NVIDIA GB200 NVL. Заказы на IV квартал текущего года выросли в три-четыре раза, а общий объём заказов Microsoft выше, чем у других облачных провайдеров. Поставщики ключевых компонентов для новых ИИ-платформ Microsoft начнут их массовое производство и отгрузку в IV квартале, что укрепит цепочку поставок компании. При этом компоненты будут отгружаться в независимости от того, смогут ли сборщики готовых платформ вовремя удовлетворить запросы Microsoft. Предполагается, что до конца года будет поставлено 150–200 тыс. чипов Blackwell, а в I квартале 2025 года поставки вырастут до 500–550 тыс. ед. И Microsoft готова закупать их. В дополнение к первоначальным заказам GB200 NVL36 (в основном для тестирования) Microsoft намерена получить кастомизированные суперускорители GB200 NVL72 до начала массового производства референсного варианта DGX GB200 NVL72 от самой NVIDIA (середина II квартала 2025 года). Заказы Microsoft на IV квартал выросли с изначальных 300–500 стоек (в основном NVL36) до примерно 1400–1500 стоек (около 70 % NVL72). Последующие заказы Microsoft будут сосредоточены преимущественно на NVL72. Согласно опросам двух крупнейших сборщиков GB200 NVL, Foxconn и Quanta, заказы Microsoft в настоящее время, по-видимому, превышают общий объём заказов от других облачных провайдеров. Так, Amazon рассчитывает до конца года получить всего 300–400 стоек GB200 NVL36, а Meta✴ и вовсе ориентируется на платы Ariel, имеющие по одному чипу B200 и Grace, а не пару B200, как у «классических» плат Bianca. NVIDIA, по словам Минг-Чи Куо, решила отказаться от выпуска двухстоечной конфигурации GB200 NVL36×2. При этом NVIDIA, судя по всему, не удалось убедить Microsoft закупать полностью готовые NVL-стойки. На днях редмондский гигант показал свою реализацию суперускорителя GB200 NVL с огромным теплообменником. Первыми эти системы получат дата-центры Microsoft, расположенные в более холодном климате, например, на севере США, в Канаде, в Финляндии и т. д. Это позволит избежать проблем из-за недостатка времени на оптимизацию систем охлаждения ЦОД.
18.10.2024 [18:58], Руслан Авдеев
Google тоже показала собственный вариант суперускорителя NVIDIA GB200 NVLGoogle показала собственный вариант суперускорителя NVIDIA Blackwell GB200 NVL для своей облачной ИИ-платформы, передаёт Datacenter Dynamics. Решение Google отличается от вариантов Meta✴ и Microsoft, представленных ранее. Тем не менее, это показывает высокий интерес к новой ИИ-платформе NVIDIA со стороны гиперскейлеров. Google заявила о тесном сотрудничестве с NVIDIA для формирования «устойчивой вычислительной инфраструктуры будущего». Подробнее о новой платформе будут рассказано на одной из будущих конференций Google. Пока что, увы, даже не до конца ясна конфигурация суперускорителя в исполнении Google. На фото видно сразу две стойки. Одна содержит неназванное количество ускорителей GB200, а вторая комплектуется оборудованием Google, в том числе блоками питания, коммутаторами и модулями охлаждения. Хотя NVIDIA рекомендует использовать в качестве интерконнекта InfiniBand в своих ИИ-платформах, некоторые эксперты считают, что Google пользуется собственными инфраструктурными наработками на базе Ethernet. Так, компания уже применяет оптические коммутаторы (OCS) собственной разработки в ИИ-кластерах с фирменными ускорителями TPU. Вариант Microsoft также состоит из двух стоек. Во второй смонтирован огромный теплообменник, который, вероятно, обслуживает не одну стойку с ускорителями, а сразу несколько. Известно, что ранее между Microsoft и NVIDIA были разногласия по поводу компоновки платформ для GB200. Наконец, вариант Meta✴ наиболее близок к оригинальной версии NVIDIA GB200 NVL72. При этом NVIDIA открыла её спецификации в рамках OCP. Ранее компания отказалась от выпуска «компромиссных» суперускорителей GB200 NVL36×2, которые сами по себе занимают две стойки.
18.10.2024 [00:10], Алексей Степин
Meta✴ представила свой вариант суперускорителя NVIDIA GB200 NVL72Meta✴ поделилась своими новинками в области аппаратной инфраструктуры и рассказала, каким именно видит будущее открытых ИИ-платформ. В своей презентации Meta✴ рассказала о новой ИИ-платформе, новых дизайнах стоек, включая варианты с повышенной мощностью питания, а также о новинках в области сетевой инфраструктуры.
Источник изображений: Meta✴ В настоящее время компания использует нейросеть Llama 3.1 405B. Контекстное окно у этой LLM достигает 128 тыс. токенов, всего же токенов свыше 15 трлн. Чтобы обучать такие модели, требуются очень серьёзные ресурсы и глубокая оптимизация всего программно-аппаратного стека. В обучении базовой модели Llama 3.1 405B участвовал кластер 16 тыс. ускорителей NVIDIA H100, один из первых такого масштаба. Но уже сейчас для обучения ИИ-моделей Meta✴ использует два кластера, каждый с 24 тыс. ускорителей. Проекты такого масштаба зависят не только от ускорителей. На передний план выходят проблемы питания, охлаждения и, главное, интерконнекта. В течение нескольких следующих лет Meta✴ ожидает скоростей в районе 1 Тбайт/с на каждый ускоритель. Всё это потребует новой, ещё более плотной архитектуры, которая, как считает Meta✴, должна базироваться на открытых аппаратных стандартах. Одной из новинок стала платформа Catalina. Это Orv3-стойка, сердцем которой являются гибридные процессоры NVIDIA GB200. Стойка относится к классу HPR (High Power Rack) и рассчитана на 140 КВт. Сейчас Microsoft и Meta✴ ведут работы над модульной и масштабируемой системой питания Mount Diablo. Свой вариант GB200 NVL72 у Microsoft тоже есть. Также Meta✴ обновила ИИ-серверы Grand Teton, впервые представленные в 2022 году. Это по-прежнему монолитные системы, но теперь они поддерживают не только ускорители NVIDIA, но и AMD Instinct MI300X и будущие MI325X. ![]() Интерконнектом будущих платформ станет сеть DSF (Disaggregated Scheduled Fabric). Благодаря переходу на открытые стандарты компания планирует избежать ограничений, связанных с масштабированием, зависимостью от вендоров аппаратных компонентов и плотностью подсистем питания. В основе DSF лежит стандарт OCP-SAI и ОС Meta✴ FBOSS для коммутаторов. Аппаратная часть базируется на стандартном интерфейсе Ethernet/RoCE. Meta✴ уже разработала и воплотила в металл новые коммутаторы класса 51Т на базе кремния Broadcom и Cisco, а также сетевые адаптеры FBNIC, созданные при поддержке Marvell. FBNIC может иметь до четырёх 100GbE-портов. Используется интерфейс PCIe 5.0, причём могущий работать как четыре отдельных слайса. Новинка соответствует открытому стандарту OCP NIC 3.0 v1.2.0.
17.10.2024 [14:36], Руслан Авдеев
Nebius, бывшая Yandex, представила облачную ИИ-платформу с ускорителями NVIDIA H100 и H200ИИ-компания Nebius, сформированная из бывшей Yandex N.V., представила облачную платформу с современными ускорителями NVIDIA. Как уточняет Datacenter Dynamics, речь идёт о моделях NVIDIA H100 и H200, а также L40S. В скором будущем компания рассчитывает добавить и новейшие суперускорители GB200 NVL72. Облачное хранилище обеспечивает агрегированную скорость чтения до 100 Гбайт/с и 1 млн IOPS. Платформа также предлагает управляемые Apache Spark и MLFlow, а ВМ по умолчанию включают ИИ-библиотеки и драйверы. По словам компании, она прислушалась к запросам клиентов, нуждавшихся в самостоятельном доступе и инфраструктуре, отлично от просто «базовой». Речь идёт о крупномасштабных кластерах с InfiniBand-подключением на базе эталонной архитектуры NVIDIA, но с кастомизированным оборудованием и проприетарной программной облачной платформой. После введения антироссийских санкций Nebius дистанцировалась от «Яндекса», основная часть активов которого была продана группе российских инвесторов. У Nebius остался дата-центр в Финляндии, ёмкость которого она намерена утроить в обозримом будущем. Там разместятся более 60 тыс. ускорителей. В августе сообщалось, что компания увеличила облачную выручку на 60 % год к году во II квартале.
17.10.2024 [12:20], Сергей Карасёв
Dell представила решения AI Factory на базе NVIDIA GB200 и AMD EPYC TurinКомпания Dell Technologies анонсировала интегрированные стоечные масштабируемые системы для экосистемы AI Factory, рассчитанные на задачи НРС и ресурсоёмкие приложения ИИ. В частности, дебютировали решения Integrated Rack 7000 (IR7000), PowerEdge M7725 и PowerEdge XE9712.
Источник изображений: Dell IR7000 — это высокоплотная 21″ стойка Open Rack Version 3 (Orv3) с поддержкой жидкостного охлаждения. Говорится о совместимости с мощными CPU и GPU с высоким значением TDP. Модификации 44OU и 50OU оснащены салазками, которые шире и выше традиционных: это гарантирует совместимость с несколькими поколениями архитектур процессоров и ИИ-ускорителей. Полки питания в настоящее время поддерживают мощность от 33 кВт до 264 кВт на стойку с последующим увеличением до 480 кВт. Система Dell PowerEdge M7725 специально спроектирована для вычислений высокой плотности. В основу положены процессоры AMD серии EPYC 9005 (Turin), насчитывающие до 192 вычислительных ядер. Одна стойка IR7000 может вместить 72 серверных узла M7725, каждый из которых оборудован двумя CPU. Таким образом, общее количество вычислительных ядер превышает 27 тыс. на стойку. Возможно развёртывание прямого жидкостного охлаждения (DLC) и воздушного охлаждения. Доступны два IO-слота (PCIe 5.0 x16) в расчёте на узел с поддержкой Ethernet и InfiniBand. ![]() В свою очередь, система Dell PowerEdge XE9712 разработана для обучения больших языковых моделей (LLM) и инференса в реальном времени. Эта новинка использует архитектуру суперускорителя NVIDIA GB200 NVL72. В общей сложности задействованы 72 чипа B200 и 36 процессоров Grace. Утверждается, что такая конфигурация обеспечивает скорость инференса до 30 раз выше по сравнению с системами предыдущего поколения.
17.10.2024 [11:46], Сергей Карасёв
Lenovo представила сервер ThinkSystem SC777 V4 Neptune на базе NVIDIA GB200 с СЖОКомпания Lenovo анонсировала сервер ThinkSystem SC777 V4 Neptune, спроектированный специально для НРС-нагрузок и задач ИИ. Новинка 100 % прямым жидкостным охлаждением, что, как утверждается, обеспечивает максимальную производительность и энергоэффективность без ущерба для удобства обслуживания. По сравнению с аналогичной системой с воздушным охлаждением сервер ThinkSystem SC777 V4 Neptune обеспечивает увеличение общей производительности до 10 % благодаря постоянной работе в турбо-режиме; сокращение энергопотребления дата-центра до 40 %; снижение уровня шума от вентиляторов до 100 %. Базовая система ThinkSystem SC777 V4 Neptune, заключённая в 21″ корпус с возможностью вертикального монтажа, несёт на борту два ускорителя NVIDIA GB200, что в сумме даёт четыре чипа B200 и два процессора Grace. Возможна установка до шести адаптеров NVIDIA NDR или трёх адаптеров XDR LP InfiniBand. Архитектура сервера допускает использование до десяти накопителей E3.S NVMe в расчёте на лоток. Говорится о поддержке массивов RAID на уровне ОС. В оснащение входят два сетевых порта 25GbE SFP28 LOM. На фронтальную панель выведены интерфейс USB Type-C / DisplayPort, диагностический порт, два разъёма USB 3.0, интерфейс D-Sub, гнездо RJ-45 и пр. Восемь лотков ThinkSystem SC777 V4 Neptune могут быть размещены в шасси ThinkSystem N1380 Neptune типоразмера 13U, а три таких блока могут быть установлены в 19″ серверную стойку. Названное шасси допускает использование до четырёх узлов ThinkSystem Titanium Power Conversion Stations (PCS) мощностью 15 кВт каждый. |
|



