Материалы по тегу: nvidia
|
28.03.2025 [11:17], Сергей Карасёв
NVIDIA близка к приобретению облачного ИИ-провайдера Lepton AIКомпания NVIDIA, по сообщению The Information, ведёт переговоры о покупке облачного стартапа Lepton AI, который специализируется на сдаче в аренду ИИ-серверов. Стоимость сделки, как утверждается, может составить «сотни миллионов долларов». Фирма Lepton AI была основана в 2023 году: её соучредителями являются Янцин Цзя (Yangqing Jia) и Цзюньцзе Бай (Junjie Bai), бывшие исследователи лаборатории искусственного интеллекта Meta✴ Platforms. Они, в частности, принимали участие в разработке PyTorch.
Источник изображения: NVIDIA Lepton AI предоставляет облачные ресурсы, оптимизированные для различных задач ИИ, включая обучение больших языковых моделей (LLM) и инференс. Клиентам доступны разные ускорители NVIDIA, а также специальный инструмент для централизованного управления выделенными мощностями при работе одновременно с несколькими проектами. Платформа Lepton AI содержит функции для обнаружения возможных ошибок на этапе обучения LLM и всевозможных проблем технического характера, например, связанных с выделением памяти. После завершения разработки ИИ-модели клиенты могут развернуть её в облаке Lepton AI с применением инстансов, оптимизированных для задач инференса. Говорится о производительности более 600 токенов в секунду при задержках менее 10 мс. Отмечается, что Lepton AI в ходе начального раунда финансирования получила $11 млн. В число инвесторов входят CRV и Fusion Fund. На сегодняшний день штат стартапа насчитывает около 20 сотрудников. Ожидается, что приобретение Lepton AI поможет NVIDIA укрепить позиции в сегменте облачных вычислений для ИИ.
26.03.2025 [01:00], Владимир Мироненко
NVIDIA поделится с MediaTek фирменным интерконнектом NVLink для создания кастомных ASICMediaTek объявила о планах расширить сотрудничество с NVIDIA, интегрировав NVLink в разрабатываемые ей ASIC, сообщил ресурс DigiTimes. В свою очередь, ресурс smbom.com пишет, что партнёры намерены совместно разрабатывать передовые решения с использованием NVLink и 224G SerDes. Аналитики предполагают, что выход NVIDIA в сектор ASIC позволит ей ускорить дальнейшее продвижение на рынке с использованием опыта MediaTek и при этом решать имеющиеся проблемы. Как ожидают аналитики, по мере развития сотрудничества двух компаний всё больше провайдеров облачных услуг будет проявлять интерес к работе с MediaTek. Внедрение NVLink в ASIC MediaTek может значительно повысить привлекательность сетевых решений NVIDIA. Объединив усилия, NVIDIA и MediaTek смогут предложить комплексную разработку кастомных ASIC, которая будет включать поддержку HBM4e, обширную библиотеку IP-блоков, передовые процессы производства и упаковки. MediaTek отдельно подчеркнула, что её SerDes-блоки является ключевым преимуществом при разработке ASIC. Компании расширяют сотрудничество с ведущими мировыми производствами полупроводников, ориентируясь на передовые техпроцессы. Применяя технологию совместной оптимизации проектирования (DTCO), они стремятся достичь оптимального соотношения между производительностью, энергопотреблением и площадью (PPA). Сообщается, что несколько облачных провайдеров уже изучают объединённое IP-портфолио NVIDIA и MediaTek. По неофициальным данным, Google уже прибегла к услугам MediaTek при разработке 3-нм TPU седьмого поколения, которое поступит в массовое производство к III кварталу 2026 года. Ожидается, что переход на 3-нм процесс принесет MediaTek более $2 млрд дополнительных поступлений. По данным источников в цепочке поставок, восьмое поколение TPU перейдёт на 2-нм процесс TSMC, что вновь укрепит позиции MediaTek. Также прогнозируется, что предстоящий выход чипа GB10 совместной разработки NVIDIA и MediaTek, и долгожданного чипа N1x, значительно улучшат бизнес-операции MediaTek и ещё больше укрепят позиции компании в полупроводниковой отрасли. Эксперты отрасли считают, что MediaTek имеет все возможности для того, что стать ключевым бенефициаром роста спроса на ИИ-технологии, особенно для малых и средних предприятий.
25.03.2025 [21:13], Владимир Мироненко
Из-за проблем с ИИ Apple резко поменяла курс и решила потратить $1 млрд на суперускорители NVIDIA GB300 NVL72В отличие от других крупных технологических компаний, которые активно инвестируют в развёртывание ИИ ЦОД, Apple долгое время избегала резкого увеличения капитальных вложений в это направление. Но, похоже, ситуация изменилась, и Apple тоже начала наращивать инвестиции в это направление, пишет ресурс Investor's Business Daily (IBD). Аналитик Loop Capital Ананда Баруа (Ananda Baruah) сообщил в понедельник в записке для инвесторов, что Apple размещает заказы на поставку систем NVIDIA GB300 NVL72 на сумму около $1 млрд. Речь идёт о приблизительно 250 системах стоимостью $3,7– $4 млн каждая, пояснил аналитик. Баруа также сообщил, что Apple привлекла Dell и Supermicro к работе над собственным большим серверным кластером для поддержки приложений генеративного ИИ. Аналитик рассказал, что на текущий момент об этом проекте мало данных, но, похоже, Apple намерена использовать кластер для работы с большими языковыми моделями (LLM). Ранее компания сотрудничала с Google Cloud и использовала TPU для обучения своих ИИ-моделей. Для безопасного инференса компания использует серверы на базе собственных чипов серии M. По слухам, компания также работает над собственными серверными ИИ-ускорителями при поддержке Broadcom. Ананда Баруа считает, что резкая смена стратегии Apple связана с проблемами с выводом на рынок своего обновленного цифрового помощника Siri с поддержкой ИИ, который был анонсирован в прошлом году на конференции WWDC 2024. Компания планировала запустить новые функции Siri в начале этого года, но, похоже, что это произойдёт только в 2026 году. Один из топ-менеджеров Apple назвал задержки и промахи с запуском функций ИИ-платформы Apple Intelligence «отвратительными» и «позорными», поскольку компания продвигала возможности ИИ в телевизионной рекламе, сообщил ранее Bloomberg. В связи с этим на компанию уже подали в суд. В итоге новым руководителем направления ИИ вместо Джона Джаннандреа (John Giannandrea) был назначен Майк Роквелл (Mike Rockwell), глава отдела разработки Vision Pro.
25.03.2025 [12:52], Сергей Карасёв
«Скала^р» представила Машину для искусственного интеллекта — отечественный аналог NVIDIA DGX SuperPODКомпания «Скала^р» анонсировала специализированный программно-аппаратный комплекс (ПАК) для работы с ИИ-моделями — Машину Скала^р МБД.ИИ. Эта система, как утверждается, представляет собой функциональный аналог платформ NVIDIA DGX SuperPOD и Huawei Atlas 900 PoD. Полностью технические характеристики новинки пока не раскрываются. Известно, что Машина Скала^р МБД.ИИ использует интерконнект NVLink с возможностью объединения двух, четырёх или восьми ускорителей. Задействованы технологии GPUDirect и NVMe-oF для обработки и передачи данных, а также система прямого доступа к ресурсам RDMA. Заявлена поддержка всех популярных фреймворков для машинного обучения: TensorFlow, PyTorch, Keras и др. Вычислительный комплекс будет предлагаться в конфигурациях с ускорителями NVIDIA и в вариантах с альтернативными ИИ-картами, в том числе на основе неназванных тензорных процессоров. Кроме того, в разработке находятся решения с поддержкой отечественных ускорителей. Возможно развёртывание системы как в дата-центре заказчика, так и в составе частных и гетерогенных облачных систем. Машина может интегрироваться с другими ПАК семейства Скала^р, предназначенными для работы с большими данными. Для нового комплекса подтверждена совместимость с различными платформами машинного обучения и моделями ИИ, в том числе MTS AI Cotype Pro, T1 Сайбокс, Red_Mad_Robot Neuraldeep.tech, WaveAccess ValueAI, DeepSeek и LLaMA. По заявлениям разработчика, система имеет гибкую унифицированную архитектуру, соответствующую отраслевым стандартам, что позволяет использовать её с YandexGPT, GigaChat и др. Развёртывание приложений ИИ в контейнерной среде обеспечивает эффективное использование аппаратных ресурсов, а реализация интерконнекта с применением топологий Fat-tree, HyperCube, DragonFly или классической архитектуры Leaf-Spine даёт возможность более гибко масштабировать вычислительный кластер. Среди преимуществ Машины Скала^р МБД.ИИ названы:
«Машина Скала^р МБД.ИИ позволяет создать надёжную и производительную инфраструктуру для работы с искусственным интеллектом, используя проверенные технологии и компоненты из реестра Минпромторга и Минцифры РФ с подтверждённой производительностью до 1,5 Пфлопс на вычислительный кластер. Мы видим большой потенциал применения комплекса в различных отраслях экономики, включая промышленность и финансы, где использование ИИ помогает существенно повысить эффективность бизнес-процессов», — говорит директор по технологическим инновациям Скала^р.
24.03.2025 [20:02], Владимир Мироненко
ИИ в один клик: NVIDIA и Equinix предложат готовые к использованию кластеры DGX GB300 и DGX B300 в 45 регионах по всему мируЧтобы удовлетворить растущий спрос на ИИ-инфраструктуру, NVIDIA представила NVIDIA Instant AI Factory — управляемый сервис на базе платформ NVIDIA DGX SuperPOD с ускорителями Blackwell Ultra и ПО NVIDIA Mission Control. NVIDIA сообщила, что её партнёр Equinix станет первой компанией, которая предложит новые системы DGX GB300 и DGX B300 в своих предварительно сконфигурированных ЦОД с жидкостным или воздушным охлаждением, готовых к обработке ИИ-нагрузок и расположенных на 45 рынках по всему миру. Как пишет SiliconANGLE, Тони Пейкдей (Tony Paikeday), старший директор NVIDIA по маркетингу продуктов и систем ИИ, заявил, что партнёрство с Equinix позволит компании выйти на более чем 45 рынков по всему миру «с предварительно настроенными объектами, которые готовы в зависимости от спроса клиентов масштабировать, эксплуатировать и управлять ИИ-инфраструктурой». NVIDIA отметила, что сервис предоставит предприятиям полностью готовые ИИ-фабрики, оптимизированные для обучения современных моделей и рабочих нагрузок моделей рассуждений в реальном времени, что избавит от многомесячного планирования инфраструктуры перед развёртыванием. Поскольку Equinix предоставляет средства и инфраструктуру для разработки ИИ, Пейкдей возлагает большие надежды на платформу SuperPOD и считает, что она окажет позитивное влияние на развёртывание ИИ компаниями. «Equinix — ключевой компонент этой платформы, потому что вам нужно жидкостное охлаждение, вам нужны ЦОД следующего поколения, вам нужны сверхскоростные соединения с внешним миром, чтобы передавать эти данные», — заявил он.
24.03.2025 [09:03], Владимир Мироненко
От СХД напрямую к ИИ: NVIDIA анонсировала эталонную платформу AI Data Platform для быстрого извлечения данных во время инференсаNVIDIA анонсировала NVIDIA AI Data Platform — настраиваемую эталонную архитектуру, которую ведущие поставщики смогут использовать для создания нового класса ИИ-инфраструктуры для требовательных рабочих нагрузок ИИ-инференса: корпоративных платформ хранения со специализированными ИИ-агентами, использующих ускорители, сетевые решения и ПО NVIDIA. Эти агенты помогут генерировать ответы из имеющихся данных практически в реальном времени, используя ПО NVIDIA AI Enterprise — включая микросервисы NVIDIA NIM для новых моделей NVIDIA Llama Nemotron, а также NVIDIA AI-Q Blueprint. Провайдеры хранилищ смогут оптимизировать свою инфраструктуру для обеспечения работы этих агентов с помощью ускорителей NVIDIA Blackwell, DPU BlueField, сетей Spectrum-X и библиотеки инференса с открытым исходным кодом NVIDIA Dynamo. Ведущие провайдеры платформ данных и хранилищ, включая DDN, Dell, HPE, Hitachi Vantara, IBM, NetApp, Nutanix, Pure Storage, VAST Data и WEKA, сотрудничают с NVIDIA для создания настраиваемых ИИ-платформ данных, которые могут использовать корпоративные данные для рассуждений и ответов на сложные запросы. NVIDIA Blackwell, DPU BlueField и сетевое оборудование Spectrum-X предоставляют механизм для ускорения доступа ИИ-агентов запроса к данным, хранящимся в корпоративных системах. DPU BlueField обеспечивают производительность до 1,6 раз выше, чем хранилища на базе ЦП, при этом снижая энергопотребление до 50 %, а Spectrum-X ускоряет доступ к хранилищам до 48 % по сравнению с традиционным Ethernet, применяя адаптивную маршрутизацию и контроль перегрузки, говорит NVIDIA. ИИ-агенты, созданные с помощью AI-Q Blueprint, подключаются к данным во время инференса, чтобы предоставлять более точные, контекстно-зависимые ответы. Они могут быстро получать доступ к большим объёмам информации и обрабатывать различные типы данных, включая структурированные, полуструктурированные и неструктурированные данные из нескольких источников, в том числе текст, PDF, изображения и видео. Сертифицированные партнёры NVIDIA в области СХД уже сотрудничают с NVIDIA в деле создания новых ИИ-платформ:
24.03.2025 [01:37], Владимир Мироненко
NVIDIA анонсировала ИИ-модели Llama Nemotron с регулируемым «уровнем интеллекта»NVIDIA анонсировала новое семейство ИИ-моделей Llama Nemotron с расширенными возможностями рассуждения. Основанные на моделях Llama с открытым исходным кодом от Meta✴ Platforms, модели от NVIDIA предназначены для предоставления разработчикам основы для создания продвинутых ИИ-агентов, которые могут от имени своих пользователей независимо или с минимальным контролем работать в составе связанных команд для решения сложных задач. «Агенты — это автономные программные системы, предназначенные для рассуждений, планирования, действий и критики своей работы», — сообщила Кари Бриски (Kari Briski), вице-президент по управлению программными продуктами Generative AI в NVIDIA на брифинге с прессой, пишет VentureBeat. «Как и люди, агенты должны понимать контекст, чтобы разбивать сложные запросы, понимать намерения пользователя и адаптироваться в реальном времени», — добавила она. По словам Бриски, взяв Llama за основу, NVIDIA оптимизировала модель с точки зрения требований к вычислениям, сохранив точность ответов. NVIDIA сообщила, что улучшила новое семейство моделей рассуждений в ходе дообучения, чтобы улучшить многошаговые математические расчёты, кодирование, рассуждения и принятие сложных решений. Это позволило повысить точность ответов моделей до 20 % по сравнению с базовой моделью и увеличить скорость инференса в пять раз по сравнению с другими ведущими рассуждающими open source моделями. Повышение производительности инференса означают, что модели могут справляться с более сложными задачами рассуждений, имеют расширенные возможности принятия решений и позволяют сократить эксплуатационные расходы для предприятий, пояснила компания. Модели Llama Nemotron доступны в микросервисах NVIDIA NIM в версиях Nano, Super и Ultra. Они оптимизированы для разных вариантов развёртывания: Nano для ПК и периферийных устройств с сохранением высокой точности рассуждения, Super для оптимальной пропускной способности и точности при работе с одним ускорителем, а Ultra — для максимальной «агентской точности» в средах ЦОД с несколькими ускорителями. Как сообщает NVIDIA, обширное дообучение было проведено в сервисе NVIDIA DGX Cloud с использованием высококачественных курируемых синтетических данных, сгенерированных NVIDIA Nemotron и другими открытыми моделями, а также дополнительных курируемых наборов данных, совместно созданных NVIDIA. Обучение включало 360 тыс. часов инференса с использованием ускорителей H100 и 45 тыс. часов аннотирования человеком для улучшения возможностей рассуждения. По словам компании, инструменты, наборы данных и методы оптимизации, используемые для разработки моделей, будут в открытом доступе, что предоставит предприятиям гибкость в создании собственных пользовательских рвссуждающих моделей. Одной из ключевых функций NVIDIA Llama Nemotron является возможность включать и выключать опцию рассуждения. Это новая возможность на рынке ИИ, утверждает компания. Anthropic Claude 3.7 имеет несколько схожую функциональность, хотя она является закрытой проприетарной моделью. Среди моделей с открытым исходным кодом IBM Granite 3.2 тоже имеет переключатель рассуждений, который IBM называет «условным рассуждением». Особенность гибридного или условного рассуждения заключается в том, что оно позволяет системам исключать вычислительно затратные этапы рассуждений для простых запросов. NVIDIA продемонстрировала, как модель может задействовать сложные рассуждения при решении комбинаторной задачи, но переключаться в режим прямого ответа для простых фактических запросов. NVIDIA сообщила, что целый ряд партнёров уже использует модели Llama Nemotron для создания новых мощных ИИ-агентов. Например, Microsoft добавила Llama Nemotron и микросервисы NIM в Microsoft Azure AI Foundry. SAP SE использует модели Llama Nemotron для улучшения возможностей своего ИИ-помощника Joule и портфеля решений SAP Business AI. Кроме того, компания использует микросервисы NVIDIA NIM и NVIDIA NeMo для повышения точности завершения кода для языка ABAP. ServiceNow использует модели Llama Nemotron для создания ИИ-агентов, которые обеспечивают повышение производительности и точности исполнения задач предприятий в различных отраслях. Accenture сделала рассуждающие модели NVIDIA Llama Nemotron доступными на своей платформе AI Refinery. Deloitte планирует включить модели Llama Nemotron в свою недавно анонсированную платформу агентского ИИ Zora AI. Atlassian и Box также работают с NVIDIA, чтобы гарантировать своим клиентам доступ к моделям Llama Nemotron.
22.03.2025 [14:19], Сергей Карасёв
Seeed reComputer J3010B — мини-ПК для ИИ-задач на периферии на базе NVIDIA Jetson Orin NanoКомпания Seeed Studio, по сообщению CNX-Software, выпустила компьютер небольшого форм-фактора reComputer J3010B, предназначенный для поддержания ИИ-нагрузок на периферии. Устройство может эксплуатироваться в широком температурном диапазоне — от -10 до +60 °C. В основу новинки положена аппаратная платформа NVIDIA Jetson Orin Nano. Решение содержит процессор с шестью вычислительными ядрами Arm Cortex-A78AE с частотой до 1,5 ГГц и GPU на архитектуре NVIDIA Ampere с 16 тензорными ядрами. Доступны варианты с 512 и 1024 ядрами CUDA, оснащённые соответственно 4 и 8 Гбайт памяти LPDDR5. В первом случае заявленная ИИ-производительность достигает 34 TOPS, во втором — 67 TOPS. reComputer J3010B несёт на борту NVMe SSD вместимостью 128 Гбайт и сетевой контроллер 1GbE. Есть слот M.2 Key E для опционального модуля Wi-Fi/Bluetooth, разъём mini PCIe для модема 4G (1 × PCIe 3.0 x4/3 × PCIe 3.0 x1), 40-контактная колодка расширения, 12-контактная колодка UART, коннектор для подключения вентилятора охлаждения с ШИМ-управлением, два интерфейса камеры CSI (2 линии). В набор разъёмов входят два порта USB 3.2 Type-A и порт USB 2.0 Type-C, интерфейс HDMI 2.1, гнездо RJ45 для сетевого кабеля.
Источник изображения: Seeed Studio Размеры компьютера составляют 130 × 120 × 58,5 мм, масса — 451,9 г. Питание (9–19 В) подаётся через DC-разъём на 5,5/2,5 мм. Компания Seeed Studio заявляет, что новинка будет доступна как минимум до 2032 года. Устройство обеспечивается двухлетней гарантией. Цена reComputer J3010B составляет $505 за модель с 4 Гбайт оперативной памяти и $605 за модификацию с 8 Гбайт.
21.03.2025 [14:21], Сергей Карасёв
MSI представила серверы на архитектуре NVIDIA MGX с процессорами Intel Xeon 6Компания MSI анонсировала серверы CG480-S5063 и CG290-S3063 для задач ИИ и HPC, а также приложений с интенсивным использованием данных. В основу систем положены процессоры Intel Xeon 6500P и 6700P поколения Granite Rapids и модульная архитектура NVIDIA MGX. Модель CG480-S5063 выполнена в форм-факторе 4U. Возможна установка двух чипов Xeon 6 в исполнении LGA4710 с показателем TDP до 350 Вт. Доступны 32 слота для модулей DDR5-6400/8000 RDIMM/RDIMM-3DS/MRDIMM суммарным объемом до 8 Тбайт. Во фронтальной части расположены 20 отсеков для накопителей E1.S с интерфейсом PCIe 5.0 x4 (NVMe). Кроме того, есть два внутренних слота для SSD в формате М.2 2280/22110 PCIe 5.0 x2 (NVMe). В общей сложности реализованы 13 слотов PCIe 5.0 x16. Допускается применение до восьми ускорителей NVIDIA H200. Предусмотрены два сетевых порта 10GbE на базе Intel X710-AT2, выделенный сетевой порт управления 1GbE, контроллер ASPEED AST2600, порты USB 3.0/2.0 Type-A и Mini-DisplayPort. Питание обеспечивают четыре блока мощностью 3200 Вт с сертификатом 80 PLUS Titanium. Задействовано воздушное охлаждение. В свою очередь, сервер CG290-S3063 рассчитан на один процессор Xeon 6 с TDP до 350 Вт. Объем памяти DDR5-6400/8000 RDIMM/RDIMM-3DS/MRDIMM может достигать 4 Тбайт (16 слотов). Доступны восемь тыльных отсеков для SFF-накопителей, два коннектора для SSD М.2 2280/22110 с интерфейсом PCIe 5.0 x2 (NVMe), а также восемь слотов PCIe 5.0 x16. Поддерживается установка до четырёх ускорителей NVIDIA H200. В оснащение входят контроллер ASPEED AST2600, сетевой порт управления 1GbE, интерфейсы USB 3.0/2.0 Type-A и Mini-DisplayPort. Применены два блока питания мощностью 2400 Вт с сертификатом 80 PLUS Titanium и система воздушного охлаждения. Серверы могут эксплуатироваться при температурах от 0 до +35 °C.
21.03.2025 [10:09], Владимир Мироненко
«ОС» для ИИ-фабрик: NVIDIA Dynamo ускорит инференс и упростит масштабирование рассуждающих ИИ-моделейNVIDIA представила NVIDIA Dynamo, преемника NVIDIA Triton Inference Server — программную среду с открытым исходным кодом для разработчиков, обеспечивающую ускорение инференса, а также упрощающую масштабирование рассуждающих ИИ-моделей в ИИ-фабриках с минимальными затратами и максимальной эффективностью. Глава NVIDIA Дженсен Хуанг (Jensen Huang) назвал Dynamo «операционной системой для ИИ-фабрик». NVIDIA Dynamo повышает производительность инференса, одновременно снижая затраты на масштабирование вычислений во время тестирования. Сообщается, что благодаря оптимизации инференса на NVIDIA Blackwell эта платформа многократно увеличивает производительность рассуждающей ИИ-модели DeepSeek-R1. Платформа NVIDIA Dynamo, разработанная для максимизации дохода от токенов для ИИ-фабрик (ИИ ЦОД), организует и ускоряет коммуникацию инференса на тысячах ускорителей, и использует дезагрегированную обработку данных для разделения фаз обработки и генерации больших языковых моделей (LLM) на разных ускорителях. Это позволяет оптимизировать каждую фазу независимо от её конкретных потребностей и обеспечивает максимальное использование вычислительных ресурсов. При том же количестве ускорителей Dynamo удваивает производительность (т.е. фактически доход ИИ-фабрик) моделей Llama на платформе NVIDIA Hopper. При запуске модели DeepSeek-R1 на большом кластере GB200 NVL72 благодаря интеллектуальной оптимизации инференса с помощью NVIDIA Dynamo количество генерируемых токенов на каждый ускоритель токенов увеличивается более чем в 30 раз, сообщила NVIDIA. NVIDIA Dynamo может динамически перераспределять нагрузку на ускорители в ответ на меняющиеся объёмы и типы запросов, а также закреплять задачи за конкретными ускорителями в больших кластерах, что помогает минимизировать вычисления для ответов и маршрутизировать запросы. Платформа также может выгружать данные инференса в более доступную память и устройства хранения данных и быстро извлекать их при необходимости. NVIDIA Dynamo имеет полностью открытый исходный код и поддерживает PyTorch, SGLang, NVIDIA TensorRT-LLM и vLLM, что позволяет клиентам разрабатывать и оптимизировать способы запуска ИИ-моделей в рамках дезагрегированного инференса. По словам NVIDIA, это позволит ускорить внедрение решения на различных платформах, включая AWS, Cohere, CoreWeave, Dell, Fireworks, Google Cloud, Lambda, Meta✴, Microsoft Azure, Nebius, NetApp, OCI, Perplexity, Together AI и VAST. NVIDIA Dynamo распределяет информацию, которую системы инференса хранят в памяти после обработки предыдущих запросов (KV-кеш), на множество ускорителей (до тысяч). Затем платформа направляет новые запросы на те ускорители, содержимое KV-кеша которых наиболее близко к новому запросу, тем самым избегая дорогостоящих повторных вычислений. NVIDIA Dynamo также обеспечивает дезагрегацию обработки входящих запросов, которое отправляет различные этапы исполнения LLM — от «понимания» запроса до генерации — разным ускорителям. Этот подход идеально подходит для рассуждающих моделей. Дезагрегированное обслуживание позволяет настраивать и выделять ресурсы для каждой фазы независимо, обеспечивая более высокую пропускную способность и более быстрые ответы на запросы. NVIDIA Dynamo включает четыре ключевых механизма:
Платформа NVIDIA Dynamo будет доступна в микросервисах NVIDIA NIM и будет поддерживаться в будущем выпуске платформы NVIDIA AI Enterprise. |
|

