Материалы по тегу: llm

20.03.2024 [22:19], Сергей Карасёв

Samsung создала лабораторию по разработке ИИ-чипов нового поколения

Компания Samsung Electronics, по сообщению Bloomberg, сформировала лабораторию, специалистам которой предстоит заняться разработкой чипов следующего поколения для ИИ-приложений. Новое подразделение получило название Samsung Semiconductor AGI Computing Lab: его офисы будут располагаться в Южной Корее и США.

Главной задачей лаборатории является проектирование полупроводниковых чипов, способных справляться с высокими вычислительными нагрузками, связанными с развитием так называемого «общего искусственного интеллекта» (Artificial General Intelligence, AGI). Речь идёт о системах, которые по возможностям смогут как минимум не уступать человеческому мозгу, а, возможно, и превосходить его.

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

Современные ИИ-модели функционируют в рамках набора данных, на которых производилось обучение. Концепция AGI, в свою очередь, предполагает, что ИИ-система может выполнять задачи, для которых она изначально не обучалась. Такие модели должны обладать достаточной степенью самосознания и способностью осваивать новые навыки без вмешательства человека. Иными словами, AGI — это универсальный ИИ, способный решать сложные задачи, применяя обобщенные когнитивные способности. Фактически такая нейросеть может стать полноценной альтернативой человеческому мозгу.

Однако для поддержания работы AGI потребуются чипы нового поколения, обладающие необходимой производительностью при сравнительно небольшом энергопотреблении. Для достижения таких характеристик Samsung планирует переосмыслить все аспекты архитектуры процессоров, включая память, интерконнект и даже упаковку.

На первом этапе новая лаборатория сосредоточится на разработке чипов для больших языковых моделей (LLM) с упором на инференс. Руководителем Samsung Semiconductor AGI Computing Lab назначен Дон Хёк Ву (Dong Hyuk Wu), который ранее занимал должность старшего инженера-программиста Google.

Постоянный URL: http://testsn.3dnews.ru/1102015
19.03.2024 [03:18], Владимир Мироненко

Всё своё ношу с собой: NVIDIA представила контейнеры NIM для быстрого развёртывания оптимизированных ИИ-моделей

Компания NVIDIA представила микросервис NIM, входящий в платформу NVIDIA AI Enterprise 5.0 и предназначенный для оптимизации запуска различных популярных моделей ИИ от NVIDIA и её партнёров. NVIDIA NIM позволяет развёртывать ИИ-модели в различных инфраструктурах: от локальных рабочих станций до облаков.

Предварительно созданные контейнеры и Helm Chart'ы с оптимизированными моделями тщательно проверяются и тестируются на различных аппаратных платформах NVIDIA, у поставщиков облачных услуг и на дистрибутивах Kubernetes. Это обеспечивает поддержку всех сред с ускорителями NVIDIA и гарантирует, что компании смогут развёртывать свои приложения генеративного ИИ где угодно, сохраняя полный контроль над своими приложениями и данными, которые они обрабатывают. Разработчики могут получить доступ к моделям посредством стандартизированных API, что упрощает разработку и обновление приложений.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

NIM также может использоваться для оптимизации исполнения специализированных решений, поскольку не только использует NVIDIA CUDA, но и предлагает адаптацию для различных областей, таких как большие языковые модели (LLM), визуальные модели (VLM), а также модели речи, изображений, видео, 3D, разработки лекарств, медицинской визуализации и т.д. NIM использует оптимизированные механизмы инференса для каждой модели и конфигурации оборудования, обеспечивая наилучшую задержку и пропускную способность и позволяя более просто и быстро масштабироваться по мере роста нагрузок.

В то же время NIM позволяет дообучить и настроить модели на собственных данных, поскольку можно не только воспользоваться облачными API NVIDIA для доступа к готовым моделями, но и самостоятельно развернуть NIM в Kubernetes-средах у крупных облачных провайдеров или локально, что сокращает время разработки, сложность и стоимость подобных проектов и позволяет интегрировать NIM в существующие приложения без необходимости глубокой настройки или специальных знаний.

Постоянный URL: http://testsn.3dnews.ru/1101874
19.03.2024 [01:06], Сергей Карасёв

SAP и NVIDIA ускорят внедрение генеративного ИИ в корпоративные приложения

Компании NVIDIA и SAP объявили о расширении сотрудничества с целью ускорения внедрения генеративного ИИ в корпоративном секторе. Стороны намерены совместно развивать платформу SAP Business AI, включая масштабируемые приложения, специфичные для бизнес-сферы.

Речь, в частности, идёт об облачных решениях SAP. Кроме того, будут развиваться функции генеративного ИИ в составе помощника Joule, который был представлен осенью прошлого года. Его планируется интегрировать практически во все программные продукты SAP для упрощения процесса работы и оптимизации выполнения различных задач.

Отмечается, что ИИ-помощник Joule следующего поколения может быть развёрнут на площадке гиперскейлеров или в собственном облаке SAP. Он поможет клиентам раскрыть потенциал своего бизнеса, автоматизируя трудоёмкие задачи и быстро анализируя критически важные корпоративные данные. Кроме того, генеративный ИИ поможет ABAP-разработчикам.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

В рамках партнёрства SAP будет использовать инструменты NVIDIA для точной настройки больших языковых моделей (LLM) для конкретных сценариев развёртывания. SAP и NVIDIA планируют представить новые интегрированные ИИ-возможности к концу 2024 года. Они затронут такие продукты, как SAP Datasphere, SAP Business Technology Platform (SAP BTP) и пр. SAP планирует задействовать облачный ИИ-сервис NVIDIA DGX Cloud AI, программное обеспечение NVIDIA AI Enterprise и базовые модели NVIDIA.

В целом, SAP и NVIDIA изучают более 20 вариантов использования генеративного ИИ, в том числе для упрощения и улучшения цифровой трансформации. Это, в частности, автоматизация планирования ресурсов предприятия с помощью интеллектуального сопоставления счетов в SAP S/4HANA Cloud, улучшение сценариев использования ресурсов с помощью SAP SuccessFactors и др.

Постоянный URL: http://testsn.3dnews.ru/1101886
09.03.2024 [17:47], Сергей Карасёв

Индия потратит $1,2 млрд на суверенный ИИ-суперкомпьютер с 10 тыс. ускорителей и собственные LLM

Правительство Индии, по сообщению ресурса The Register, утвердило программу развития национальной инфраструктуры ИИ. На эти цели будет выделено в общей сложности около $1,24 млрд. Одним из ключевых проектов в рамках данной инициативы является создание мощного суверенного суперкомпьютера для ИИ-задач и обработки больших языковых моделей (LLM).

Информации о проекте новой НРС-системы на данный момент немного. Говорится, что в её состав войдут как минимум 10 тыс. ускорителей на базе GPU. Комплекс будет создаваться на основе государственно-частного партнёрства и станет частью вычислительной инфраструктуры IndiaAI Compute Capacity.

Другим направлением комплексной программы является формирование центра инноваций в области ИИ — IndiaAI Innovation Centre. Он займётся разработкой и внедрением базовых ИИ-моделей. Ожидается, что особое внимание будет уделено LMM и моделям, специфичным для конкретных областей. Центр будет использовать периферийные и распределённые вычисления «для достижения оптимальной эффективности».

 Фото: Saurav Mahto / Unsplash

Фото: Saurav Mahto / Unsplash

Выделенные средства будут направлены ещё на несколько проектов. Это, в частности, финансирование индийских ИИ-стратапов IndiaAI Startup Financing, платформа наборов данных IndiaAI Datasets Platform для использования в сфере ИИ и инициатива IndiaAI FutureSkills, которая упростит доступ к различным ИИ-программам и поможет в формировании соответствующих лабораторий.

В целом, Индия в рамках финансирования рассчитывает стимулировать технологическую независимость и демократизировать преимущества ИИ во всех слоях общества. Предполагается, что ИИ станет движущей силой цифровой экономики страны. Индия также разрабатывает собственные процессоры с архитектурой RISC-V, которые планируется применять в серверном оборудовании.

Постоянный URL: http://testsn.3dnews.ru/1101459
07.03.2024 [14:12], Владимир Мироненко

Индивидуальный подход: разработчик специализированных ИИ-чипов Taalas привлёк $50 млн инвестиций

Стартап Taalas Inc., занимающийся разработкой специализированных чипов ИИ, объявил о выходе из скрытого режима (stealth mode) и привлечении $50 млн инвестиций в ходе двух раундов финансирования, которые возглавили Quiet Capital и венчурный капиталист Пьер Ламонд (Pierre Lamond). Taalas была основана выходцами из Tenstorrent, ещё одного разработчика ИИ-ускорителей.

Практически все чипы ИИ оптимизированы для ускорения перемножения матриц, что необходимо для работы нейронных сетей, отметил ресурс SiliconANGLE. Некоторые чипы имеют дополнительные оптимизации, ориентированные на конкретные случаи использования ИИ. Например, ИИ-ускоритель NVIDIA H200 оснащён увеличенным объёмом высокоскоростной памяти для ускорения инференса больших языковых моделей (LLM).

Taalas занимается дальнейшим развитием этой концепции. Как сообщил ресурс The Information, компания разрабатывает ускорители, которые не просто оптимизированы для обработки ИИ-нагрузок, а построены с учётом требований конкретной нейронной сети. Компания считает, что такой подход сделает её чипы значительно быстрее, чем ИИ-ускорители общего назначения от ведущих производителей.

 Источник изображения: Taalas

Источник изображения: Taalas

«Коммерческое использование ИИ требует 1000-кратного улучшения вычислительной мощности и эффективности — цель, которая недостижима с помощью нынешних поэтапных подходов, — заявил Любиша Бажич (Ljubisa Bajic), сооснователь и гендиректор Taalas. — Путь вперёд — реализовать внедрение моделей глубокого обучения в кремнии — это самый верный путь к устойчивому ИИ».

Разработка собственного ускорителя может занять годы и потребовать сотни миллионов долларов инвестиций. Также создание чипов, оптимизированных для разных алгоритмов искусственного интеллекта, вероятно, будет сопряжено с серьезными техническими проблемами. С целью их решения компания разрабатывает автоматизированный рабочий процесс проектирования, который, по её словам, позволит ускорить вывод полупроводников на рынок.

Один из разрабатываемых Taalas чипов будет содержать достаточно памяти для хранения «большой модели ИИ» без надобности во внешней оперативной памяти, что позволит ускорить обработку данных. Taalas планирует выпустить свой первый чип для больших языковых моделей в III квартале 2024 года и начать его поставку клиентам в I квартале 2025 года.

Постоянный URL: http://testsn.3dnews.ru/1101353
05.03.2024 [16:24], Владимир Мироненко

Forrester прогнозирует перемены во внедрении генеративного ИИ предприятиями

Компания Forrester опубликовала исследование «The State Of Generative AI, 2024», посвящённое рынку ИИ в 2024 году с оценкой текущего состояния технологии генеративного ИИ c точки зрения спроса и предложения и её развёртывания. Также компания сообщила о грядущих переменах на рынке и указала факторы, которые предприятиям следует учитывать при подготовке к внедрению этой технологии.

Аналитики отметили, что в отношении этой технологии по-прежнему широко распространена путаница и непонимание. И многочисленные объявления о новых партнёрствах, функциях, сервисах и продуктах, связанных с генеративным ИИ, эту путаницу лишь усиливают.

Как сообщается, в сфере разработки больших языковых моделей (LLM) доминируют небольшое количество ведущих технологических компаний, поскольку создание фундаментальных моделей требует значительных инвестиций, многих лет разработки и инфраструктуры стоимостью миллионы долларов. Впрочем, на рынке присутствуют и небольшие компании, но это не повлияет на доминирование крупных игроков, по крайней мере, в ближайшем будущем.

 Фото: Possessed Photography / Unsplash

Фото: Possessed Photography / Unsplash

Согласно данным Forrester, более 90 % лиц, принимающих решения в области ИИ по всему миру, планируют внедрить генеративный ИИ для обслуживания клиентов и внутренних запросов. Что касается использования технологии в производстве, то её применение пока ограничено предприятиями высокого уровня.

Компании возлагают большие надежды на технологию, при этом главными целями называются рост производительности, инновации и экономическая эффективность. Однако компаниям необходимо точно определить конечный результат своих инвестиций в генеративный ИИ, что приводит к более осторожному подходу при запуске внутренних сценариев использования с постепенным переходом к клиентским и другим внешним приложениям.

Согласно опросу Forrester, широкому внедрению генеративного ИИ по-прежнему препятствует отсутствие навыков работы с ИИ (30 % респондентов), трудности с интеграцией технологии с существующей инфраструктурой (28 %), а также проблемы безопасности и конфиденциальности данных (28 %). Прежде чем ускорить внедрение генеративного ИИ, многие организации ждут, пока будет принята соответствующая нормативно-правовая база и появится больше ясности в отношении актуальности базовых моделей для их конкретных отраслей.

 Изображение: Gerard Siderius / Unsplash

Изображение: Gerard Siderius / Unsplash

Следует отметить, что технология генеративного ИИ по-прежнему не лишена недостатков, включая предвзятость и галлюцинации. Области, где уже нашли применение возможностям ИИ, включают повышение производительности сотрудников, поддержку клиентов и разработку ПО. Здесь ИИ, в частности, позволяет автоматизировать повторяющиеся задачи для оптимизации рабочих процессов.

Исходя из данных, полученных в ходе исследования, Forester рекомендовала установить руководящие принципы и политику использования собственного ИИ (BYOAI). Поскольку большая часть ИИ, используемого в компаниях, создаётся сторонними поставщиками, необходимо задать стандарты для оценки генеративного ИИ в решениях поставщиков.

Forrester также рекомендует руководителям сосредоточиться на приложениях, которые уже доказали свою эффективность. Кроме того, поскольку технология генеративного ИИ становится всё более сложной, компании должны подготовиться к обновлению своей стратегии ИИ с учётом новых стандартов и ограничений.

Постоянный URL: http://testsn.3dnews.ru/1101240
20.09.2023 [20:05], Алексей Степин

SambaNova представила ИИ-ускоритель SN40L с памятью HBM3, который в разы быстрее GPU

Бум больших языковых моделей (LLM) неизбежно порождает появление на рынке нового специализированного класса процессоров и ускорителей — и нередко такие решения оказываются эффективнее традиционного подхода с применением GPU. Компания SambaNova Systems, разработчик таких ускорителей и систем на их основе, представила новое, третье поколение ИИ-процессоров под названием SN40L.

Осенью 2022 года компания представила чип SN30 на базе уникальной тайловой архитектуры с программным управлением, уже тогда вполне осознавая тенденцию к увеличению объёмов данных в нейросетях: чип получил 640 Мбайт SRAM-кеша и комплектовался оперативной памятью объёмом 1 Тбайт.

 Источник изображений здесь и далее: SambaNova via EE Times

Источник изображений здесь и далее: SambaNova (via EE Times)

Эта наработка легла и в основу новейшего SN40L. Благодаря переходу от 7-нм техпроцесса TSMC к более совершенному 5-нм разработчикам удалось нарастить количество ядер до 1040, но их архитектура осталась прежней. Впрочем, с учётом реконфигурируемости недостатком это не является.

Чип SN40L состоит из двух больших чиплетов, на которые приходится 520 Мбайт SRAM-кеша, 1,5 Тбайт DDR5 DRAM, а также 64 Гбайт высокоскоростной HBM3. Последняя была добавлена в SN40L в качестве буфера между сверхбыстрой SRAM и относительно медленной DDR. Это должно улучшить показатели чипа при работе в режиме LLM-инференса. Для эффективного использования HBM3 программный стек SambaNova был соответствующим образом доработан.

Тайловая архитектура SambaNova состоит из вычислительных тайлов PCU, SRAM-тайлов PMU, управляющей логики и меш-интерконнекта

По сведениям SambaNova, восьмипроцессорная система на базе SN40L сможет запускать и обслуживать ИИ-модель поистине титанических «габаритов» — с 5 трлн параметров и глубиной запроса более 256к. В описываемой модели речь идёт о наборе экспертных моделей с LLM Llama-2 в качестве своеобразного дирижёра этого оркестра. Архитектура с традиционными GPU потребовала бы для запуска этой же модели 24 сервера с 8 ускорителями каждый; впрочем, модель ускорителей не уточняется.

Как и прежде, сторонним клиентам чипы SN40L и отдельные вычислительные узлы на их основе поставляться не будут. Компания продолжит использовать модель Dataflow-as-a-Service (DaaS) — расширяемую платформу ИИ-сервисов по подписке, включающей в себя услуги по установке оборудования, вводу его в строй и управлению в рамках сервиса. Однако SN40L появится в рамках этой услуги позднее, а дебютирует он в составе облачной службы SambaNova Suite.

Постоянный URL: http://testsn.3dnews.ru/1093339
15.09.2023 [20:52], Алексей Степин

Groq назвала свои ИИ-чипы TSP четырёхлетней давности идеальными для LLM-инференса

Тензорный процессор TSP, разработанный стартапом Groq, был анонсирован ещё осенью 2019 года и его уже нельзя назвать новым. Тем не менее, как сообщает Groq, TSP всё ещё является достаточно мощным решением для инференса больших языковых моделей (LLM).

Теперь Groq позиционирует своё детище как LPU (Language Processing Unit) и продвигает его в качестве идеальной платформы для запуска больших языковых моделей (LLM). Согласно имеющимся данным, в этом качестве четырёхлетний процессор проявляет себя весьма неплохо. Groq открыто хвастается своим преимуществом над GPU, но в последних раундах MLPerf участвовать не желает.

 Источник изображений здесь и далее: Groq

Источник изображений здесь и далее: Groq

В своё время Groq разработала не только сам тензорный процессор, но и дизайн ускорителя на его основе, а также продумала вопрос взаимодействия нескольких TSP в составе вычислительного узла с дальнейшим масштабированием до уровня мини-кластера. Именно для такого кластера и опубликованы свежие данные о производительности Groq в сфере LLM.

Система разработки, содержащая в своём составе 640 процессоров Groq TSP, была успешно использована для запуска модели Meta Llama-2 с 70 млрд параметров. Как показали результаты тестов, модель на данной платформе работает с производительностью 240 токенов в секунду на пользователя. Для адаптации и развёртывания Llama-2, по словам создателей Groq, потребовалось всего несколько дней.

В настоящее время усилия Groq будут сконцентрированы на адаптации имеющейся платформы в сфере LLM-инференса, поскольку данный сектор рынка растёт быстрее, нежели сектор обучения ИИ-моделей. Для LLM-инференса важнее умение эффективно масштабировать потоки небольших блоков (8–16 Кбайт) на большое количество чипов.

В этом Groq TSP превосходит NVIDIA A100: если в сравнении двух серверов выиграет решение NVIDIA, то уже при 40 серверах показатели латентности у Groq TSP будут намного лучше. В распоряжении Groq имеется пара 10-стоечных кластеров с 640 процессорами, один из которых используется для разработки, а второй — в качестве облачной платформы для клиентов Groq в области финансовых услуг. Работает система Groq и в Аргоннской национальной лаборатории (ALCF), где она используется для исследований в области термоядерной энергетики.

В настоящее время Groq TSP производятся на мощностях GlobalFoundries, а упаковка чипов происходит в Канаде, но компания работает над вторым поколением своих процессоров, которое будет производиться уже на заводе Samsung в Техасе.

Параллельно Groq работает над созданием 8-чипового ускорителя на базе TSP первого поколения. Это делается для уплотнения вычислений, а также для более полного использования проприетарного интерконнекта и обхода ограничений, накладываемых шиной PCIe 4.0. Также ведётся дальнейшая оптимизация ПО для кремния первого поколения.

Простота и скорость разработки ПО для платформы Groq TSP объясняется историей создания этого процессора — начала Groq с создания компилятора и лишь затем принялась за проектирование кремния с учётом особенностей этого компилятора. Перекладывание на плечи компилятора всех задач оркестрации вычислений позволило существенно упростить дизайн TSP, а также сделать предсказуемыми показатели производительности и латентности ещё на этапе сборки ПО.

При этом архитектура Groq TSP вообще не предусматривает использования «ядер» (kernels), то есть не требует блоков низкоуровневого кода, предназначенного для общения непосредственно с аппаратной частью. В случае с TSP любая задача разбивается на набор небольших инструкций, реализованных в кремнии и выполняемых непосредственно чипом.

 Компилятор Groq позволяет визуализировать и предсказывать энергопотребление с точностью до наносекунд

Компилятор Groq позволяет визуализировать и предсказывать энергопотребление с точностью до наносекунд. Источник: Groq

Предсказуемость Groq TSP распространяется и на энергопотребление: оно полностью профилируется ещё на этапе компиляции, так что пики и провалы можно спрогнозировать с точностью вплоть до наносекунд. Это позволяет добиться от платформы более надёжного функционирования, избежав так называемой «тихой» порчи данных — сбоев, происходящих в результате резких всплесков энергетических и тепловых параметров кремния.

 Энергопотребление Groq TSP поддаётся тонкой настройке на уровне программного обеспечения. Источник: Groq

Энергопотребление Groq TSP поддаётся тонкой настройке на уровне программного обеспечения. Источник: Groq

Что касается будущего LLM-инференса, то Groq считает, что этой отрасли есть, куда расти. В настоящее время LLM дают ответ на запрос сразу, и затем пользователи могут уточнить его в последующих итерациях, но в будущем они начнут «рефлексировать» — то есть, «продумывать» несколько вариантов одновременно, используя совокупный результат для более точного «вывода» и ответа. Разумеется, такой механизм потребует больших вычислительных мощностей, и здесь масштабируемая и предсказуемая архитектура Groq TSP может прийтись как нельзя более к месту.

Постоянный URL: http://testsn.3dnews.ru/1093119

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;