AI Esperanto: Большие языковые модели читают данные с помощью NVIDIA Triton

Жюльен Салинас носит много шляп. Он предприниматель, разработчик программного обеспечения и, до недавнего времени, добровольный пожарный в своей горной деревне в часе езды от Гренобля, технологического центра на юго-востоке Франции.

Он развивает двухлетний стартап NLP Cloud, который уже приносит прибыль, насчитывает более десятка сотрудников и обслуживает клиентов по всему миру. Это одна из многих компаний по всему миру, использующих ПО NVIDIA для развертывания самых сложных и мощных моделей ИИ.

NLP Cloud - это программный сервис для работы с текстовыми данными на основе ИИ. Крупная европейская авиакомпания использует его для обобщения интернет-новостей для своих сотрудников. Небольшая медицинская компания использует его для анализа запросов пациентов на пополнение рецепта. Онлайн-приложение позволяет детям общаться с любимыми героями мультфильмов.

Большие языковые модели говорят о многом

Все это - часть магии обработки естественного языка (NLP), популярной формы искусственного интеллекта, породившей крупнейшие на планете нейронные сети, называемые большими языковыми моделями. Обученные на огромных массивах данных на мощных системах, LLM могут выполнять самые разные задачи, такие как распознавание и генерация текста с удивительной точностью.

Сегодня NLP Cloud использует около 25 LLM, самая большая из которых имеет 20 миллиардов параметров, что является ключевым показателем сложности модели. А теперь в нем внедряется BLOOM, LLM с огромным количеством параметров - 176 миллиардов.

Эффективное использование этих массивных моделей в производстве с помощью нескольких облачных сервисов - тяжелая работа. Поэтому Салинас обратился к NVIDIA Triton Inference Server.

Высокая пропускная способность, низкая задержка

"Очень быстро главной проблемой, с которой мы столкнулись, стала стоимость сервера", - сказал Салинас, гордясь тем, что его самофинансируемый стартап до сих пор не получил никакой внешней поддержки.

"Triton оказался отличным способом полностью использовать имеющиеся в нашем распоряжении графические процессоры", - сказал он.

Например, графические процессоры NVIDIA A100 Tensor Core могут обрабатывать до 10 запросов одновременно - в два раза больше, чем у альтернативного ПО - благодаря FasterTransformer, части Triton, которая автоматизирует сложные задания, такие как разделение моделей на множество GPU.

FasterTransformer также помогает NLP Cloud распределять задания, требующие больше памяти, между несколькими GPU NVIDIA T4, сокращая время отклика на задание.

Клиенты, которым требуется самое быстрое время отклика, могут обработать 50 лексем - элементов текста, таких как слова или знаки препинания - всего за полсекунды с Triton на GPU A100, что составляет около трети времени отклика без Triton.

"Это очень круто", - сказал Салинас, который в своем личном блоге сделал обзор десятков программных инструментов.

Путешествие по пользователям Тритона

По всему миру другие стартапы и уже состоявшиеся гиганты используют Triton, чтобы извлечь максимальную пользу из LLM.

Служба Translate компании Microsoft помогла работникам службы спасения понять гаитянский креольский язык во время ликвидации последствий землетрясения магнитудой 7,0. Это был один из многих примеров использования сервиса, который получил 27-кратное ускорение при использовании Triton для выполнения вычислений на моделях с 5 миллиардами параметров.

NLP-провайдер Cohere был основан одним из исследователей ИИ, написавшим основополагающую статью, в которой были определены трансформационные модели. С помощью Triton компания достигает 4-кратного ускорения вывода на своих пользовательских LLM, благодаря чему пользователи чат-ботов для поддержки клиентов, например, получают быстрые ответы на свои запросы.

NLP Cloud и Cohere - одни из многих участников программы NVIDIA Inception, которая развивает передовые стартапы. Несколько других стартапов программы Inception также используют Triton для ИИ выводов на LLM.

Токийская компания rinna создала чат-ботов, которыми пользуются миллионы людей в Японии, а также инструменты, позволяющие разработчикам создавать пользовательские чат-боты и персонажей, управляемых ИИ. Triton помог компании достичь задержки вычислений менее двух секунд на графических процессорах.

В Тель-Авиве компания Tabnine управляет сервисом, который автоматизирует до 30% кода, написанного миллионом разработчиков по всему миру (см. демонстрацию ниже). Сервис использует несколько LLM на графических процессорах A100 с Triton для работы с более чем 20 языками программирования и 15 редакторами кода.

Twitter пользуется услугой LLM компании Writer, расположенной в Сан-Франциско. Он гарантирует, что сотрудники социальной сети пишут голосом, соответствующим руководству по стилю компании. Служба Writer достигает в 3 раза меньшей задержки и до 4 раз большей пропускной способности с помощью Triton по сравнению с предыдущим программным обеспечением.

Если вы хотите придать лицо этим словам, компания Inception member Ex-human, расположенная недалеко от Writer, помогает пользователям создавать реалистичные аватары для игр, чат-ботов и приложений виртуальной реальности. С помощью Triton он обеспечивает время отклика менее секунды на LLM с 6 миллиардами параметров при сокращении потребления памяти GPU на треть.

Полнофункциональная платформа

Вернувшись во Францию, NLP Cloud теперь использует другие элементы платформы NVIDIA AI.

Для выводов в моделях, работающих на одном GPU, используется программное обеспечение NVIDIA TensorRT для минимизации задержек. "С ним мы получаем молниеносную производительность, и задержки действительно снижаются", - сказал Салинас.

Компания также начала подготовку пользовательских версий LLM для поддержки большего количества языков и повышения эффективности. Для этой работы она использует NVIDIA Nemo Megatron, сквозную структуру для обучения и развертывания LLM с триллионами параметров.

35-летний Салинас обладает энергией 20-летнего парня, который занимается кодированием и развитием своего бизнеса. Он рассказывает о планах по созданию частной инфраструктуры в дополнение к четырем общедоступным облачным сервисам, которые использует стартап, а также о расширении сферы применения LLM для обработки речи и преобразования текста в изображения для решения таких задач, как семантический поиск.

"Мне всегда нравилось кодить, но быть хорошим разработчиком недостаточно: нужно понимать потребности клиентов", - говорит Салинас, который в прошлом году разместил код на GitHub почти 200 раз.

Написать комментарий