NVIDIA представила свою новітню мультимодальну мовну модель NVLM 1.0, яка не тільки чудово справляється з візуальними завданнями, але й може інтерпретувати картинки та рукописний текст. У тестах NVLM 1.0 перевершила GPT-4o у розпізнаванні тексту на зображеннях, продемонструвавши видатні результати в математиці, лише трохи поступившись Claude 3.5. Модель також може пояснювати сенс мемів та інших комічних ситуацій, зображених на картинках або описаних текстом.
Компанія випустила три версії моделі: NVLM-D, NVLM-X та NVLM-H. NVLM-D використовує попередньо навчений енкодер для зображень і споживає менше ресурсів графічного адаптера, NVLM-X оптимізована для роботи із зображеннями у високій роздільній здатності, а NVLM-H поєднує риси обох попередніх моделей.
Для більш детальної інформації та доступу до коду моделі можна перейти на сайт NVIDIA та GitHub.
Потыкаться было бы любопытно, но только какой толк от кода🤷♂️для обычного юзверя.