NVIDIA анонсувала нейромережу NVLM 1.0, яка здатна аналізувати та інтерпретувати зображення
NVIDIA представила свою новітню мультимодальну мовну модель NVLM 1.0, яка не тільки чудово справляється з візуальними завданнями, але й може інтерпретувати картинки та рукописний текст. У тестах NVLM 1.0 перевершила GPT-4o у розпізнаванні тексту на зображеннях, продемонструвавши видатні результати в математиці, лише трохи поступившись Claude 3.5. Модель також може пояснювати сенс мемів та інших комічних ситуацій, зображених на картинках або описаних текстом.
Компанія випустила три версії моделі: NVLM-D, NVLM-X та NVLM-H. NVLM-D використовує попередньо навчений енкодер для зображень і споживає менше ресурсів графічного адаптера, NVLM-X оптимізована для роботи із зображеннями у високій роздільній здатності, а NVLM-H поєднує риси обох попередніх моделей.
Для більш детальної інформації та доступу до коду моделі можна перейти на сайт NVIDIA та GitHub.
-
Adobe показала генерацію відео за допомогою нейромережі Firefly: реліз цього року
-
ШІ показав, як би виглядала індійська версія «Гаррі Поттера». Волан-де-Морт став ще страшнішим
-
ШІ повністю навчився обходити reCAPTCHAv2
-
Вийшла нова версія нейромережі для генерації відео Gen-3
-
NVIDIA готує до дебюту GeForce RTX 5090 і 5080 на CES 2025