Meta представила Llama 3.2 — відкритий ІІ з підтримкою зображень і тексту
Компанія Meta анонсувала вихід нової версії своєї мовної моделі Llama 3.2, всього через два місяці після релізу Llama 3.1. Це оновлення знаменує собою перший відкритий штучний інтелект, здатний обробляти як текст, так і зображення.
За допомогою Llama 3.2 розробники зможуть створювати інноваційні застосунки, включаючи платформи доповненої реальності з розпізнаванням відео в реальному часі, візуальні пошукові системи, які сортують зображення за вмістом, а також системи аналізу документів, здатні готувати зведення з довгих текстів. Meta стверджує, що запуск нової моделі буде простим — достатньо додати підтримку мультимодальності та налагодити взаємодію з зображеннями.
Незважаючи на те, що OpenAI та Google вже представили свої мультимодальні моделі минулого року, Meta, схоже, прагне наздогнати конкурентів. У новій версії передбачені дві моделі, що працюють із зображеннями (з 11 і 90 млрд параметрів), а також дві полегшені текстові моделі (з 1 і 3 млрд параметрів), розраховані на використання на мобільних пристроях. Водночас попередня версія, Llama 3.1, з її 405 млрд параметрів, продовжує залишатися сильним гравцем на ринку генерації тексту.