Google представила мультимодальний ІІ Gemini 2.0 з підтримкою відео та звуку

11 грудня Google анонсувала запуск нової моделі штучного інтелекту Gemini 2.0, яка обіцяє стати важливим кроком в еволюції технологій ШІ. Gemini 2.0 представляє собою мультимодальну систему, яка може обробляти зображення, відео та аудіо, а також генерувати їх. Нова модель значно перевершує попередницю 1.5 за швидкістю реагування та продуктивністю, у два рази швидше відповідаючи на запити.

Однією з ключових особливостей Gemini 2.0 є підтримка мультимодальності — можливість одночасно працювати з текстом, зображеннями та звуком. Модель може не лише розпізнавати, але й створювати зображення, комбінуючи їх з текстовими запитами. Це відкриває нові перспективи для розробки ботів, які зможуть виконувати більш складні завдання на основі голосу та зображень.

Крім того, Gemini 2.0 підтримує багатомовні функції перетворення тексту в мову та може інтегрувати власні інструменти, такі як пошукова система Google, а також можливості для роботи з кастомними функціями. Gemini 2.0 буде інтегрований у різні продукти Google, включаючи пошукову систему, Workspace та інші сервіси. Gemini 2.0 також оснащений новими можливостями в дослідницьких завданнях з функцією Deep Research, яка використовує потужність ШІ для аналізу та підготовки складних тем. Очікується, що доступ до нової моделі стане доступним для всіх користувачів у січні 2025 року.

☀️ Assassin’s Creed: Shadows станет «началом новой эры» — уверяют разработчики
Допис був перекладений Показати оригінал (RU)
+1
Коментарі 3