Китайська корпорація Alibaba представила одразу дві нові нейромережеві моделі, спрямовані на спрощення роботи з візуальним контентом. Йдеться про фоторедактор Qwen-Image-Edit та модель для генерації відео Wan 2.5. Обидва інструменти доступні для безкоштовного використання, що робить потужні функції штучного інтелекту доступними широкій аудиторії. Новинки позиціонуються як прямі конкуренти останнім розробкам Google. Фоторедактор порівнюють з Nano Banana, а відеомодель — з Veo 3.
При цьому головна особливість фоторедактора — робота з кількома зображеннями одночасно. Користувач може, наприклад, «перенести» людину з одного фото в обстановку іншого, зберігши при цьому її зовнішність у деталях, як і всі деталі зображення, на яке переноситься персонаж. Система вміє коректно об'єднувати об'єкти, сцени і навіть портретні стилі. Більше того, за допомогою текстових запитів у Qwen-Image-Edit можна змінювати розташування предметів у кадрі, додавати нові елементи або створювати рекламні банери, маючи лише фото товару. Інструмент також дозволяє редагувати текст на зображенні, змінюючи шрифт, колір і розмір, а спробувати весь функціонал можна безкоштовно в чат-боті Qwen, вибравши опцію «Image Edit».
Модель Wan 2.5 генерує короткі відео до 10 секунд, при цьому в якості Full HD, при цьому творці приділили увагу кінематографічності: штучний інтелект створює кадри з просунутою роботою зі світлом і тінню та експозицією кадру. В якості вихідних даних для відео можна використовувати не лише текст, але й зображення, а також аудіодоріжки для створення певної атмосфери.
Доступна також і функція редагування готових роликів, хоч і не покадрово, але все ж таки детально дозволяючи змінювати безліч елементів. Безкоштовна версія Wan 2.5 має обмеження: наприклад, для генерації можна завантажити лише один вихідний файл, а на результат буде нанесено водяний знак, але при наявності підписки Pro, яка прибирає обмеження і чергу на обробку, однак її вартість знаходиться в районі 400 рублів на місяць. Анонс цих інструментів посилює конкуренцію на ринку генеративного ШІ, де великі технологічні компанії активно борються за увагу як звичайних користувачів, так і професіоналів.
В той час як одні компанії, як Alibaba, фокусуються на створенні доступних мультимедійних інструментів, інші досліджують більш нішеві, але технологічно складні напрямки, так Tencent представила модель HunyuanWorld-Voyager, яка перетворює одне статичне зображення в відео з ефектом руху камери. Однак на відміну від масових рішень, подібні розробки поки залишаються уделом професіоналів через екстремальні вимоги до апаратного забезпечення та обмежень у ліцензії.