Новини Залізо та технології Нова модель DeepSeek V3-0324 кидає виклик GPT-4o та Claude-3.5

Нова модель DeepSeek V3-0324 кидає виклик GPT-4o та Claude-3.5

25 березня 2025, 11:50

Компанія DeepSeek AI представила масштабне оновлення своєї флагманської моделі — DeepSeek V3-0324. Модель, доступна на GitHub та Hugging Face, не тільки наздоганяє, але й перевершує за рядом параметрів закриті аналоги на кшталт GPT-4o та Claude-3.5-Sonnet.

В основі оновлення — удосконалена архітектура Mixture-of-Experts (MoE), де 671 млрд параметрів динамічно активуються порціями по 37 млрд на токен. Технологія Multi-head Latent Attention скорочує споживання пам'яті на 60%, а Multi-Token Prediction прискорює генерацію тексту в 1.8 рази. Модель «прокачали» на датасеті, що включає математичні задачі, код на 15 мовах і наукові роботи. Навчання тривало 2.788 млн GPU-годин на кластерах H800, що еквівалентно 318 рокам безперервної роботи одного прискорювача. Результат: 89.3% точності в розв'язанні шкільних математичних задач (GSM8K) і 65.2% успіху в генерації коду (HumanEval) — на 10-15% вище попередніх open-source рішень.

Оновлення принесло несподівані поліпшення:

Генерація фронтенд-коду тепер створює візуально привабливі інтерфейси;
Якість текстів зрівнялося з людським рівнем у довгих есе;
Точність виклику функцій (function calling) досягла 92%, усуваючи головний біль попередніх версій.

Хоча офіційний опис апдейту поки не опубліковано, але його вага складає 700 ГБ. Модель доступна через API з унікальною системою «температурної калібровки»: стандартний параметр 1.0 автоматично перетворюється в оптимальні 0.3. Для локального запуску розробники пропонують модифіковані шаблони промптів з підтримкою пошуку в мережі та аналізу файлів — функція, раніше доступна лише в преміальних комерційних рішеннях.

Експерти прогнозують, що DeepSeek V3-0324 може перевернути ринок ІІ-асистентів для програмування та аналізу даних. При цьому її відкритість під MIT-ліцензією відкриває шлях для кастомізації — від автоматизації бізнес-процесів до створення вузькоспеціалізованих наукових асистентів.

🥳 Мужики, общий сбор: в Steam вышла новая игра про Барби

Пост був перекладений Показати оригінал (RU)

Новини Залізо та технології нейромережі штучний інтелект

Про автора

Arkadiy Andrienko

Автор статей і новин

Як технічний журналіст VGTimes, я з однаковим задоволенням обговорюю новітні графічні процесори та заглиблююсь у тонкощі класичних RPG. Починаючи з 2018 року пишу про ігри та обладнання, мій досвід роботи в галузі звукорежисури дозволив мені добре розбиратися в нюансах аудіотехнологій, і я завжди знаходжусь у пошуку чогось нового в галузі ігрового обладнання. Коли я не пишу про технології, то, швидше за все, я досліджую постапокаліптичні пустки в Fallout, керую колонією в RimWorld або командую арміями в Hearts of Iron IV. Для мене ігри — це більше, ніж просто хобі — це пристрасть, яка підживлює мій творчий потенціал і підтримує зв'язок з постійно розвиваючим світом технологій.

...Розгорнути

Коментарі5