Статті Залізо та технології Наскільки розумний «лякаюче розумний» чат-бот Ілона Маска?

Наскільки розумний «лякаюче розумний» чат-бот Ілона Маска?

18 лютого 2025, 18:45

xAI представила нову мовну модель Grok 3, яку засновник компанії Ілон Маск (Elon Musk) назвав «найрозумнішим ШІ на Землі». Творці чат-бота заявили, що нова версія значно перевершує попередню: вона працює з більшим обсягом навчальних даних, і їй доступні нові механізми типу самоусунення помилок. Демоверсія Grok 3 вийшла вранці, і відразу з'явилися перші відгуки.

Що нового

Ключова перевага Grok 3 — доступ до збільшених обчислювальних ресурсів. Чат-бот навчається за допомогою суперкомп'ютера Colossus: на перших етапах процесу його творці залучили 100 000 графічних карт NVIDIA H100, а потім кількість графічних адаптерів подвоїли. У майбутньому обчислювальну потужність планують збільшити ще в п'ять разів.

У Grok 3 додані вбудовані механізми самоусунення помилок. ШІ аналізує власні відповіді, порівнює їх з еталонами, а потім вносить корективи. Що цікаво: чат-бот отримує «нагороди» за точні відповіді і «штрафи» за так звані «галюцинації» — некоректну або вигадану інформацію.

Якщо вірити заявам представників xAI, то Grok 3 розумніший за інші моделі в математичних задачах, природничих науках і програмуванні. Щоб оцінити якість відповідей, використовувалися «сліпі» тести, коли користувачі не знали, який саме чат-бот відповідає.

Статьи про нейросети

На презентації Grok 3 також продемонстрували Deep Search — пошуковий агент «наступного покоління», здатний швидко знаходити інформацію в Інтернеті та аналізувати її. Схожа функція давно є й у конкурентів, але xAI запевняє, що Deep Search точніший.

Крім того, у Grok 3 також скоро додадуть голосовий інтерфейс, щоб з чат-ботом можна було спілкуватися як з живим співрозмовником. Його голос нібито здасться користувачам природнішим і емоційнішим, ніж у аналогів.

Используете ли вы искусственный интеллект для работы или учёбы?

Да, регулярно

Да, но только для особо сложных задач

Не использую из принципа

Хотел бы использовать, но в моей сфере ИИ пока никак не может помочь

Результати

Як справи на практиці

Користувачам соцмережі X (визнана екстремістською і заборонена в РФ) новий чат-бот доступний за умови оформлення підписки X Premium+ за $50 на місяць. Ранніх відгуків про Grok 3 поки не особливо багато, але є кілька цікавих.

Так, користувач під ніком Penny2x розповів, що зробив за допомогою нової версії ШІ цілу повноцінну гру:

Grok 3 тільки що вийшов. Ви не повірите, але я вже встиг створити гру.

(Я отримав ранній доступ СЬОГОДНІ ВРАНЦІ).

Ця гра на 100% створена Grok'ом: я лише сказав йому, що хочу отримати, і розмістив згенерований код у потрібному місці.

Я продовжую просити його вносити зміни, а він знову і знову видає гру в одному файлі, який я можу просто помістити на робочий стіл і запустити.

Світ ігор змінюється назавжди. Останнім часом я намагався працювати з ШІ від усіх великих розробників, щоб зрозуміти, що мені подобається найбільше, і Grok явно один з лідерів. У мене немає офіційних бенчмарків і поки не налаштований API, так що це не зовсім мій звичний робочий процес, але за відчуттями Grok ні в чому не поступається Sonet, 4o чи будь-яким іншим.

В найближчі дні я спробую налаштувати його під свій робочий процес в NVIM і зайнятися реальними завданнями.

Це неймовірно. Ми живемо в майбутньому, де кожен тепер може стати розробником

Але ще цікавіше, що про Grok 3 думає один з співзасновників OpenAI Андрій Карпатий (Andrej Karpathy). Він також встиг протестувати нову мовну модель. За словами Карпатого, в деяких питаннях чат-бот не поступається топовим конкурентам:

…Grok 3, судячи з усього, використовує передовий механізм «мислення» (кнопка Think), і відразу «з коробки» відмінно справився з завданням по Settlers of Catan:

«Створи веб-сторінку настільної гри, на якій відображається гекс-сітка, аналогічна тій, що в грі Settlers of Catan. Кожен гекс пронумерований від 1 до N, де N — це загальна кількість гексів. Зроби її універсальною, щоб можна було змінювати число “кілець” за допомогою повзунка. Наприклад, в Catan радіус дорівнює 3 гексам. Однієї HTML-сторінки буде достатньо».

Лише небагато моделей стабільно правильно вирішують таке завдання. Просунуті «мислячі» моделі від OpenAI (наприклад, o1-pro за $200 на місяць) з цим також справляються, а от DeepSeek-R1, Gemini 2.0 Flash Thinking і Claude ні

Андрій Карпатий також оцінив цілеспрямованість Grok 3:

Мені подобається, що модель намагається вирішити гіпотезу Рімана за запитом, як і DeepSeek-R1, тоді як багато інших моделей (o1-pro, Claude, Gemini 2.0 Flash Thinking) просто здаються одразу і заявляють, що це велика нерозв'язана проблема. В кінці мені довелося її зупинити, тому що я почав відчувати до неї жаль, але вона проявила сміливість — хто знає, може, колись...

Не обійшлося, правда, і без недоліків. Питання викликав пошуковий агент Deep Search:

…модель, схоже, не любить посилатися на X як на джерело за замовчуванням (хоча при явному вказуванні вона це робить). Пару раз я помітив, що вона «галюцинує» і вигадує неіснуючі URL. Іноді вона видає нібито факти, які, на мій погляд, невірні, і не вказує на них джерел (очевидно, їх просто немає).

Підсумовуючи, Андрій Карпатий зазначив, що за першими враженнями Grok 3 наблизився до рівня передових моделей від OpenAI типу o1-pro за 200 доларів на місяць і навіть трохи перевершує DeepSeek-R1 і Gemini 2.0 Flash Thinking. Це з урахуванням того, що команда почала розробку ШІ з нуля приблизно рік тому. Темпи вражають. Однак необхідно провести більш комплексні тести, перш ніж стверджувати, чи виправдовує чат-бот титул «найрозумнішого».

Остороги через упередженість

Не секрет, що Ілон Маск активно бере участь у політичному житті США і відкрито висловлює свої погляди. Деякі користувачі Інтернету побоюються, що Grok 3 також буде просувати певні наративи.

Ці переживання виникли не на порожньому місці: Маск поділився скріншотом, на якому чат-бот критикує одне новинне медіа, але при цьому хвалить X як найнадійніше джерело інформації. Це при тому, що Grok 3 позиціонується як продукт з мінімальною цензурою. Небагато людей дотримуються думки, що необхідно уникати подібної упередженості: ІІ має бути нейтральним у судженнях.

***

Як би там не було, вихід ще однієї багатообіцяючої мовної моделі — чергове важливе подія в безперервній гонці. Чим вища конкуренція, тим швидше рухається прогрес.

А що про Grok 3 думаєте ви? Розкажіть у коментарях.

Как вы относитесь к стремительному развитию ИИ?

Позитивно — меня радует появление новых технологий

С небольшим опасением: надеюсь, люди будут использовать ИИ только для благих целей

Я смотрел «Терминатора», поэтому готовлюсь к худшему

Результати

Пост був перекладений Показати оригінал (RU)

PC Статті Залізо та технології нейромережі штучний інтелект

Про автора

Fazil Dzhyndzholiia

Редактор і автор контенту

Я пишу про ігри з 2013 року. Я автор сотень статей, рецензій, прев'ю та сценаріїв. В даний час я граю переважно на ПК, PlayStation 5 та Nintendo Switch 2. Мої улюблені жанри — survival horror, souls-like та RPG. Улюблені ігри: Bloodborne та Vampire: The Masquerade — Bloodlines. Улюблена серія: Resident Evil. Для мене ігровий процес є ключовим — хороша історія не врятує нудну механіку.

...Розгорнути

Коментарі4