Статті Жахи нейронних мереж. Частина 2: На яких ваших даних навчаються нейромережі

Жахи нейронних мереж. Частина 2: На яких ваших даних навчаються нейромережі

ithitym
Читати у повній версії

ШІ міцно увійшов у наше життя. З його допомогою ми шукаємо інформацію, намагаємося згадати забуті твори, генеруємо картинки або просто спілкуємося. А ви замислювались, як він став таким розумним? У цій статті розглянемо, звідки вони беруть дані і які наслідки це має.

Як випливає з назви, це друга частина. Якщо ще не бачили першу, рекомендую з нею ознайомитися. Нагадаю, що в ній ми поговорили про типи ліцензій, звідки беруться дані для навчання ШІ, кому належить право на згенерований контент і про цікавий випадок з безправною мавпою. Тепер же розглянемо, які ваші дані збирають такі гіганти, як Google і OpenAI, для навчання нейромереж і чим це може загрожувати.

Передмова

Промт був «Суд між художниками та нейромережами». Примітно, що художник всього один, а нейромереж безліч

Натрапив на цікаве судове розглядання, відоме як «Andersen v. Stability AI», в якому художники (включаючи і Сару Андерсен) подали позов проти Stability AI, Midjourney і DeviantArt (в процесі деякі нейронки прибиралися, деякі додавалися). Оскільки тяжби ще тривають, не бачив сенсу сильно на цьому акцентувати увагу. Але якщо цікаво, то з усіма юридичними документами і коротким описом усіх важливих поворотів у цій справі можете ознайомитися тут.

Зображення, яке було згенеровано Stability AI наприкінці 2022 року. Воно не ідеальне, але загальний стиль з коміксами Сари прослідковується

І ще одне невеличке (дійсно невеличке) відступлення.

Дехто може сказати: «Піратство було завжди! Раніше також копіювали стиль авторів і продавали втридорога», на що відповідаю. Так, завжди були люди, які копіювали стиль іншого автора, але вони також були авторами. Коли копіює інша людина, вона все одно вносить крупиці своєї сутності, будь то довжина волосся, зачіска або ширина ліній (як у випадку з карикатурами на основі робіт Сари Андерсен). Інколи, навіть написавши ідеальні підробки, вона може запам'ятатися в історії. Як, наприклад, Ван Мегерен.

Але ШІ не може свідомо створити щось. Це просто алгоритм. Замкнений робот у китайській кімнаті. Він не знає жодної мови, окрім математичної. Отримує в віконці запит і відправляє на вихід результат обчислень, який отримався внаслідок заплутаних інструкцій. Все. Він не може по-справжньому думати, не може відчувати. Не може свої відчуття передати в тексті чи на полотні. Це інструмент, але ніяк не творець (для більш детального розбору процесу навчання ШІ дуже раджу ролик Шарифова на цю тему).

Тепер, коли з цим розібралися, можемо нарешті почати статтю.

Велике Число стежить за тобою

Поговоримо про те, як компанії використовують наші дані для навчання своїх моделей. Почнемо, мабуть, з Google.

Станом на 2024 рік близько 70% людей, які володіють смартфонами, надають перевагу Android-пристроям. Ми зберігаємо паролі в акаунті Гугл, ставимо маршрути на Гугл Картах, дивимося і коментуємо відео на Ютубі. Навіть для позначення пошуку через інтернет придумали новий термін — «гуглити». Настільки його сервіси «вплелися» в наше життя. Google має одну з найбільш обширних баз даних про нас. До речі, можна запросити експорт своїх даних, щоб дізнатися, скільки терабайтів інформації про вас накопичилося у техно-гіганта.

Але як компанія ними розпоряджається? Про це можна прочитати в Ліцензійній угоді та Політиці конфіденційності — купі тексту, з якою всі погоджуються, не читаючи. Навіть факт використання сервісів «Гугл» означає згоду з написаним у цьому документі.

Ось що написано в Політиці конфіденційності (зміг знайти потрібні пункти, тільки запросив PDF-версію файлу).

Ми можемо збирати інформацію, що знаходиться в публічному доступі, щоб
застосовувати її при навчанні моделей штучного інтелекту від Google і
розвивати такі сервіси та функції, як Google Перекладач, додатки Gemini і
можливості Google Cloud, пов'язані з використанням AI. Якщо інформація про
компанію відображається на сайті, ми можемо індексувати її і показувати в
сервісах Google.
— Політика конфіденційності

Яка саме інформація знаходиться в публічному доступі? Наприклад, відео та коментарі на «Ютубі» (які мають відкритий доступ), відгуки на «Гугл Картах» і «Плей Маркеті», записи в блозі і т. д. Іншими словами, все, що не приколочено цвяхами приватності. Подивитися, які сервіси Google ви використовували і в якому обсязі, можна тут. За посиланням можна знайти список усіх коли-небудь встановлених додатків, відгуки і збережені місця на Картах, листи на пошті, фото, завдання, дані на «Гугл Диску» та інше. Я, наприклад, з подивом дізнався, що понад 6 років тому робив пару записів у Blogger (навіть встиг забути, що цей сервіс існує).

ШІ наочно показує, як дані перетворюються в мозок нейромережі. Ну або в дерево

Якщо ви подивилися і жахнулися, настійно рекомендую витратити 10 хвилин на зміни налаштувань конфіденційності, щоб що витікає водоспад ваших даних перетворився в невеличкий струмочок. Повністю перекрити «кран» можна, тільки якщо не користуватися нічим, де є хоч рядок коду, що належить Google. А в ідеалі — пересісти на луковицю (хто зрозумів, той зрозумів).

Не спійманий — не злодій

Тепер перейдемо до OpenAI. В останній час багато хто почав використовувати продукти цієї компанії для своїх цілей. Одні сприймають її як зручну заміну Гуглу, іншим подобається з нею спілкуватися, а третім — створювати картинки, подібні цій.

Так, використовував картинку з попереднього поста. І що ви мені зробите? Я в іншому місті живу

І не дивно, що вона отримала таку популярність. Адже видача ChatGPT, на особисту думку, в рази краща, ніж у Copilot. Але як вона цього досягла, адже повинні були закінчитись вільні шматочки інформації, розкидані по інтернету. А вони і закінчились. Принаймні, авторитетні та англомовні. Тому що, незважаючи на незліченну кількість користувацького контенту на Reddit або X, компанії сковані всякими законами та іншими папірцями. Завдяки цьому стримуючому фактору, вони не можуть безцеремонно забрати ваш арт для навчання нейросеті (за винятком тих випадків, коли можуть). Тому вони йдуть на різні хитрощі та шукають лазівки в законах.

Про це заявило видання The New York Times у своєму розслідуванні.

У ньому також йдеться, що одна з великих компаній радилися про збір робіт, захищених авторським правом. Вони розглядали можливість використання даних з усього інтернету, навіть якщо це може призвести до судових позовів. Адже, за їхніми словами, переговори про ліцензії з видавцями, художниками, музикантами та новинними виданнями займуть занадто багато часу.

Але от що багато часу не зайняло, так це партнерство OpenAI та Google з Reddit. Ресурс надає контент через своє API, а ті, у свою чергу, вносять ІІ-фішки на платформу. Однією з них є Reddit Answers: чат-бот, покликаний полегшити пошук інформації на платформі.

У статті The New York Times також розповідається, як OpenAI за допомогою створеного інструменту розпізнавання мови транскрибувала аудіо з більш ніж мільйона годин відео з «Ютуба» (це підтвердили різні джерела всередині компанії). Розшифрований текст вона «скорміла» GPT-4. До слова, після цього Google змінив умови, і тепер можна самим давати згоду на навчання сторонніх нейросетей за допомогою ваших відео. За замовчуванням все заборонено, але якщо хочете дозволити, то дотримуйтесь цієї офіційної інструкції.

За деякими відомостями, Google не зупинила OpenAI, адже сама використовувала розшифровки відео для навчання своєї моделі.

Саме видання також постраждало від дій нейросеті. Так, 27 грудня 2023 року The New York Times подала скаргу проти Microsoft та OpenAI, стверджуючи, що мільйони авторських прав були прямо чи опосередковано порушені через включення їх статей у бази даних, на яких були навчено ChatGPT та Microsoft Copilot. Пізніше справу об'єднали з позовами від інших медіа, включаючи Center for Investigative Reporting. Судові слухання досі тривають, тож поки рано робити висновки. Ознайомитися з усіма етапами розглядів та документацією можна за посиланням.

Постраждали не тільки контентмейкери, але й самі користувачі сервісів OpenAI. Так, у минулому році компанія була оштрафована на 15 000 000 євро за використання персональних даних користувачів для навчання ChatGPT без повідомлення та дозволу самих користувачів, повідомляє видання Reuters.

Горщик, не їж!

Ви могли запитати: «А хіба не забагато даних вони поглинають? Коли вони нарешті „наїдяться“ інформацією і перестануть її поглинати?». Відповідь: ніколи. Принаймні, самі компанії не мають наміру знижувати оберти.

У 2020 році Джаред Каплан, фізик-теоретик з Університету Джона Хопкінса, опублікував новаторську статтю «Scaling Laws for Neural Language Models», яка викликала великий інтерес. У ній він детально досліджував, як від розміру моделі та обчислювальних потужностей залежить кінцевий результат. Якщо коротко: чим більше — тим краще. Чим більше інформації вбирають моделі — тим краще у них висновок.

Саме з 2020 року і почався бум нейромереж (в розслідуванні NYTimes, наведеному вище, є інфографіка, рекомендую ознайомитися). Тому після вичерпання перевірених і достовірних джерел всі почали хапатися за будь-які дані, вироблені людьми.

Висновки

Нейромережі навчаються на ваших відео, коментарях, постах і навіть фото, якщо власник майданчика, де все це розміщено, не проти співпраці з ними. Якщо не хочете, щоб ваші дані були скормлені ШІ, — читайте ліцензійну угоду в сервісах, в яких публікуєте контент (але і це не завжди рятує).

У наступній статті розберемо, чому небезпечно ділитися з чат-ботом конфіденційною інформацією і яку загрозу це несе.

Післяслово

Сподіваюся, що в наступній серії вже доберуся до самого цікавого. А то приступаю до написання і знаходжу багато матеріалу по темі, від чого вступний підзаголовок розростається в повноцінний пост. Спробував більш коротко про все розповісти, але не впевнений, чи вийшло цікаво. Якщо дочитали до цього моменту, поділіться думкою про статтю. Про що б ви хотіли, щоб я розповів, або де я чого недогледів. Будь-яка інформація ззовні буде важлива. Ну а на цьому я з вами прощаюсь. До наступної статті!

    Допис створений користувачем 

    Кожен може створювати пости на VGTimes, це дуже просто - спробуйте!
    Коментарі17
    Залишити коментар
    6 місяців
    Эта часть меньше предыдущей, но тоже интересна. Постарался больше юмора добавить, вроде получилось неплохо
    Відповісти
    Коментар приховано
    6 місяців
    Спасибо. Хоть эта часть и слабее первой, следующие обещают быть в разы интереснее, потому что приближаюсь к тому, ради чего всё и затевалось
    Відповісти
    6 місяців
    статья напомнила одного мандарина
    ..точно не с помошью ии писана?
    Відповісти
    6 місяців
    Точно. ИИ использовал лишь чтоб найти интересные источники и уже по ним смотрел. А, ну и для нейромазни тоже. Может проблема в том, что англоязычные источники читал через встроенный переводчик в Эдже, поэтому пару фраз которые вставил из переведённого текста (всё остальное пропущено через внутричерепную нейросеть), могут выглядеть синтетически. Например один из немногих оборотов речи которые с англоязычных статей позаимствованы, это "миллионы авторских прав были прямо или косвенно нарушены из-за включения"
    Відповісти
    6 місяців
    поэтому "словцы" нейронки и не проваривают, по ним легче отличить люд
    но скоро весна и обострения станут чаще, такие расширенные статьи опасны
    Відповісти
    6 місяців
    Спрос рождает предложение, вы сами вокруг себя создаёте информационный шум. Или процитирую " Вы рабы своих вещей "
    Відповісти
    6 місяців
    Уже вторая статья серии, и ни в одной ни одного ужаса))))))

    Только кликбейтные заголовки))))
    Відповісти
    6 місяців
    Хех, почему же? Как раз наоборот
    Я и начал с лайтовых, чтоб медленно погрузить читателя в тему. А то если с порога начну показывать сложные графики и про шифрования вещать — читатель может не разобраться и просто закрыть статью.
    И в этих двух частях есть ужасы
    Первая посвящена авторским правам (а это для авторов, тот ещё ужас), а вторая — данным пользователей которые тоже скармливается прожорливому механизму
    Відповісти
    6 місяців
    Если в заголовке указаны "ужасы нейросетей", то открывая статью, читатель должен именнно их и видеть)))))

    А не какую-то седьмую воду на киселе и оправдание мол "в третьей части ужасы точно будут"))))))

    Представьте что в ремейке второго Resident Evil вы бы три-пять учились управлять персонажем и пользоваться инвертарём, а только потом встретили бы первого зомби)))))

    А вам бы в это время рассказывали, как главгероиня обучалась в колледже, и как Амбрелла к успеху шла, производя шампуни и прочее)))))))

    Или если бы в первом мёртвом космосе мы часа три-пять в начале игры проводили бы на мирно работающей Ишимуре до инцидента, добывая руду, обучаясь пользоваться компасом и резаком)))))

    И только после этого бы в первый раз видели ксеноморфа))))))))
    Відповісти
    6 місяців
    Название части вполне соответствует содержимому. Не все люди знают как они устроены и на каких данных обучаются. В первой части больше времени уделил авторскому праву, прошёлся по лицензионным соглашениям (потому что считаю эти документы довольно важными) и упомянул возможность воссоздать данные которые были использованы при обучении.

    В этой статье больше уделил внимание тому, какие данные пользователей и контент-мейкеров используется для обучения (как и написано в заголовке). Плюс привёл ссылку на одно исследование и рассказал о быстром росте ИИ начиная с 2020 года

    Но спасибо за аргументированную критику. Учту её при написании следующего поста
    Відповісти
    6 місяців
    Нытье одно. Без сбора данных не было бы и этих "нейросетей", не было бы приложений. Без сбора большого количества данных невозможно создавать новое. Вой на вое, прекращайте, идите жить в пещеру и питайтесь птичьим кормом.

    p.s Поражает еще ваш заголовок — "УЖАСЫ", боже кошмар то какой! Откуда же он стал "умным" ? А как без вашего ужасающего сбора данных создать что-то умное? Ну давайте вернемся к чатгпт 1.0 (имею ввиду версию конца 2022 года, когда еще взлета не было — удалось застать время) где он отвечает настолько примитивно, что тут даже сегодняшний зацензурированный Copilot писается от смеха.
    Відповісти
    6 місяців
    Да, вы правы. Без сбора данных таких масштабов, ИИ был бы примитивен и годным лишь в узкоспециализированных областях (например во всяких лабораториях, обученный на их внутренней документации). Для многих людей, нейросети — это прорывная и очень полезная штука, несущая в мир свет и добро. Но я отношусь к ним скептически. Это технология и как и любая другая, может быть использована во вред.

    Одно дело, если бы они хорошо заботились о данных пользователей и не использовали бы в датасетах для обучений — контент с авторскими правами. Сотрудничество с Reddit — отличный пример, когда "и вашим и нашим", все довольны и в плюсе. Но если вы за то чтоб нейросети обучались на ваших данных, где грань того, какую информацию может использовать, а какую нет? Например личные заметки или Word документы сохранённые в облаке, может использовать или это перебор?
    Відповісти
    6 місяців
    Например личные заметки или Word документы сохранённые в облаке, может использовать или это перебор?
    Лично пока не встречались такие новости, где паук залез в личные документы, если это облако типа Google Диска, то вряд ли оттуда что-то тащат априори, никто ведь не мешает поставить пароль на папку\документы? У вас есть доказательства таких инцидентов?
    Відповісти
    6 місяців
    Это был гиперболизированный пример. Сама Майкрософт отрицает использование данных из этих источников. Это заявление было сделано на фоне обнаруженной функции "connected experiences" включённой по умолчании. Из за чего люди сами додумали что под этим подразумевается. Сама Майкрософт на удивление хорошо обращается с пользовательскими данными и почти не имеет конфликтов связанных с обучением ИИ
    Відповісти
    Коментар приховано
    6 місяців
    Хам_хам приди
    Порядок наведи
    Відповісти
    6 місяців
    Вот так постоянно, его нет и дичь начинается
    Відповісти
    6 місяців
    Имеем, не ценим
    потерявши — плачем
    Он ещё и модерирует пользовательские посты, так что действительно много всего делает
    Відповісти