Статті Жахи нейронних мереж. Частина 1: Нейромережі та авторське право

Жахи нейронних мереж. Частина 1: Нейромережі та авторське право

ithitym
Читати у повній версії

Кожного року на розвиток штучного інтелекту виділяються колосальні кошти. Його починають додавати в телефони, роботизовані пилососи і навіть у холодильники. З допомогою ШІ шукають інформацію, редагують зображення або просто спілкуються з чат-ботом. Це дуже зручний засіб... на перший погляд. Але ви коли-небудь задумувалися про небезпеку, яка таїться в нейронних мережах? У цій серії статей спробую розповісти на прикладах про темну сторону цієї технології.

Вступ

У цій серії статей, хочу розібрати, як нейросети впливають на наше життя і яких небезпек варто остерігатися.

Розпочнемо з чогось «лайтового». Авторське право. У більшості випадків воно захищає автора від крадіжки його праць та їх безкоштовного використання. Авторське право (АП) поширюється на книги, музику, картини, програми тощо. Тобто на продукти інтелектуальної праці. Навіть на фото-стоках картинка не є вашою, поки її не купите. А тепер повернемося до нейросетей. Щоб красиво намалювати захід сонця біля річки, ШІ повинен розуміти, як виглядають «захід» і «річка». Для цього він навчається на великому масиві даних, з зображеннями заходів сонця і рік, щоб виявити закономірності і надати на основі цих даних результат.

Але звідки беруться масиви для навчання? Якщо це одинак, який захотів налаштувати локальний Stable Diffusion для особистого використання, то він може зібрати сподобалися фото з пошуковика, не переживаючи про всякі авторські права і ліцензії. Адже навіть у найгіршому випадку, коментар зі згенерованим Ілоном Маском в образі вусатого трубопроводчика, що сидить у KFC — просто знесуть, але судитися навряд чи будуть. А от у великих компаній з цим справи йдуть трохи складніше.

Звідки у даних ноги ростуть

Давайте розберемо, звідки компанії беруть датасети для навчання. Наприклад, можна згадати, як у 2021 році в Оксфорді була конференція з участю Megatron-Turing NLG. Він був навчений на англомовних статтях з «Вікіпедії», новинах за 2016-2019 роки та архівах Reddit обсягом у 38 ГБ. До речі, він зробив досить лякаючі заяви.

Не слід забувати, що ваші промти (запити до ШІ) також використовуються для навчання. А у Google і Майкрософт, є окрім них набагато більше інформації про вас. Хоча це тема для наступної статті.

У Midjourney в ліцензії говориться, що ви даєте їй, її правонаступникам і правонаступникам їх правонаступників «бессрочну, всесвітню, невиключну, субліцензовану, безкоштовну, безвідкличну ліцензію» на весь контент, який ви в неї завантажуєте.

Також є найбільший набір даних YFCC100M, що належить Yahoo. Він містить у собі, згідно з офіційним сайтом, «99,2 мільйона фотографій і 0,8 мільйона відео з Flickr, всі з яких були опубліковані під однією з різних ліцензій Creative Commons». Flickr — це сайт для розміщення користувацьких фотографій. Чи означає це, що всі зображення, опубліковані там, будуть скормлені нейросетям? Ні, адже при завантаженні фотографій, можна налаштувати тип ліцензії. На вибір надається 9 варіантів:

  • Всі права захищені — тип ліцензії, встановлений за замовчуванням. Означає, що ви і тільки ви можете використовувати цей продукт, поки явно не надасте свою згоду третім особам або ресурсу на його використання.
  • Твір, що перебуває у суспільному надбанні — перекладається як „суспільне надбання". Означає контент, який увійшов у суспільне надбання внаслідок закінчення терміну дії авторського права (як перші версії Міккі Мауса), невиконаних вимог щодо захисту або спочатку цього права не існувало (наприклад, твори Шекспіра або праці Ньютона). Означається символом закресленого авторського права, який також є суспільним надбанням.
  • Відмова від прав на твір (CC0) — означає, що ви відмовляєтеся від усіх прав (наскільки це можливо у вашій країні) на контент, і його може використовувати будь-хто, без зазначення першоджерела. На відміну від попереднього пункту, цей тип ліцензії може бути наданий автором особисто. Через те, що в деяких країнах можуть бути свої закони щодо авторського права, десь автор не може повністю передати права. Технічно ви надаєте надзвичайно розширену ліцензію, необмеженому колу осіб. По суті, від Твір, що перебуває у суспільному надбанні практично нічим не відрізняється, крім того, що цей тип ліцензії може бути відкликаний (правда, не факт, що успішно. Може статися і Ефект Стрейзанд).
  • Зазначення авторства (CC BY 2.0) — зобов'язує авторів, які беруть за основу або копіюють вашу роботу, вказувати оригінального автора.
  • Зазначення авторства-Некомерційно (CC BY-NC 2.0) — на додаток до вказання авторства, не можна використовувати оригінальну роботу або похідні твори в комерційних цілях.
  • Зазначення авторства-Некомерційно-Без похідних (CC BY-NC-ND 2.0) — на відміну від двох попередніх, можна розповсюджувати тільки точні копії роботи автора, без створення похідних матеріалів, але все ще з вказанням авторства і не в комерційних цілях.
  • Зазначення авторства-Без похідних (CC BY-ND 2.0) — аналогічно попередній ліцензії, але можна використовувати і в комерційних цілях.
  • Зазначення авторства-Некомерційно-З подібними умовами (CC BY-NC-SA 2.0) - CC BY-NC 2.0 + зобов'язує авторів, які беруть за основу вашу роботу (будь то фан-арти, фанфіки або повноцінні ігри), розповсюджувати її на основі такої ж ліцензії, яка і у оригінала.
  • Зазначення авторства-З подібними умовами (CC BY-SA 2.0) — те ж саме, що і попереднє, але можна використовувати в комерційних цілях. Більш нова версія цієї ліцензії розміщена на сайті SCP Foundation.

Тепер, розібравшись з типами ліцензій (вони нам у майбутньому знадобляться... напевно), давайте розберемося, які з них точно не можуть використовуватися для навчання ШІ. Ліцензії з типом NonCommercial не можуть бути використані тільки для навчання комерційних моделей, а NoDerivs — взагалі ні в яких, оскільки будь-яка нейро-мазня, зроблена на основі зображень, вже вважається похідною роботою, що суперечить ліцензії. Що стосується Attribution , то вона може бути використана, тільки якщо в звітах компанії, яка навчає нейросіть, є згадка авторів і посилання на оригінали, звідки були запозичені зображення (в разі з локальними моделями, в репозиторій має бути включений документ з переліком усіх використаних робіт з даною ліцензією). Але тут постає питання в тому, як проконтролювати, щоб в навчальну базу не потрапили дані, захищені авторським правом. Для цього спочатку розберемося, як проходить навчання.

В нейросеті дані про зображення не зберігаються в початковому вигляді. Вони «перетравлюються» в ваги та зміщення. Опис цього процесу займе не одну статтю, тому коротко опишу, як це працює (більш детально дивіться у Шаріфова та на Вікі-сторінці, присвяченій Китайській кімнаті).

Візуалізація китайської кімнати від DALL-E

Нейросеті подається набір даних з правильними відповідями на них, і на основі цього будуються взаємозв'язки. Це все одно що нам показати тисячі картинок сонця і незрозумілу нам кракозябру, потім показати дощ і іншу загогуліну. Ми не маємо уявлення, на якій це мові, але підозрюємо, що одне значення означає сонце, а інше — дощ (для нейросеті це все ще два незрозумілих об'єкта, які пов'язані з іншими двома незрозумілими об'єктами). Ваги означають вагу елементів. Наприклад, у першого ієрогліфа, після 300 фотографій сонця в різних варіаціях (малюнок/фото з супутника/знімок), раптом з'явиться малюнок будинку і сонця. У такому випадку вага «сонця» буде вищою, тому будинок ми проігноруємо. Чим частіше зустрічається елемент, тим він вагоміший.

Тепер, коли в цьому розібралися, можна перейти до методів перевірки.

Перевірка вихідних даних

У дослідженні «Extracting Training Data from Diffusion Models», проведеному співробітниками Google, DeepMind, ETH Zurich, Princeton і UC Berkeley, з'ясували, що за певних обставин нейросеть може видавати зображення дуже близькі до оригіналу. Наприклад:

Дослідники змогли отримати тисячі прикладів, починаючи від фотографій окремих людей і закінчуючи логотипами компаній, які захищені авторським правом.

До речі, це до слова про те, що не можна нейросеті розповідати конфіденційну інформацію. Але це тема для іншої статті.

Ще іноді нейросеті видають зображення з деталями, що нагадують водяні знаки. Ось кілька прикладів, знайдених на Reddit.

На останок хотілося б показати дослідження «DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models». Ось що вони пропонують:

«Зокрема, ми модифікуємо захищені зображення, додаючи на них унікальний контент за допомогою прихованих функцій деформації зображень, які майже непомітні для людини, але можуть бути захоплені та запам'ятовані дифузійними моделями. Аналізуючи, запам'ятала чи модель впроваджений контент (тобто обробляються чи згенеровані зображення впровадженою функцією постобробки), ми можемо виявити моделі, які незаконно використовували несанкціоновані дані».

До речі, код можна знайти на GitHub, посилання є на сторінці дослідження.

Також, якщо у моделі відкритий вихідний код, можна проаналізувати її «внутрішності» та супутню документацію на предмет відомостей про датасети, на яких вона була навчена.

Добре, з цим розібралися. А чи цікавилися ви, як авторське право поширюється на твори нейромереж?. Але для початку (не)велике відступлення.

Мартинчин труд

2011 рік. Фотограф Девід Слейтер вирушив до Індонезії, щоб зробити знімки хохлатих павіанів, що мешкають у заповіднику. Поки фотограф був зайнятий своїми справами, мавпа заволоділа камерою і натиснула на кнопку. Звук привернув увагу мавпи, і вона продовжила натискати на неї. Було зроблено багато знімків, але хороших вийшло мало. По прибутті з заповідника, Слейтер ліцензував зображення Caters News Agency, на тій підставі, що він є автором ідеї та спеціально хотів, щоб мавпи пограли з камерою. Він стверджував, що все було в його полі зору, і все вийшло так, як і задумувалося. Спочатку стаття про це з'явилася на DailyMail, а потім викликала обговорення на сайті Techdirt, коли там вийшла стаття про те, чи може фото, зроблене мавпою, бути об'єктом авторського права. У статті було присутнє 3 фото мавпи.

Тиждень потому на Techdirt вийшов інший пост, в якому говорилося, що представник компанії, якій належить фото, зв'язався з автором і попросив видалити їх, оскільки вони використані без дозволу. На що автор був в подиві, адже повідомлення було написано як звичайний лист, без використання юридичних термінів і згадування авторського права. І чи може знімок, який зробила мавпа, взагалі бути ліцензованим, адже тварина не може бути суб'єктом авторського права? Навіть якщо і може, зображення були показані в рамках добросовісного використання (оскільки стаття була новинним репортажем), і проблем бути не повинно. Він майже подумав, що це може бути жарт, але все ж надіслав відповідь, в якій детально роз'яснив свою позицію.

Від Caters News Agency прийшла відповідь:

«Незалежно від того, хто володіє авторськими правами, а хто ні, — на 100% ясно, що власник авторських прав — це не ви самі».

Автор статті був в ще більшому подиві. Так як за логікою листа, будь-хто, хто не володіє авторським правом, може подати скаргу, якщо і опублікувавший теж ними не володіє (що є порушенням закону в деяких місцях). Він все ще наполягав, що навіть якщо Caters володіє правами (в чому він сильно сумнівався), його використання зображень є «квінтесенцією добросовісного використання», оскільки пост був присвячений не стільки самим фотографіям, скільки роздумам на тему належності авторського права творам, створеним тваринами. Тому автор залишив фото в пості.

Наступний виток відбувся, коли фотографії були завантажені на Вікісховище (один з проектів Вікімедіа). Особливість ресурсу полягала в тому, що завантажені фотографії повинні бути під вільними ліцензіями. Цього разу до Вікімедії звернувся сам Слейтер і просив або видалити фото, або платити за використання. На що отримав відмову та пояснення, що твори зроблені не людиною, тому вони вважаються суспільним надбанням. Після цього Слейтер звернувся до BBC, з заявою, що поніс від дій Вікімедії фінансові втрати (приблизно 10 000 £), оскільки ніхто не хоче купувати фотографії, поки вони вважаються суспільним надбанням. Після цього почалися судові тяжби.

Думки юристів розділилися. Одні підтримували точку зору Вікімедії, інші стверджували, що авторське право можна приписати за фактом володіння камерою, на яку були зроблені знімки. Оскільки в такому випадку фотограф міг налаштувати світло, фокус, кут зйомки та інші дії, а тварині всього лише потрібно було натиснути на кнопку. Викладач у сфері права інтелектуальної власності, Андрес Гуадамуз, посилався на іншу прецедентну справу, в якій був достатній сам факт відбору фотографії з масиву, для вираження особистості фотографа, а отже, і приписування йому АП.

Все вирішилося 22 грудня 2014 року, коли Бюро авторського права США винесло рішення, пояснивши, що твори, не створені людьми, не є об'єктами авторського права, і навело в якості прикладів «фотографії, зроблені мавпами».

У 2015 році до суду подало вже товариство по захисту прав тварин (People for the Ethical Treatment of Animals, PETA, відоме своїми сумнівними рішеннями). Вони просили про надання мавпам можливості виступати суб'єктами авторського права та дозволити PETA займатися адмініструванням коштів, отриманих від фотографій цього, і всіх інших хохлатих павіанів з заповідника. Пізніше стало відомо, що вони, можливо, переплутали мавпу і вказали в заяві не того павіана, який зображений на знімку. Вони заявляли, що це дівчинка Наруто, в той час як Слейтер стверджував, що це був інший примат, і взагалі самець.

11 вересня 2017 року суд відхилив апеляцію PETA. Слейтер зробив добровільне пожертвування у розмірі 25 відсотків від усіх коштів, зароблених за рахунок цих знімків, на користь фонду захисту хохлатих макак.

Нейросетевий "худо"жник

Що ж, ми трохи відійшли від теми, давайте повернемося до нейромереж. Як видно з прикладу з макакою, на момент 2017 року авторське право поширювалося тільки на людей. Але що щодо комп'ютерів? Точної правової бази поки що немає, тому правила відрізняються в залежності від моделі. Наприклад:

  • У Midjourney можна використовувати згенерований контент «в максимально можливій мірі відповідно до чинного законодавства». Але "якщо ви є компанією або співробітником компанії з доходом понад 1 000 000 доларів США на рік, ви повинні бути підписані на план «Pro» або «Mega», щоб володіти своїми активами". Але мене бентежить фраза «Ви є власником усіх зображень, створених за допомогою Midjourney, навіть якщо ваша підписка більше не активна». А ChatGPT вказує, що згідно з стороннім джерелом (інформаційна стаття датована січнем 2024 року), володарі безкоштовного тарифного плану можуть використовувати згенеровані зображення за ліцензією Creative Commons Attribution-NonCommercial International License (CC BY-NC 4.0) (так і знав, що табличка на початку знадобиться). Але можливо, за цей рік правила користування змінилися. Але в будь-якому разі, якщо хочете використовувати для комерційної діяльності, краще проконсультуватися зі службою підтримки та юристами.


  • DALL-E: OpenAI, розробник DALL-E, надає користувачам повні права на комерційне використання згенерованих зображень. Це означає, що користувачі можуть вільно використовувати створені зображення у своїх проєктах, включаючи комерційні, без необхідності вказувати авторство або отримувати додатковий дозвіл.


  • Stable Diffusion: оскільки це відкрита модель, то права на згенеровані нею зображення залежать від умов використання конкретного сервісу або програми, заснованої на цій моделі. Рекомендую уважно вивчати користувацькі угоди та ліцензійні умови кожного сервісу, щоб зрозуміти свої права та обмеження (а то я трохи не зійшов з розуму, пробираючись через бюрократичні нетрі).

Висновки

Нейромережі більш дбайливо ставляться до збереження своїх прав на згенерований контент, ніж до дотримання авторських прав на твори, на основі яких цей контент згенеровано.

У наступній статті розглянемо більш детально, що про вас збирає нейромережа і як це може бути використано проти вас. Тут не було прикладів з використанням DeepSeek, якраз тому, що вона більше підходить для наступної частини.

Якщо є якісь зауваження або пропозиції — з інтересом прочитаю їх у коментарях.

    Допис створений користувачем 

    Кожен може створювати пости на VGTimes, це дуже просто - спробуйте!
    Коментарі18
    Залишити коментар
    7 місяців
    Пост в течении полутора суток создавался. Очень им доволен (в целом, можно было бы чуть больше инфы написать, но и так она большая получилась)
    Відповісти
    Коментар приховано
    7 місяців
    Спасибо. Вначале хотел поверхностно по всем аспектам пройтись, но материала оказалось так много, что решил серию сделать
    Відповісти
    7 місяців
    Интересный факт и занятное совпадение: данный пост Итхитума и предшествующий ему — вышли с разницей ровно в один год, день в день — 7 февраля. 🤷‍♀️
    Відповісти
    7 місяців
    А тот пост, что был перед предыдущим, вышел ровно на 7 месяцев раньше — тоже, 7 числа, и 7-го же — месяца (2023 года). 🙇‍♀️
    Відповісти
    7 місяців
    777)
    Відповісти
    7 місяців
    Это — знак судьбы: в конкурсе победит Итхитум со своей трилогией про ИИ. 🙇‍♀️
    Відповісти
    7 місяців
    Ну, есть работы и по лучше) и Булочка в процессе выпекания, так что ещё рано судить)
    Відповісти
    7 місяців
    Нейросети скармливается набор данных с правильными ответами на них и на основе этого, строятся взаимосвязи. Это всё равно что нам показать тысячи картинок солнца и непонятную нам кракозябру, потом показать дождь и другую загогулину. Мы понятия не имеем на каком это языке, но подозреваем что одно значение означает солнце, а другое — дождь (для нейросети это по прежнему два непонятных объекта, которые связаны с другими двумя непонятными объектами). Весы означают вес элементов. Например у первого иероглифа, после 300 фотографий солнца в разных вариациях (рисунокфото со спутникаснимок), вдруг появится рисунок домика и солнца. В таком случае вес «солнца» будет выше, поэтому дом мы проигнорируем. Чем чаще встречается элемент, тем он весомее.
    Здесь немного странно мысль резко и не сразу понятно переходит с описываемых объектов для тренировки нейросети (солнца и дождя) на понятие приоритета в зависимости от их количества (весы). Не придираюсь, но приметил.

    Про историю с макакой, которой дали в руки фотоаппарат и она сделала селфи, поэтому авторских прав на неё нет — обезьянам не присваивают. Это такой выпад против авторских прав. Люди, связанные с искусством изобретательны в смысле подобных выходок, принятых называть перформансами. Не знаю, насколько правозащитники и вообще юристы эти заявления всерьёз воспримут.
    Відповісти
    7 місяців
    Хотя да. Можно было бы предложение подводящее использовать, по типу "теперь поговорим про вес"

    Так уже суд был (и тяжбы до 17 года велись), где и обсуждался данный вопрос
    Відповісти
    7 місяців
    17 года за авторские права животным — понятное дело отклонили. Это дичь полная. Странно что в 2014 удовлетворили, смотивировав "фотографии, сделанными обезьяной". Тоже несерьёзно выглядит.
    Відповісти
    IBE
    7 місяців
    Заглянул в поисках чего-то о нейронках, проскипал до селфи обезьяны... История конечно интересная..)
    Відповісти
    7 місяців
    Спасибо за отзыв) да, тоже мартышка понравилась. И немного жаль фотографа. Сначала с викимедией судился, потом ПЕТА захотела защищать права обезьяны. А он всего лишь хотел снять редких животных

    Жаль что в пользовательском редакторе нет кнопки для опросов. Не понятно зашло ли людям или нет. Заметил что на опросы отвечают куда охотнее чем комментируют. То ли длина отпугивает, то ли заумная тема
    Відповісти
    7 місяців
    ну это явно претендент на 5000)
    Відповісти
    7 місяців
    Спасибо) Ну, ещё могут выйти и другие статьи. Да и Гурангина статья выполнена тоже хорошо (не говоря о том, что Булочка ульту копит)
    Відповісти
    7 місяців
    поэтому пока претендент) энивей лично мне статья понравилась
    Відповісти
    7 місяців
    Відповісти
    7 місяців
    Простое копирование и распространение данных в цифровом виде без потери качества в кратчайшее время — давно уже сильно ударило по авторскому праву, задолго до появления нейросетей.
    Відповісти
    7 місяців
    Это да, но с появлением сетей, масштабы во много раз увеличились. Потому что раньше если человек хотел картину в стиле таково то автора — он шёл непосредственно к автору и заказывал её. А теперь некоторые, могут просто скачать все изображения которые автор опубликовал в общем доступе, скормить нейросетке и получить абра кадабру, которой может быть вполне доволен. Хотя если человек хочет её повесить где нибудь на видное место, то всё равно предпочтёт заказать непосредственно у автора, что бы контролировать процесс написания картины, а не забивать промты в надежде что она поймёт суть и сделает как надо
    Відповісти