Не только ChatGPT, но и мультимодальная модель GPT-4 от OpenAI могут столкнуться с обвинениями касательно нарушения авторского права. Причиной этому послужили исследования специалистов: они обнаружили, что модели были обучены на текстах из книг, которые защищены законом.
Занимались исследованием такие ученые из Калифорнийского университета в Беркли, как Кент Чанг, Маккензи Крамер, Сандип Сони и Дэвид Бамман. Они совместно трудились над работой под названием «Speak, Memory: An Archeology of Books Known to ChatGPT/GPT-4» («Говори, память: археология книг, известных в ChatGPT/GPT-4»).
Вам также может быть интересно: Криптовалюта AI: Обзор Лучших Проектов в 2023
Академики провели тест “name cloze”. С его помощью можно попробовать определить, запомнила ли модель тот или иной текст из книги, которая защищена авторским правом. Для этого предлагается одно имя, которое может встретиться в отрывке из 40-60 лексем.
В тексте исследования авторы рассказали, что такое тестирование необходимо, так как данные, которые лежат в основе ChatGPT и GPT-4, могут быть неизвестны за пределами OpenAI.
«Мы выявляем, знакомы ли модели с определенным набором книг, но не можем сказать наверняка, проводилось ли на их основе обучение ИИ».
Ученые сделали заявление, что среди книг, которые узнали чат-боты, преобладали работы в жанре научной фантастики и фэнтези.
Например, детские книги о Гарри Поттере, «1984» Джорджа Оруэлла, трилогия «Властелин Колец», серия «Голодные Игры», «Автостопом по Галактике», «451° по Фаренгейту», «Игра Престолов», «Дюна» и многие другие. Также стоит отметить интересную деталь – ChatGPT намного меньше знаком с произведениями других жанров. В академической статье говорится о том, что чат-бот «мало знает о фундаментальных английских текстах, работах проекта «Черная Книга» и лауреатах премии Black Caucus Американской библиотечной ассоциации».
Вам также может быть интересно: Илон Маск планирует запустить ИИ TruthGPT и называет ChatGPT недостоверным
Исследователи выступают за использование публичных данных для более прозрачной работы чат-ботов
Компьютерные специалисты из Беркли на самом деле оказались заинтересованы не столько в последствиях обучения ИИ на основе таких текстов, сколько в том, как сильно принцип работы этих моделей напоминает всем известный «черный ящик». Простыми словами, OpenAI и другие разработки на основе искусственного интеллекта не раскрывают данные, которые используют для обучения. Именно это становится причиной для сомнений в достоверности анализов текстов.
Исследователи сообщили, что они всецело выступают за то, чтобы сделать работу ИИ-моделей более прозрачной благодаря использованию учебных данных из открытого доступа.
Маргарет Митчелл, которая занимается исследованием ИИ-технологий и является главным специалистом по этике в компании Hugging Face, сообщила:
«В сфере еще недостаточно развито управление данными при машинном обучении. Не следует проводить тестирования на собственных учебных материалах».
Интересно, что такое правило уже ходит в кругах специалистов, которые работают с искусственным интеллектом. Также рекомендуется тщательно документировать все использованные в тестах данные, несмотря на то, что обычно это не является стандартной частью машинного обучения.
ChatGPT под угрозой – OpenAI и Google могут столкнуться с судебными исками
Некоторые эксперты предупреждают, что последствий избежать не удастся. Тем, кто проводил обучение чат-ботов на подобных текстах, придется предстать перед судом.
Под пристальное внимание попадут приложения, которые генерируют текст и были построены на основе указанных моделей. Специалисты проверят, выдают ли они отрывки разной степени идентичности с теми текстами, которые защищены законом об авторском праве.
Тайлер Очоа с юридического факультета Университета Санта-Клары ожидает судебных исков против крупных производителей моделей. В их число входит как Google, так и OpenAI.
Когда речь идет о защите правообладателей, то вопрос авторства текста стоит так же остро, как и когда мы говорим об изображениях. Первый вопрос заключается в том, можно ли копировать тексты или изображения для обучения модели? Тайлер утверждает, что скорее всего, можно.
Второй вопрос: является ли нарушением сгенерированный текстовый отрывок, который похож или вовсе идентичен тексту, который защищен законом? Скорее всего – да.
Третий вопрос: защищен ли авторским правом текст, который был создан ИИ и который не является копией уже существующего текста? Здесь ответ будет отрицательным, поскольку законы США и некоторых других стран защищают только тот контент, который был создан непосредственно человеком.
Очоа сообщает, что в первую очередь иски будут направлены по первому и третьему вопросам. На данный момент они будут касаться моделей ИИ, которые генерируют изображения. В будущем же неизбежны и иски против ИИ, которые работают с текстом.
Также он добавил, что работа исследователей из Беркли наглядно продемонстрировала, что текст от ИИ может быть идентичен тексту, который защищен законом. В обозримом будущем это может стать причиной постоянного обращения в суд со стороны правообладателей.
Похожие статьи:
- Неврологи разработали технологию чтения мыслей с помощью МРТ и GPT
- Как Купить Токен AiDoge: Руководство
AiDoge (AI) - ИИ-Платформа для Создания Мемов
- Создавайте и делитесь мемами, сгенерированными ИИ
- Новейшая монета-мем в секторе AI-криптовалют
- Предпродажа токенов - aidoge.com
- Стейкинг токенов $AI - получайте ежедневные вознаграждения