В основу иска легло обвинение, что создатели GPT без разрешения использовали материалы, принадлежавшие NYT для обучения языковой модели. Причём, подчёркивает иск, в объёме тренировочных данных были сотни тысяч статей, которым, в процессе обучения модели, был придан дополнительный вес.
Сперва, когда я прочитал новость о подаче такого иска, мне подумалось, что использование статей NYT для обучения модели GPT - недоказанное обвинение, которое может стать предметом разбирательства. Но, почитав текст иска я понял, что газета представляет довольно веские доказательства, и неясно, станут ли ответчики вообще оспаривать присутствие материалов истца в их обучительных данных. Например, иск приводит диалог, в результате которого ChatGPT слово в слово цитирует одну конкретную статью, опубликованную газетой. Также упоминается, что в базах, использованных для тренировки ранних версий GPT статьи с сайта газеты стали частью особого архива "высококачественных материалов", которым в ходе обучения придавался больший вес.
New York Times требует не только компенсации (её размер не уточняется, но речь идёт о миллиардах), но и хочет добиться уничтожения всех моделей которые обучались в том числе на статьях газеты, и запрет на подобное обучение в будущем.
Это не первый иск такого рода: за последний год несколько авторов и правообладателей уже судились с разными создателями моделей "искусственного интеллекта", обвиняя тех в нелицензионном использовании их интеллектуальной собственности для обучения своих продуктов. Причём иски подавались не только касательно текстов, но и музыки и фотографий!
Тут важно понимать, что закон даёт правообладателям контроль над тем, кто может создавать копии их трудов. Как подписчик New York Times, я имею право читать их статьи, но воспроизводить их целиком могу лишь с разрешения владельцев газеты. (Тут есть небольшая лазейка: ограниченное цитирование по закону считается допустимым употреблением.)
Однако, я абсолютно точно могу использовать знания, полученные от прочтения New York Times как мне вздумается. Могу на их основе пост в своём блоге написать - главное не копировать весь текст статьи.
И возникает вопрос, на который пока нет однозначного ответа: тренировка дата-моделей, это защищённое законом копирование, или допустимое обучение? Ведь я, когда читаю и запоминаю статью, сохраняю в голове её суть а не точный текст, тогда как языковые модели впитывают в себя конкретную очерёдность слов (это ведь и есть их основной принцип!)
И если кто-то скормил модели множество работ одного автора, то потом можно попросить интеллект "нарисовать картину в стиле Дали", "стихи в стиле Маяковского" или "сгенерировать песню как у Тейлор Свифт".
С одной стороны, пародирование защищается законом, а с другой, существует уже устоявшееся мнение, что если вы хотите в своём новом фильме использовать молодого Гарисона Форда, нарисованного с помощью компьютерной графики, то делать это без разрешения самого господина Форда нельзя. И даже в случае с уже умершими актёрами, придётся вести переговоры с их наследниками.
Единого ответа тут пока что нет - по крайней мере, мне этот вопрос представляется довольно сложным. Уверен, среди читателей блога найдутся ярые сторонники обеих вариантов. Но даже если кто-то из нас может для себя с полной уверенностью решить этот спор в пользу журналистов или айтишников, решать тут будут суды.
Практически все уверены, что в ближайшем будущем этот вопрос в какой-нибудь форме предстанет перед Верховным Судом США. В конце-концов, что может быть лучше, чем доверить решать такие правовые нюансы XXI века девяти судьям в возрасте от средних до преклонных лет?..
← Ctrl ← Alt
Ctrl → Alt →
← Ctrl ← Alt
Ctrl → Alt →