GitHub Copilot не нарушает ваши авторские права
2026-02-21 03:15 Diff

#статьи

  • 11 авг 2021
  • 0

Рассказываем, почему копирайт к результатам его работы даже не применим.

Meery Mary для Skillbox Media

Фулстек-разработчик. Любимый стек: Java + Angular, но в хорошей компании готова писать хоть на языке Ада.

об авторе

Немецкий политик и депутат Европарламента, член Пиратской партии Германии. Выступает за реформу авторского права.

Copilot — это программа с искусственным интеллектом (ИИ), который обучается на общедоступных исходных кодах и текстах. В режиме реального времени он подсказывает разработчику, как можно продолжить набираемый код.

Появление GitHub Copilot здорово взволновало сторонников свободного ПО. Дело в том, что сервис формирует кодовую базу из репозиториев с лицензиями копилефт (например, GPL). Поэтому GitHub и обвиняют в нарушении авторских прав. Вот пример таких обвинений, и ещё один.

Примечание переводчика

Авторское право (копирайт, copyright) позволяет автору разрешать или запрещать публикацию своего произведения (и его частей), то есть ограничивает их переработку и распространение.

Авторское лево (копилефт, copyleft) — вид лицензии, которая разрешает свободно использовать, копировать и изменять произведение, если все производные будут распространяться на тех же условиях.

Затык в том, что сам Copilot выпускается не под лицензией копилефт — после тестового периода сервис станет платным. Споры касаются сразу нескольких сторон авторского права. Но самое удивительное то, что за усиление позиций копирайта (за толкование его в самом широком смысле) выступают сегодня как раз сторонники свободного ПО.

Авторское лево — гениальная придумка, палка в колёса закрытости и коммерциализации контента. Копилефт ставит авторское право на защиту интересов свободного ПО, позволяет легко обмениваться плодами культуры и инновациями.

Произведения с копилефт-лицензиями можно копировать, изменять и распространять только в том случае, если для всех копий и производных произведений будут применяться те же самые правила. То есть законы, которые призваны защищать исключительность прав, запрещают ограничивать доступ к копилефт-произведениям. И это прекрасно, потому что инновации становятся доступны большему числу людей.

Копирайт действует прямо противоположно, даёт правообладателям едва ли не абсолютный контроль над интеллектуальными творениями. Например, запрещает использовать и изменять программный код. Будь по-другому, смысла в копилефт-лицензиях попросту бы не было. При этом у лицензий свободного ПО всё равно осталась бы важная функция — гарантировать публикацию изменённых исходников.

Вот почему так абсурдна ситуация, когда сторонники копилефта выступают за усиление копирайта. Да, можно расширить запреты. И тогда свободные лицензии будут применяться чаще и распространяться быстрее. Но ещё больше усилятся позиции проприетарных лицензий — ведь их намного больше и цели их противоречат свободе ПО.

Именно к этому сейчас всё идёт. Microsoft, материнская компания GitHub, извлекает выгоду из анализа свободно распространяемого кода и создаёт на его основе коммерческий сервис. Поэтому кому-то кажется умным оспаривать это, используя закон об авторском праве. Но получается, что сторонники копилефта сами пилят сук, на котором сидят: усиление запретов станет фатальным для открытой культуры, которую продвигают лицензии на авторское лево.

На разработчиков Copilot нападают сразу с двух фронтов. Кто-то критикует GitHub за само использование бесплатного кода в коммерческом AI-приложении. Других больше волнует, что Copilot генерирует код на основе тренировочных данных, забивая на их лицензию. То и другое можно счесть неэтичным, а вот доказать незаконность таких действий — сложно, потому что авторские права при этом не нарушаются.

Похожим образом критикуют и парсинг кода без разрешения его авторов. И тут стоит отметить, что ни чтение, ни обработка информации не регулируются законами об авторском праве. То есть не требуют каких-то разрешений.

Если я прихожу в книжный магазин, беру с полки книгу и начинаю её читать, то не нарушаю чьи-то права.

Другое дело — парсинг кода для тренировки ИИ. Он всё же входит в сферу действия авторского права. Причина банальна: цифровой контент до обработки нужно сперва скопировать. И именно вокруг копирования ломаются копья при защите авторских прав в IT.

К счастью, политики и суды давно признали, что если получать разрешение на любое копирование, то цифровыми технологиями невозможно было бы пользоваться. Например, людям, которые слушают музыку с помощью цифровых слуховых аппаратов, пришлось бы покупать лицензии на неё, а интернет-провайдерам — лицензировать все мыслимые и немыслимые произведения, защищённые авторским правом. Ведь пользователи обмениваются ими через интернет.

Евросоюз ещё в 2001 году, несмотря на протесты развлекательной индустрии, разрешил такое копирование, которого технически сложно избежать. К сожалению, это разрешение распространяется только на временные, то есть промежуточные копии. Однако многие процессы предполагают создание некоего справочного хранилища, где контент хранится постоянно, — для оперативной обработки.

Издатели научных материалов давно пользуются этой оговоркой. Они запрещают пользователям скачивать по многу статей за раз, если те защищены копирайтом.

Представьте такую ситуацию: исследователю понадобилось так много статей, что успеть проанализировать их все можно только автоматически. И право доступа к этим материалам у него есть — например, по подписке в университете. Но справочное хранилище из них создать не получится. Издатели противодействуют этому техническими ограничениями и условиями договора. По их мнению, учёные должны читать статьи только своими глазами, а не с помощью технических средств. Подобная запретительная практика в своё время сильно подкосила машинные методы исследований вроде тех, которые применяются в цифровых гуманитарных науках.

Поэтому исследовательские ассоциации из ЕС потребовали у законодателей вмешаться и поставить точку — разрешить постоянное хранение контента для последующего автоматизированного анализа. Эта кампания проходила под девизом «The Right to Read is the Right to Mine» («Право читать — моё неотъемлемое право». — Пер.). К неудовольствию академических издателей, инициативу учёных поддержали в 2019 году. Соответствующая директива ЕС разрешила интеллектуальный анализ текста и данных.

Если правообладатель не желает, чтобы его произведение автоматически анализировали, то должен сообщить об этом в форме, которая будет понятна машине.

Например, в интернете за это отвечает файл robots.txt. Причём неважно, на коммерческих ли услових распространяется контент, защищён ли он копирайтом, — машина не будет этого выяснять, перед ней все равны.

Европейские законы об авторском праве позволяют парсить GPL-код и другой контент без оглядки на лицензии. В США парсинг контента тоже считается добросовестным использованием — это стало очевидным после прецедента с Google-книгами.

Комментарий переводчика

Писательская ассоциация Authors Guild подала в суд на Google, обвинив её в нарушении авторских прав «в гигантских масштабах». Дело в том, что в сервисе «Google Книги» есть поиск по текстам оцифрованных книг, а ещё там можно просматривать фрагменты произведений — даже тех, которые защищены авторским правом.

Однако и суды низших инстанций, и Верховный суд США посчитали эти возможности «Google Книг» добросовестным использованием защищённого контента.

Кто-то считает, что GitHub Copilot нарушает закон, обучая ИИ на лицензированном коде (а ведь весомая часть исходников выложена под GPL).

Иногда Copilot предлагает пользователю законченные, целостные фрагменты кода из обучающего набора, хоть и небольшие, — так написано в FAQ сервиса.

Но противоправным считают и то, что сервис вообще генерирует выходной код. Как раз его-то критики GitHub и приравнивают к производным произведениям. Аргумент тут простой: без обучающих данных ИИ ничего бы создать не смог.

Подобные рассуждения опасны по двум причинам.

Получается, что копирование даже крохотных частей охраняемых произведений — это нарушение авторских прав. Но, вообще-то, это не так. Иначе авторы давно бы пересудились из-за простейших фраз типа «Bucks побеждает Hawks и выходит в финал NBA» или «i = i + 1». Короткие участки кода, которые воспроизводит Copilot, едва ли дотягивают до планки оригинальности.

Закон об авторском праве допускает исключения, но встречаются они редко. Например, когда копируемый отрывок представляет собой что-то из ряда вон — новое и выдающееся — и потому вопросов к его оригинальности и размеру даже не возникает.

Закон защищает только оригинальные фрагменты. Поэтому издательские дома Евросоюза успешно лоббировали изменения, которые позволяют им обходить условие об оригинальности. Они ограничивают поисковую выдачу: запрещают поисковикам показывать даже отдельные предложения со страниц сайта.

Именно подобные сомнительные инициативы и поддерживают сторонники свободного ПО, когда требуют контроля над мельчайшими фрагментами кода.

Чтобы считать генерируемый Copilot код производным произведением от тренировочных исходников, придётся допустить, что машина в принципе может создавать произведения. Но это предположение ошибочно и контрпродуктивно.

В чём ошибка

Авторское право всегда применялось только к интеллектуальным творениям, а где нет творца — нет и произведений. Это значит, что машинно генерируемый код — вроде того, что выдаёт Copilot, — вообще не является произведением по закону об авторском праве. А потому не может быть и производным произведением. Творения машины не подлежат защите со стороны авторского права — они являются общественным достоянием.

И это хорошая новость для борцов за открытость, а не то, с чем следует бороться.

В чём контрпродуктивность

Те, кто приравнивает подсказки Copilot к производному произведению, возможно, надеются, что GitHub одумается — и решит размещать результирующий код под GPL.

Сторонники свободного ПО напуганы до такой степени, что готовы защищать мелочный и жёсткий копирайт. У них попросту сносит крышу — и потому не получается трезво оценить последствия. Например, то, что любые результаты работы ИИ можно будет защитить по закону.

И что тогда помешает, скажем, музыкальному лейблу обучить ИИ на своём каталоге музыки: пусть день и ночь генерирует всевозможные мелодии, а результаты потом запретят использовать третьим лицам?

Что помешает издателям статей и книг бесконечно генерировать фразы и предложения — и в конце концов приватизировать сам язык?

Всемирная организация интеллектуальной собственности (WIPO) уже лоббирует распространение копирайта на произведения, созданные автоматически. Центральный вопрос обсуждений: «Требуется ли менять нынешнюю систему интеллектуальной собственности, чтобы обеспечить равнозначную защиту произведениям и изобретениям, которые создают машины».

Это интересно!

Пока одни думают, другие делают. Недавно «Сбер» зарегистрировал программу, написанную с помощью искусственного интеллекта. Приложение называется Artificial Vision («Искусственное зрение»).

Это первый такой случай в России. В авторах пока что числится не машина, а разработчики «Сбера» — именно они натренировали нейросеть и обучили языкам программирования, а та написала софт для распознавания зрительных образов.

Если сторонники жёсткого копирайта выиграют, то в дамках окажутся технологические гиганты вроде Microsoft. Просто потому, что крупным корпорациям легче разрабатывать и масштабировать ИИ-приложения. Так что лучше бы критикам GitHub Copilot не играть им на руку.


Научитесь: Администрирова­ние ОС Linux Узнать больше