해봄의 아카이브

뉴욕타임스 vs OpenAI + Microsoft

Haebom

Jan 9, 20242y ago

뉴욕타임스(NYT)가 OpenAI와 Microsoft를 상대로 제기한 소송의 핵심은 저작권 침해 혐의에 관한 것으로, 두 회사의 생성형 인공 지능(GenAI) 도구인 ChatGPT와 Bing Chat이 NYT의 콘텐츠를 불법적으로 활용했다는 주장입니다. 소송의 주요 내용은 다음과 같습니다. 고소장 전문이 공개되면 NYT와 OpenAI + Microsoft가 무엇으로 싸울지 가늠해 볼 수 있습니다.

NYT_Complaint_Dec2023.pdf6.97MB

•

지적 재산권 침해: NYT는 OpenAI와 Microsoft의 GenAI 도구가 자사의 저작권이 있는 자료를 무단으로 사용한다고 주장합니다. 이러한 도구는 수백만 건의 NYT 기사, 오피니언, 리뷰 등으로 학습된 대규모 언어 모델(LLM)에 의존하는 것으로 알려졌습니다.

•

NYT의 비즈니스 및 저널리즘에 미치는 영향: 이 소송은 이러한 무단 사용이 민주주의에 필수적인 서비스로 간주되는 독립적인 저널리즘을 제공하는 NYT의 능력을 위협한다고 주장합니다. NYT는 이러한 도구가 자사 콘텐츠를 거의 그대로 모방하거나 심지어 그대로 기사를 복제하는 결과물을 생성하여 독자와의 관계를 약화시키고 수익원에 영향을 미칠 수 있다고 주장합니다.

•

법적 근거: 이 소송은 창작자에게 저작물에 대한 독점적 권리를 부여하는 저작권법에 근거를 두고 있습니다. NYT는 피고들이 이러한 보호를 인정하지 않아 저작권 침해가 발생했다고 주장합니다.

•

피고들의 재정적 이익: NYT는 Microsoft와 OpenAI가 이러한 LLM을 통해 금전적 이득을 얻었다고 지적합니다. 예를 들어, 이러한 AI 모델의 배포 및 출시 이후 Microsoft의 시가총액과 OpenAI의 가치가 크게 증가했습니다. (기업 가치, 구독료 등)

•

해결을 위한 시도: NYT는 건강한 뉴스 생태계와 책임감 있는 GenAI 개발을 지원하기 위해 피고들과 콘텐츠의 공정한 사용을 협상하기 위해 노력했다고 언급했습니다. 그러나 이러한 협상은 해결로 이어지지 않았습니다. 따로 몇번의 협상을 제안했으나 MS와 OpenAI는 응하지 않음.

•

공정 사용에 대한 피고의 입장: Microsoft와 OpenAI는 저작권이 있는 콘텐츠를 사용하여 GenAI 모델을 훈련시키는 것은 혁신적인 목적에 부합한다고 주장하며 자신들의 행위가 '공정 사용'에 따라 보호된다고 주장한 것으로 알려졌습니다. 이에 대해 NYT는 이러한 사용은 원본 콘텐츠와 경쟁하고 모방하는 것이므로 공정 사용에 해당하지 않는다고 반박합니다.

•

손해배상 청구: 이 소송은 피고에게 광범위하고 조직적인 침해로 인한 법적 및 실제 손해에 대한 책임을 묻고자 합니다.

•

관할권 및 재판지: 이 소송은 1976년 저작권법에 따라 제기되었으며, 관할권은 Microsoft와 OpenAI의 사업장이 NYT의 본사가 있는 뉴욕에 있기 때문에 뉴욕에서 청구되었습니다.

•

피고에 대한 세부 정보: 이 소송은 문제의 GenAI 모델을 만들고 배포하는 데 있어서의 관계와 역할을 포함하여 OpenAI와 Microsoft의 구조와 운영에 대해 설명합니다.

•

GenAI 모델의 상업화 및 비밀 유지: NYT는 오픈소스 AI 개발에서 보다 비밀스러운 영리 모델로 전환한 OpenAI의 접근 방식, 특히 GPT-3.5와 GPT-4의 개발에 대해 강조합니다. 이 소송은 이러한 모델의 훈련과 설계에 대한 구체적인 내용이 기밀로 유지되어 왔다고 지적합니다.

•

LLM 교육 및 운영: 이 소송에서는 저작권이 있는 자료를 포함한 방대한 훈련 데이터에 기반하여 매개변수를 인코딩하고 조정하는 훈련 프로세스를 강조하면서 LLM의 작동 방식을 설명합니다.

이 소송은 AI 개발에서 저작권이 있는 콘텐츠의 사용을 둘러싼 지속적인 법적, 윤리적 논쟁을 반영하며, 혁신과 지적 재산권 간의 균형을 맞추는 데 따르는 어려움을 강조합니다.

제일 재밌는게 싸움 구경이라고 OpenAI + MS는 공정사용, 그러니까 자기들이 저 데이터를 쓰는것은 모두를 위한 이익을 위해 사용한 일이라고 주장하고 있고, NYT는 당연히 공정사용이 아닌 해당 기업들만의 이익을 위해 사용되었으며 저작권으로 위법하다고 규정합니다. 그리고 공정사용이 성립하려면 GPT-3.5, GPT-4를 공개가 아닌 Tech Report만 내었고 실제로 공개를 하지 않은 부분을 지적했습니다.

참고

미국에서 저작물을 '공정 이용(Fair Use)'으로 인정받기 위해서는 몇 가지 중요한 요소를 고려해야 합니다. 공정 이용은 저작권법 하에서 특정 조건하에 저작물을 사용할 수 있도록 하는 법적 원칙입니다. 다음은 공정 이용을 판단할 때 중요한 네 가지 요소입니다:

•

목적과 성격: 사용되는 저작물의 목적과 성격이 중요합니다. 예를 들어, 교육적 목적, 비평, 뉴스 보도, 연구, 패러디 등 공공의 이익에 부합하는 경우 공정 이용으로 인정될 가능성이 높습니다. 상업적 목적으로 사용하는 경우 공정 이용의 가능성이 낮아집니다.

•

저작물의 성격: 공정 이용 판단 시 원래 저작물의 성격도 중요합니다. 사실적인 저작물(예: 뉴스 기사)은 창작적인 저작물(예: 소설, 음악)보다 공정 이용의 여지가 더 큽니다.

•

사용되는 양과 중요성: 사용하는 저작물의 양과 그 중요성도 고려됩니다. 사용하는 부분이 원 저작물의 '심장부'를 차지한다면 공정 이용으로 보기 어렵습니다. 또한 필요 이상으로 많은 부분을 사용하는 것도 공정 이용 범위를 벗어날 수 있습니다.

•

시장에 미치는 영향: 사용이 원 저작물의 시장 가치나 수익성에 부정적인 영향을 미친다면 공정 이용이 아닐 가능성이 높습니다. 원 저작물에 대한 수요를 줄이거나 대체하는 사용은 공정 이용이 아닐 수 있습니다.

NYT가 제대로 준비해서 때리고 있는 모양세이고 OpenAI는 일단 최대한 끌어보려는 것 같습니다. GPT-5 같은 SOTA급 모델 하나 준비되면 GPT-3.5 등을 세간에 공개하는 건 큰 이슈가 아닐 수 있으니 일단은 독점적 지위를 유지하는데 총력을 다하지 않을까 합니다. 합의는 애초에 없는게... NYT와 합의하는 순간 모든 LLM은 사실상 저작권과 충돌할 수 밖에 없습니다. (예전 Book3 논쟁때도 말했듯이)

'haebom' 구독하기

사이트를 구독하면 새 포스트 등 최신 업데이트를 알림과 메일로 가장 먼저 받아보실 수 있습니다.
Slashpage에 가입하고 'haebom'을 구독하세요!