OpenAI가 AI 훈련에 이용한 미디어 라이센스료로 연간 100만 달러에서 500만 달러를 지불
ChatGPT 등의 생성 AI를 개발하는 OpenAI가 AI 훈련에 뉴스 미디어 콘텐츠를 이용하는 것이 문제시되고 있으며 일부 미디어에서는 소송을 제기했습니다. 이에 대응하기 위해 OpenAI는 뉴스 미디어에 대해 100만 달러(14억 원)에서 500만 달러(약 72억 원) 상당의 라이센스료를 지불하는 방향으로 협의를 진행하고 있다고 보도되고 있습니다.
OpenAI In Talks With Dozens of Publishers to License Content - Bloomberg
https://www.bloomberg.com/news/articles/2024-01-04/openai-in-talks-with-dozens-of-publishers-to-license-content
OpenAI’s news publisher deals reportedly top out at $5 million a year - The Verge
https://www.theverge.com/2024/1/4/24025409/openai-training-data-lowball-nyt-ai-copyright
OpenAI offering media outlets as little as $1 million to use news articles for AI models: report
https://nypost.com/2024/01/04/business/openai-offering-media-outlets-as-little-as-1-million-to-use-news-articles-for-ai-models-report/
2023년은 OpenAI의 ChatGPT와 Google의 Bard, Microsoft의 Copilot 등 생성 AI의 약진이 눈부신 해였습니다. 이러한 생성 AI의 기반이 되고 있는 것이 대규모 언어모델(LLM)로 LLM의 트레이닝에는 인터넷상에 존재하는 다양한 데이터가 이용되고 있는 것으로 알려져 있습니다. 그러나 AI 훈련에 이용되는 데이터 세트에 유명 작가의 서적 등이 포함되어 있는 것이 문제가 되어 규제당국에 엄격한 대처를 요구하는 목소리도 높아졌습니다.
채팅 AI Bard를 개발하고 있는 Google도 당초는 AI툴의 개발을 촉진하기 위해 온라인에 공개된 모든 것을 AI를 위해서 스크래핑한다고 발표했지만 콘텐츠 크리에이터 측의 반발에 생성 AI 훈련에 자신의 웹사이트가 사용되지 않도록 하는 옵션을 발표했습니다.
언론 등의 미디어는 콘텐츠를 AI 훈련에 이용하는 것에 반발하고 있으며, 미국에서의 발행 부수 3위 일간지인 뉴욕타임스는 생성 AI 훈련에 자사 콘텐츠가 사용하지 않도록 크롤러 액세스를 차단하고 OpenAI와 Microsoft를 저작권 침해로 고소했습니다.
뉴욕타임스는 OpenAI의 ChatGPT나 Microsoft의 Copilot 등 생성 AI의 기반이 되는 LLM의 GPT-4가 뉴욕타임스의 콘텐츠를 훈련에 이용했다며, 뉴욕타임스의 표현 스타일을 모방한 AI가 뉴욕타임스와 직접 경쟁하는 콘텐츠를 만들어내고 있다고 주장했습니다.
실제로 뉴욕타임스가 법원에 증거로 제출한 자료 중 하나에서는, ChatGPT의 베이스가 되는 LLM의 GPT-4가 출력한 '2019년의 퓰리처상 수상자에 관한 텍스트'가 뉴욕타임스의 기사를 거의 그대로 모방한 내용이라고 지적되고 있습니다.
이러한 반발에 OpenAI가 미국의 대형 미디어와 라이선스 협의를 하고 있다고 보도되고 있었습니다. 이 보도에 따르면 OpenAI는 미국의 주요 신문사이자 USA 투데이의 발행원인 Ganett, The Wall Street Journal의 발행인 News Corp, The Daily Beast의 운영원인 IAC 등과 라이센스 공여에 대해 협의하고 있다고 합니다. OpenAI와 미디어의 협의에는 OpenAI 최대의 투자자이기도 한 Microsoft도 참가하고 있는 듯합니다.
지불 대가로 콘텐츠의 이용을 허가하고 있는 기업도 있습니다. Politico 및 Business Insider와 같은 미디어를 소유하는 독일의 주요 미디어 기업인 악셀 슈프링거는 2023년 12월 OpenAI와 계약을 맺고 ChatGPT가 Politico 및 Business Insider에서 직접 데이터를 검색할 수 있도록 허용했습니다. AP통신도 OpenAI가 뉴스 기사를 기반으로 AI 모델을 훈련하도록 허용하는 계약을 체결했습니다.
그리고 새롭게 OpenAI가 AI 훈련에 뉴스 미디어 콘텐츠를 이용하기 위한 라이센스 비용으로 100만 달러에서 500만 달러의 지불을 제시하고 있다는 것이 The Information의 보도에 의해 밝혀졌습니다. 이 보도를 다룬 해외 언론인 The Verge는 “이번 보도는 OpenAI가 AI 훈련에 이용하는 데이터에 어느 정도의 자금을 투입할 예정인지를 보여주는 최초의 지표 중 하나"라고 보도했습니다.
IT기업의 콘텐츠 사용이 문제가 된 유사한 사례로 2019년 Facebook에 도입된 뉴스탭이 있습니다. Meta는 이 뉴스탭에서 뉴스 기사의 라이센스료로 연간 최대 300만 달러(약 43억 원)를 미디어에 지불했다고 보도되었습니다. 또한 Google은 캐나다 뉴스 배급 사업자가 보도기관에 사용요금을 지불하도록 결정한 온라인 뉴스법에 따라 캐나다 보도기관에 연간 총액 1억 캐나다 달러(약 1100억 원)를 지불할 것에 동의했습니다.
OpenAI의 연간 매출은 16억 달러(약 2조 3000억 원)로 전년 대비 58배로 증가했습니다. 게다가 OpenAI의 2024년 연간 매출은 50억 달러에 달할 것으로 예상되고 있기 때문에 OpenAI가 미디어에 지불할 예정인 라이센스료는 그다지 부담되지 않는다고 예상할 수 있습니다.
또한 Apple도 뉴스 미디어 콘텐츠를 이용하여 AI를 훈련하기 위해 여러 미디어와 5000만 달러(약 724억 원) 이상의 다년 계약에 대해 논의한 것으로 보도되고 있습니다.