Sign In
해봄의 아카이브

그 많은 인공지능 학습데이터는 어디서 왔을까?

Haebom
최근 인공지능(AI) 기술이 급속도로 발전하면서, 우리가 온라인에 올리는 글, 사진, 동영상이 AI 훈련에 무단으로 사용되고 있다는 충격적인 사실이 드러났습니다. 특히 OpenAI와 Anthropic 같은 유명 AI 기업들이 웹사이트 소유자의 의사를 무시하고 콘텐츠를 무단 수집한다는 주장이 제기되어 큰 논란이 일고 있습니다. 이 문제의 핵심에는 'robots.txt'라는 작은 파일이 있습니다. 과연 무엇이 문제이고, 우리에게는 어떤 영향이 있을까요?

robots.txt 파일: 웹의 교통 신호등

'robots.txt' 파일은 웹사이트 주인이 검색 엔진이나 기타 '봇'(자동화된 프로그램)에게 "이 부분은 봐도 돼요", "여기는 보지 마세요"라고 알려주는 일종의 안내문입니다. 쉽게 말해, 웹사이트의 '출입 규칙'을 정해놓은 것이죠. 예를 들어, "User-agent: * Disallow: /private/"라는 내용은 모든 봇에게 "/private/" 폴더에는 들어가지 말라고 말하는 것과 같습니다. 이 작은 text 파일은 여러 가지 중요한 역할을 합니다.
1.
서버 부담 감소: 너무 많은 봇이 한꺼번에 몰리면 웹사이트가 느려질 수 있습니다.
2.
개인정보 보호: 공개하고 싶지 않은 정보를 숨길 수 있습니다.
3.
효율적인 정보 제공: 중요한 정보를 우선적으로 보여줄 수 있습니다.

AI 기업들의 논란적 행동

Business Insider와 Reuters의 보도에 따르면, OpenAI와 Anthropic 같은 AI 기업들이 이 'robots.txt' 규칙을 따르겠다고 약속해놓고 실제로는 무시하고 있다고 합니다. 이는 마치 교통 신호를 무시하고 운전하는 것과 비슷한 행위입니다. 이러한 행동은 웹사이트 소유자의 권리를 침해하는 것일 뿐만 아니라, 인터넷 전체의 신뢰성을 해칠 수 있는 심각한 문제입니다. 국내에서만 하더라도 Claude3에게 디씨인사이드 말투, 특정 커뮤니티 말투로 글을 써달라면 아주 걸걸하게 해주는 것이 드러나 무척 재밌게 활용되곤 했죠.
욕설 주의.
이런 상황에서 TollBit라는 회사가 주목받고 있습니다. 콘텐츠 라이선스 중개 회사인 TollBit는 AI 기업들의 행동을 면밀히 조사했습니다. 그들은 AI가 어떤 웹사이트를 얼마나 자주 방문하는지 추적하고, 이를 바탕으로 적절한 사용료를 산정합니다. 이는 불법 주차를 단속하는 것과 비슷한 역할을 한다고 볼 수 있습니다. TollBit의 활동은 AI 기업들과 콘텐츠 제작자들 사이의 공정한 관계를 만드는 데 기여할 수 있습니다.

TollBit이 일부러 이런 논란을 재기했다?

TollBit는 중개자로서 수익을 창출하는 기업이기 때문에 그들의 주장이 사업적 이익을 위한 부분도 있을 수 있습니다. 그러나 이는 비즈니스의 기본 원칙에 해당하며, TollBit의 주장이 사실에 근거하고 있다면 이는 정당한 주장입니다. TollBit는 AI 기업들과 출판사들 간의 공정한 거래를 촉진하는 역할을 하고 있으며, 이를 통해 양측 모두에게 이익이 될 수 있는 해결책을 제공하려고 합니다.
TollBit의 주장은 여러 측면에서 타당한 것으로 보입니다. robots.txt 파일을 무시하는 것은 웹사이트 소유자의 권리를 침해할 수 있으며, 이는 법적으로나 윤리적으로 문제가 될 수 있습니다. TollBit의 주장은 AI 기업들이 비윤리적인 방법으로 데이터를 수집하지 않도록 하기 위한 것으로, 출판사들의 권리를 보호하는 타당한 주장이라고 할 수 있습니다.

콘텐츠 플랫폼과 언론사들의 반발과 법적 대응

다양한 콘텐츠 플랫폼과 언론사들은 AI 기업들의 이러한 행태에 강력히 반발하고 있습니다. 이들은 AI 기업들의 무단 데이터 수집이 자신들의 비즈니스 모델을 위협하고 있다고 주장합니다. 뉴스 기사나 전문적인 콘텐츠를 생산하는 언론사들은 자신들의 저작물이 AI에 의해 무단으로 학습되고 재생산되는 것에 대해 우려를 표명하고 있습니다.
소셜 미디어 플랫폼, 블로그 호스팅 서비스, 전문 지식 공유 사이트 등 다양한 형태의 콘텐츠 플랫폼들도 이 문제에 주목하고 있습니다. 이들은 자사 플랫폼의 사용자들이 생산한 콘텐츠가 AI 훈련에 무단으로 사용되는 것을 막기 위해 노력하고 있습니다.
일부 대형 미디어 기업과 콘텐츠 플랫폼들은 이미 법적 대응을 시작했거나 고려 중입니다. 이는 AI 기업들의 데이터 수집 관행에 대한 법적 판단을 요구하는 것으로, 향후 AI 개발과 콘텐츠 사용에 관한 중요한 선례가 될 수 있습니다.

이걸 어떻게 막는다?

AI 기술의 발전으로 인해 우리가 온라인에 올리는 모든 것들이 AI 훈련에 사용될 수 있다는 점을 인식해야 합니다. 이는 우리의 개인정보와 저작권에 큰 영향을 미칠 수 있습니다. 그렇다고 무작정 법으로 robots.txt를 의무화 시키는 것은 인터넷에 크나큰 제약이 생겨 버립니다.
사실 막는 것은 일차원 적인 방법이고 인터넷에 정보를 올리지 않는다.라는 것도 사실 적절한 방법은 아닐 것 입니다. 이것을 레딧 혹은 tollbit처럼 게시물을 업로드한 사람에게도 이익이 돌아가는 형태로 재편하는게 제일 상책이 아닌가 싶습니다. 물론, 여기에 인공지능 모델에 대한 학습 정보 수집에 대한 명시도 제대로 하면 좋겠죠.
Subscribe to 'haebom'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'haebom'!
Subscribe
1