데이터는 AI 경제에서 중심 역할은 아니더라도 중추적인 역할을 한다. 데이터는 기본 기능과 품질 측면 모두에서 모델의 핵심적인 힘이다. AI 시스템이 훈련해야 하는 데이터가 인간이 만든 것처럼 자연스러울수록 시스템은 더 좋아진다.
그러나 불행하게도 AI 기업에게는 자연 데이터가 유한한 자원이라는 사실이 밝혀졌다. 만약 그 자원이 고갈된다면 연구자들은 심각한 결과를 초래할 수 있다고 경고한다.
호주 맥쿼리대학교의 정보 기술 법학 교수인 리타 마툴리오니테(Rita Matulionyte)는 AI 연구자들은 거의 1년 동안 줄어들고 있는 데이터 공급 경고음을 울리고 있다. AI 예측 기관인 Epoch AI의 연구원들이 작년에 수행한 한 연구에서는 AI 회사가 이르면 2026년까지 고품질 텍스트 훈련 데이터가 고갈될 수 있는 반면, 품질이 낮은 텍스트 및 이미지 데이터 웰은 2030년에서 2060년 사이에 언제든지 고갈될 수 있다고 추정했다.
AI 시스템을 운영하고 개선하는 데 얼마나 많은 데이터가 필요한지 고려할 때 AI 기업에게는 위태로운 상황이다. 개발자들이 점점 더 많은 데이터를 쏟아부으면서 AI 모델은 비약적으로 발전했다. 데이터 공급이 정체되면 모델도 정체되고 산업도 정체될 수 있다.
마툴리오니테는 데이터에 굶주린 AI 회사를 위한 가능한 완화 기술로 새로운 모델을 교육하기 위해 합성 데이터(또는 AI 모델에서 생성된 데이터)의 사용을 제공하지만, 이 역시 실행 가능한 솔루션이 아닐 수 있다. 실제로 합성 콘텐츠를 사용하면 특정 모델이 완전히 망가질 수도 있다. AI 생성 콘텐츠에 대해 AI 모델을 훈련하면 뚜렷한 근친교배 효과가 발생하고 데이터 세트의 분산이 부족하여 왜곡되고 기이한 출력이 발생한다는 것을 보여주는 일부 연구가 있다. (그러나 마툴리오니테가 지적했듯이 일부 회사는 이미 합성 훈련 세트를 실험하고 있다.)
현재로서는 이 다가오는 문제에 대한 가장 실용적인 해결책이다. 대량 인간 콘텐츠 농장의 출현을 제외하고, 탄소 기반 생물이 클릭하고 딸깍 소리를 내며 로봇 군주의 끝없는 데이터 갈증을 해결하는 곳은 실제로 데이터 파트너십을 통해 이루어질 수 있다. 기본적으로, 방대하고 인기 있는 고품질 데이터를 보유한 회사나 기관은 AI 회사와 계약을 맺고 해당 데이터를 현금으로 교환한다.
"현대 AI 기술은 훈련된 데이터를 이해함으로써 사람, 동기, 상호 작용, 의사소통 방식 등 세계의 기술과 측면을 학습한다."라고 지난 주에 새로운 데이터 파트너십을 시작한 실리콘 밸리의 선도적인 AI 회사인 OpenAI의 최근 블로그 게시물을 읽는다. "데이터 파트너십은 더 많은 조직이 AI의 미래를 주도하는 데 도움을 주고 그들이 관심 있는 콘텐츠를 포함함으로써 그들에게 더 유용한 모델의 혜택을 누릴 수 있도록 하기 위한 것이다."
현재 AI 시스템을 교육하는 데 사용되는 대부분의 AI 데이터 세트가 원래 우리 모두가 온라인에서 생성한 인터넷 스크랩 데이터로 만들어졌다는 점을 고려하면 데이터 파트너십이 최악의 방법은 아닐 수도 있다. 그러나 데이터의 가치가 점점 더 높아짐에 따라 실제로 얼마나 많은 AI 회사가 데이터 세트를 놓고 경쟁할 수 있는지 보는 것은 확실히 흥미로울 것이다. 애초에 얼마나 많은 기관이나 개인이 자신의 데이터를 AI 공백에 기꺼이 넘겨줄 것인지는 말할 것도 없다.
하지만 그럼에도 불구하고 데이터 우물이 고갈되지 않을 것이라는 보장은 없다. 인터넷이 무한해 보이는 것처럼 실제로 끝이 없는 것은 거의 없다.