인공지능 멸망에 관한 괴 소문: 모델 붕괴
인공지능 멸망에 대한 예측은 얼마나 현실적일까? 그리고 모델 붕괴란 무엇일까?
2023년에 논의되었지만 최근에 대중화된 "모델 붕괴"는 인터넷에서 AI가 생성한 데이터가 증가함에 따라 미래의 AI 시스템이 점점 더 멍청해지는 가상의 시나리오를 말한다.
데이터의 필요성
최신 AI 시스템은 머신러닝을 사용하여 구축된다. 프로그래머는 기본 수학적 구조를 설정하지만 실제 "지능"은 데이터의 패턴을 모방하도록 시스템을 훈련하는 데서 나온다.
하지만 그저 어떤 데이터도 아니다. 현재의 생성 AI 시스템에는 고품질 데이터가 필요하며, 대량이 필요하다.
OpenAI, Google, Meta, Nvidia와 같은 대형 기술 회사는 이 데이터를 소싱하기 위해 인터넷을 끊임없이 뒤지며 테라바이트 규모의 콘텐츠를 수집하여 기계에 공급한다. 하지만 2022년에 널리 사용 가능하고 유용한 생성 AI 시스템이 등장한 이후로 사람들은 AI가 일부 또는 전부 만든 콘텐츠를 점점 더 많이 업로드하고 공유하고 있다.
2023년에 연구자들은 인간이 생성한 데이터 대신 AI가 만든 데이터만 사용하여 훈련할 수 있을지 궁금해하기 시작했다.
이 작업을 수행하도록 하는 데는 엄청난 인센티브가 있다. 인터넷에서 널리 퍼지는 것 외에도 AI가 만든 콘텐츠는 인간 데이터를 소싱하는 것보다 훨씬 저렴하다. 대량으로 수집하는 것도 윤리적으로나 법적으로 문제가 되지 않는다.
그러나 연구자들은 고품질의 인간 데이터가 없으면 AI가 만든 데이터로 훈련된 AI 시스템이 각 모델이 이전 모델에서 학습함에 따라 점점 더 멍청해진다는 것을 발견했다. 이는 근친 교배 문제의 디지털 버전과 같다.
이 "역류적 훈련"은 모델 행동의 질과 다양성이 감소하는 것으로 보인다. 여기서 질은 대략적으로 도움이 되고, 무해하며, 정직하다는 것을 의미한다. 다양성은 응답의 변화와 AI 출력에 표현된 사람들의 문화적, 사회적 관점을 말한다.
간단히 말해서, AI 시스템을 너무 많이 사용하면 처음에 유용하게 만드는 데 필요한 바로 그 데이터 소스를 오염시킬 수 있다.
붕괴 방지
빅테크가 AI가 생성한 콘텐츠를 걸러낼 수 없을까? 그렇지 않다. 기술 회사는 이미 수집한 데이터를 정리하고 걸러내는 데 많은 시간과 비용을 투자하고 있으며, 한 업계 관계자는 모델을 훈련하기 위해 처음 수집한 데이터의 최대 90%를 버린다고 최근에 밝혔다.
AI가 생성한 콘텐츠를 특별히 제거해야 할 필요성이 커짐에 따라 이러한 노력은 더욱 까다로워질 수 있다. 하지만 더 중요한 것은 장기적으로 AI 콘텐츠를 구분하기가 점점 더 어려워질 것이다. 이렇게 되면 합성 데이터의 걸러 내기와 제거가 (재정적) 수익이 줄어드는 게임이 될 것이다.
궁극적으로 지금까지의 연구에 따르면 인간 데이터를 완전히 없앨 수는 없다. 결국 AI의 "나"는 어디에서 나오는 것일까?
우리는 재앙으로 향하고 있는가?
개발자들이 이미 고품질 데이터를 확보하기 위해 더 열심히 노력해야 한다는 힌트가 있다. 예를 들어, GPT-4 릴리스와 함께 제공되는 설명서는 프로젝트의 데이터 관련 부분에 참여한 전례 없는 수의 직원을 인정했다.
또한 새로운 인간 데이터가 고갈될 수도 있다. 일부 추정에 따르면 인간이 생성한 텍스트 데이터 풀은 2026년이면 고갈될 수 있다고 한다.
이것이 OpenAI와 다른 회사들이 Shutterstock, Associated Press, NewsCorp와 같은 업계 거물들과의 독점적 파트너십을 강화하기 위해 경쟁하는 이유일 것이다. 이들은 대중 인터넷에서 쉽게 이용할 수 없는 방대한 독점적 인간 데이터 컬렉션을 소유하고 있다.
그러나 재앙적인 모델 붕괴의 전망은 과장되었을 수 있다. 지금까지 대부분의 연구는 합성 데이터가 인간 데이터를 대체하는 경우를 살펴본다. 실제로 인간과 AI 데이터는 병렬로 축적될 가능성이 높으므로 붕괴 가능성이 줄어든다.
가장 가능성 있는 미래 시나리오는 단일 모놀리식 모델이 아닌 다소 다양한 생성 AI 플랫폼의 생태계가 콘텐츠를 만들고 게시하는 데 사용되는 것이다. 이는 또한 붕괴에 대한 견고성을 증가시킨다.
규제 기관이 AI 부문의 독점을 제한하여 건전한 경쟁을 촉진하고 공익 기술 개발에 자금을 지원하는 것은 좋은 이유이다.
실제 우려 사항
AI가 만든 콘텐츠가 너무 많으면 더 미묘한 위험도 있다.
합성 콘텐츠의 홍수는 AI 개발의 진행에 실존적 위협을 가하지 않을 수 있지만 (인간) 인터넷의 디지털 공공재를 위협한다.
예를 들어, 연구자들은 ChatGPT가 출시된 지 1년 만에 코딩 웹사이트 StackOverflow에서 활동이 16% 감소한 것을 발견했다. 이는 AI 지원이 일부 온라인 커뮤니티에서 이미 사람 간 상호 작용을 줄이고 있을 수 있음을 시사한다.
AI 기반 콘텐츠 팜의 과잉 생산으로 인해 광고로 채워진 클릭베이트가 아닌 콘텐츠를 찾는 것도 더 어려워지고 있다.
인간이 생성한 콘텐츠와 AI가 생성한 콘텐츠를 확실하게 구별하는 것이 불가능해지고 있다. 이를 해결하는 한 가지 방법은 나와 다른 많은 사람들이 최근에 강조했듯이 AI가 생성한 콘텐츠에 워터마킹이나 라벨을 붙이는 것이다. 또한 최근 호주 정부의 임시 법률에 반영되어 있다.
또 다른 위험도 있다. AI가 생성한 콘텐츠가 체계적으로 동질화 됨에 따라 우리는 사회 문화적 다양성을 잃을 위험이 있으며 일부 집단은 문화적 소거를 경험할 수도 있다. 우리는 AI 시스템이 제기하는 사회적, 문화적 과제에 대한 학제간 연구가 시급히 필요하다.
인간 상호작용과 인간 데이터는 중요하며, 우리는 이를 보호해야 한다. 우리 자신을 위해서, 그리고 미래의 모델 붕괴 위험을 위해서도 말이다.
이미지 출처: Google DeepMind / Unsplash