AI법[네이처, AI 워터마킹은 효과적이려면 방수 기능이 있어야 한다.] 과학자들은 사용자 경험에 영향을 미치지 않고 AI가 생성한 텍스트를 안정적으로 식별할 수 있는 도구에 가까워지고 있다. 하지만 이 기술의 견고성은 여전히 과제이다.
박민제| 입력 : 2024/10/24 [09:16]
공유하기 더보기
2024년 10월 23일
AI 워터마킹은 효과적이려면 방수 기능이 있어야 한다.
과학자들은 사용자 경험에 영향을 미치지 않고 AI가 생성한 텍스트를 안정적으로 식별할 수 있는 도구에 가까워지고 있다. 하지만 이 기술의 견고성은 여전히 과제이다.
워터마킹이 곧 여러분 근처의 AI 챗봇에 적용될 수 있습니다. 출처: Jonathan Raa/NurPhoto/Getty
연구 세계에서 갑자기 대중의 의식 속으로, 그리고 생성AI만큼 널리 사용되는 도구나 기술은 드뭅니다. 대규모 언어 모델(LLM)이 인간이 만든 것과 거의 구별할 수 없는 텍스트와 이미지를 만드는 능력은 수많은 인간 활동 분야를 파괴하고, 혁신하고 있습니다. 그러나 학술적 표절에서 대량의 잘못된 정보 생성에 이르기까지 오용의 가능성은 이미 분명합니다. AI가 너무 빠르게 발전하고 있어서 보호 레일이 없다면 정확성을 보장하고 피해를 줄이기에는 곧 너무 늦을 수 있다는 우려가 있습니다. 1 .
이번 주에 런던에 있는 구글의 AI 연구실인 DeepMind의 Sumanth Dathathri와 그의 동료들은 텍스트의 출처를 인증하는 데 사용할 수 있는 디지털 식별자의 한 형태인 '통계적 서명'을 내장하여 AI가 생성한 텍스트에 '워터마킹'하는 새로운 접근 방식을 테스트했다고 보고했습니다 .2 워터마크라는 단어는 종이와 인쇄 시대에서 유래되었으며, 육안으로는 즉시 눈에 띄지 않지만 인쇄된 텍스트를 변경하지 않는 종이 두께의 변화를 설명합니다. 디지털로 생성된 텍스트나 이미지의 워터마크는 사용자에게는 비슷하게 보이지 않아야 하지만 전문 소프트웨어에서는 즉시 눈에 띄어야 합니다.
논문 읽기: 대규모 언어 모델 출력 식별을 위한 확장 가능한 워터마킹
Dathathri와 그의 동료들의 연구는 디지털 텍스트 워터마킹에 중요한 이정표를 나타냅니다. 하지만 기업과 규제 기관이 텍스트가 인간의 제품인지 기계의 제품인지 확신을 가지고 말할 수 있기까지는 아직 갈 길이 있습니다. AI로 인한 피해를 줄이는 것이 필수적이므로, 더 많은 연구자들이 나서서 워터마킹 기술이 약속을 이행하도록 해야 합니다.
저자가 LLM 출력에 워터마킹을 하는 접근 방식은 새로운 것이 아닙니다. 캘리포니아주 샌프란시스코에 있는 ChatGPT의 모회사인 OpenAI에서도 이의 한 버전을 테스트하고 있습니다. 하지만 이 기술이 어떻게 작동하는지, 강점과 한계에 대한 문헌은 제한적입니다. 가장 중요한 기여 중 하나는 2022년에 텍사스 오스틴 대학교의 컴퓨터 과학자인 스콧 아론슨이 많은 논의가 있었던 강연 에서 워터마킹을 어떻게 달성할 수 있는지 설명했을 때였습니다. 다른 사람들도 가치 있는 기여를 했는데, 그중에는 작년에 워터마크 감지 알고리즘을 발표한 메릴랜드 대학교 칼리지 파크의 존 키르헨바우어와 그의 동료들이 있습니다 3 .
DeepMind 팀은 더 나아가 워터마킹이 대규모로 구현될 수 있음을 보여주었습니다. 연구원들은 SynthID-Text라고 부르는 기술을 Google의 AI 기반 챗봇 Gemini에 통합했습니다. 챗봇에 쿼리를 입력한 거의 2,000만 명의 Gemini 사용자를 대상으로 한 실시간 실험에서 사람들은 워터마킹이 없는 응답과 비교했을 때 워터마킹이 있는 응답의 품질이 떨어지는 것을 알아차리지 못했습니다. 이는 중요한데, 사용자는 워터마킹이 없는 텍스트보다 열등하다고 생각하면 워터마킹이 있는 콘텐츠를 받아들이지 않을 가능성이 높기 때문입니다.
AI가 생성한 데이터를 공급받은 AI 모델은 곧바로 말도 안 되는 소리를 쏟아낸다
그러나 결심한 개인이 워터마크를 제거하고 AI가 생성한 텍스트를 사람이 쓴 것처럼 보이게 하는 것은 여전히 비교적 쉽습니다. 이는 DeepMind의 실험에서 사용된 워터마킹 프로세스가 LLM이 통계적으로 '토큰'을 선택하는 방식을 미묘하게 변경하여 작동하기 때문입니다. 즉, 주어진 사용자 프롬프트에 직면하여 기사, 책 및 기타 출처에서 수십억 개의 단어로 구성된 방대한 학습 세트에서 끌어와 그럴듯하게 들리는 응답을 연결하는 방식입니다. 이러한 변경은 분석 알고리즘으로 발견할 수 있습니다. 그러나 신호를 제거할 수 있는 방법이 있습니다. 예를 들어 LLM의 출력을 의역하거나 번역하거나 다른 LLM에 다시 쓰도록 요청하는 것입니다. 그리고 워터마크를 제거한 후에는 실제로 워터마크가 아닙니다.
워터마킹을 올바르게 하는 것은 당국이 AI가 일으킬 수 있는 피해를 제한하는 방식으로 AI를 규제하기 위해 노력하고 있기 때문에 중요합니다. 워터마킹은 핵심 기술로 여겨집니다. 작년 10월, 조 바이든 미국 대통령은 메릴랜드주 게이더스버그에 있는 국립표준기술원(NIST)에 AI 시스템을 대중에게 공개하기 전에 엄격한 안전 테스트 표준을 설정하라고 지시했습니다. NIST는 워터마킹 사용을 포함하여 AI로 인한 피해 위험을 줄이기 위한 계획에 대한 대중의 의견을 구하고 있으며, 이는 강력해야 한다고 말합니다. 아직 계획이 언제 확정될지에 대한 확실한 날짜는 없습니다.
ChatGPT는 어떻게 '생각'할까? 심리학과 신경과학이 AI 대규모 언어 모델을 깨뜨린다
미국과 대조적으로 유럽 연합은 3월에 EU 인공지능법을 통과시키고 이를 시행하기 위한 AI 사무소를 설립하면서 입법적 접근 방식을 채택했습니다. 중국 정부는 이미 의무적 워터마킹을 도입했고, 캘리포니아주도 같은 것을 시도하고 있습니다.
그러나 기술적 장애물을 극복할 수 있다 하더라도 워터마킹은 기업과 사용자에게 수용 가능한 경우에만 진정으로 유용할 것입니다. 규제가 어느 정도 기업이 향후 몇 년 안에 조치를 취하도록 강요할 가능성이 있지만, 사용자가 워터마킹 및 이와 유사한 기술을 신뢰할지는 또 다른 문제입니다.
생성 AI의 오용을 막기 위한 향상된 기술 역량이 절실히 필요하며, 사람들이 이러한 도구와 상호 작용하는 방식, 즉 악의적인 행위자가 AI를 사용하는 방식, 사용자가 워터마킹을 신뢰하는지 여부, 생성 AI 영역에서 신뢰할 수 있는 정보 환경이 어떤 모습인지를 이해해야 합니다. 이는 모두 연구자들이 연구해야 할 질문입니다.
환영할 만한 움직임으로, DeepMind는 SynthID-Text의 모델과 기본 코드를 누구나 사용할 수 있도록 무료로 제공했습니다. 이 작업은 중요한 진전이지만, 기술 자체는 아직 초기 단계입니다. 우리는 그것이 빠르게 성장해야 합니다.
챗봇 혁명은 우리 세상을 AI가 생성한 텍스트로 가득 채웠습니다. 뉴스 피드, 학술 논문, 받은 편지함에 침투했습니다. 너무나 터무니없이 풍부해서 산업이 생겨나서 움직임과 대응 움직임을 제공했습니다. 일부 회사는 자료를 분석하여 AI가 생성한 텍스트를 식별하는 서비스를 제공하는 반면, 다른 회사는 도구가 AI가 생성한 텍스트를 " 인간화 "하여 감지할 수 없게 만든다고 말합니다. 두 유형의 도구 모두 성능이 의심스럽고 , 챗봇이 점점 더 좋아질수록 단어가 인간에 의해 연결되었는지 알고리즘에 의해 연결되었는지 알아내는 것이 더 어려워질 것입니다.
다음은 또 다른 접근 방식입니다. 처음부터 텍스트에 일종의 워터마크나 콘텐츠 자격 증명을 추가하여 사람들이 텍스트가 AI에서 생성되었는지 쉽게 확인할 수 있도록 하는 것입니다. 오늘 Nature 저널에 설명된 Google DeepMind 의 새로운 연구는 바로 이를 수행하는 방법을 제공합니다. Google DeepMind의 연구 부사장이자 논문의 공동 저자인 Pushmeet Kohli는 SynthID-Text라는 시스템이 "텍스트 생성의 품질, 정확성, 창의성 또는 속도"를 손상시키지 않는다고 말합니다. 그러나 연구자들은 그들의 시스템이 완벽하지 않으며 아직 모든 사람이 사용할 수 있는 것은 아니라는 것을 인정합니다. 확장 가능한 솔루션이라기보다는 데모에 가깝습니다.
Google은 이미 이 새로운 워터마킹 시스템을 Gemini 챗봇 에 통합했다고 오늘 발표했습니다. 또한 이 도구를 오픈 소스화하여 개발자와 기업에 제공하여 이들이 이 도구를 사용하여 텍스트 출력이 챗봇을 구동하는 AI 시스템인 자체 대규모 언어 모델 ( LLM ) 에서 나왔는지 확인할 수 있도록 했습니다 . 그러나 현재 워터마크를 확인하는 감지기에 액세스할 수 있는 사람은 Google과 해당 개발자뿐입니다. Kohli가 말했듯이 "SynthID는 AI에서 생성된 콘텐츠를 식별하는 데 완벽한 해결책은 아니지만 보다 신뢰할 수 있는 AI 식별 도구를 개발하는 데 중요한 구성 요소입니다."
콘텐츠 자격 증명의 증가
콘텐츠 자격 증명은 이미지와 비디오에 대한 뜨거운 주제였으며, 딥페이크 의 증가에 맞서는 한 가지 방법으로 여겨져 왔습니다. 기술 회사와 주요 미디어 매체는 C2PA 라는 이니셔티브에 참여하여 이미지와 비디오 파일에 암호화된 메타데이터를 첨부하여 실제 파일인지 AI에서 생성한 파일인지 나타내는 시스템을 개발했습니다. 그러나 텍스트는 워터마크를 숨기거나 제거하기 위해 텍스트를 쉽게 변경할 수 있기 때문에 훨씬 더 어려운 문제입니다. SynthID-Text가 텍스트용 워터마킹 시스템을 만든 첫 번째 시도는 아니지만 2,000만 개의 프롬프트에서 테스트된 첫 번째 시도입니다.
콘텐츠 자격 증명에 대해 작업하는 외부 전문가들은 DeepMind 연구를 좋은 단계로 보고 있습니다. Microsoft의 미디어 출처 책임자이자 C2PA의 임원 의장인 Andrew Jenks 는 "문서 및 원시 텍스트에 대한 C2PA의 내구성 있는 콘텐츠 자격 증명 사용을 개선하는 데 도움이 될 것"이라고 말합니다. C2PA 운영 위원회 위원인 Bruce MacCormack 은 "이것은 해결하기 어려운 문제이며, 어느 정도 진전이 있는 것을 보는 것은 좋은 일입니다"라고 말합니다 .
Google의 텍스트 워터마크 작동 방식
SynthID-Text는 생성 프로세스에 은밀하게 개입하여 작동합니다. 챗봇이 사용자에게 출력하는 단어 중 일부를 사람에게는 보이지 않지만 SynthID 감지기에는 명확하게 보이는 방식으로 변경합니다. 연구자들은 논문에서 "이러한 수정은 생성된 텍스트에 통계적 서명을 도입합니다."라고 썼습니다. "워터마크 감지 단계에서 서명을 측정하여 텍스트가 실제로 워터마크가 있는 LLM에 의해 생성되었는지 확인할 수 있습니다."
챗봇을 구동하는 LLM은 단어별로 문장을 생성하고, 이전에 나온 내용의 맥락을 살펴서 다음 단어를 선택합니다. 기본적으로 SynthID-Text는 후보 단어에 숫자 점수를 무작위로 할당하고 LLM이 더 높은 점수의 단어를 출력하도록 간섭합니다. 나중에 감지기는 텍스트 조각을 가져와 전체 점수를 계산할 수 있습니다. 워터마크가 있는 텍스트는 워터마크가 없는 텍스트보다 점수가 높습니다. DeepMind 팀은 생성 프로세스를 변경하는 다른 텍스트 워터마킹 도구와 시스템의 성능을 비교한 결과, 워터마크가 있는 텍스트를 감지하는 데 더 나은 성과를 보였습니다.
하지만 연구자들은 논문에서 Gemini에서 생성된 텍스트를 변경하고 탐지기를 속이는 것은 여전히 쉽다는 것을 인정했습니다. 사용자가 어떤 단어를 변경해야 할지 알지 못하더라도 텍스트를 크게 편집하거나 다른 챗봇에게 텍스트를 요약하도록 요청하면 워터마크가 가려질 가능성이 큽니다.
규모에 따른 텍스트 워터마크 테스트
SynthID-Text가 챗봇의 응답을 더 나쁘게 만들지 않았는지 확인하기 위해, 팀은 Gemini 에 제공된 2,000만 개의 프롬프트에서 SynthID-Text를 테스트했습니다 . 그 프롬프트의 절반은 SynthID-Text 시스템으로 라우팅되어 워터마크가 찍힌 응답을 받았고, 나머지 절반은 표준 Gemini 응답을 받았습니다. 사용자의 "엄지척 올리기"와 "엄지척 내리기" 피드백으로 판단해 보면, 워터마크가 찍힌 응답은 표준 응답과 마찬가지로 사용자에게 만족스러웠습니다.
이는 Google과 Gemini를 기반으로 하는 개발자에게 좋은 일입니다. 하지만 AI가 생성한 텍스트(일부는 AI slop 이라고 부름 )를 식별하는 전체 문제를 해결하려면 훨씬 더 많은 AI 회사가 워터마킹 기술을 구현해야 합니다. 이상적으로는 상호 운용 가능한 방식으로 구현하여 하나의 감지기가 여러 다른 LLM의 텍스트를 식별할 수 있어야 합니다. 그리고 모든 주요 AI 회사가 어떤 계약에 서명하는 가능성이 낮더라도 오픈소스 LLM의 문제가 여전히 있을 것입니다. 이는 워터마킹 기능을 제거하기 위해 쉽게 변경할 수 있습니다.
C2PA의 맥코맥은 구현에 대해 실질적으로 생각하기 시작하면 탐지가 특히 문제가 된다고 지적합니다. 그는 "야생에서 텍스트를 검토하는 데는 어려움이 있습니다."라고 말합니다. "어떤 워터마킹 모델이 적용되었는지 알아야 신호를 어떻게, 어디에서 찾아야 할지 알 수 있습니다." 전반적으로 그는 연구자들이 여전히 해야 할 일이 많다고 말합니다. 맥코맥은 이 노력이 "막다른 길은 아니지만 긴 여정의 첫 걸음"이라고 말합니다.