광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[Meta, Wikipedia 사실 확인을 위한 AI 구축] 총 650만 개 기사. Facebook의 Meta는 위키피디어 정보를 확인 희망한다. 지난달에 게시된 블로그 게시물에서 회사 직원들은 AI가 Wikipedia를 보다 정확하게 만드는 데 어떻게 하나? Meta의 Fundamental AI Research 기술 수석 관리자인 Fabio Petroni는 Digital Trends 와의 인터뷰 에서 "우리가 한 일은 이러한 모든 웹 페이지를 단락으로 나누고 각 단락에 대한 정확한 표현을 제공하여 이러한 모든 웹 페이지의 색인을 구축하는 것입니다." 라고 말했다도움이 되는지 설명한다.

박영숙세계미래보고서저자 | 기사입력 2022/09/20 [21:18]

[Meta, Wikipedia 사실 확인을 위한 AI 구축] 총 650만 개 기사. Facebook의 Meta는 위키피디어 정보를 확인 희망한다. 지난달에 게시된 블로그 게시물에서 회사 직원들은 AI가 Wikipedia를 보다 정확하게 만드는 데 어떻게 하나? Meta의 Fundamental AI Research 기술 수석 관리자인 Fabio Petroni는 Digital Trends 와의 인터뷰 에서 "우리가 한 일은 이러한 모든 웹 페이지를 단락으로 나누고 각 단락에 대한 정확한 표현을 제공하여 이러한 모든 웹 페이지의 색인을 구축하는 것입니다." 라고 말했다도움이 되는지 설명한다.

박영숙세계미래보고서저자 | 입력 : 2022/09/20 [21:18]

 

Meta, Wikipedia 사실 확인을 위한 AI 구축 - 총 650만 개 기사

 

30세 이상의 대부분의 사람들은 아마도 좋은 구식 백과사전으로 조사를 했던 기억이 있다. 책장에서 많은 양의 책을 꺼내 관심 주제에 대한 색인을 확인한 다음 해당 페이지로 넘어가 읽기 시작했다. 구글 검색창에 단어 몇 개를 입력하는 것만큼 쉽지는 않았지만 긍정적인 면에서는 브리태니커 나 세계 책 의 페이지에서 찾은 정보 가 정확하고 사실이라는 것을 알았다.

오늘날 인터넷 조사에서는 그렇지 않다. 압도적으로 많은 출처는 충분히 혼란스러웠지만 잘못된 정보의 확산을 추가하면 온라인에서 읽은 단어를 믿는 사람이 있다는 것은 놀라운 일이다.

Wikipedia가 그 예이다. 2020년 초 현재 이 사이트의 영어 버전은 하루 평균 약 2억 5,500만 페이지 뷰를 기록하여 인터넷에서 8번째로 많이 방문한 웹사이트가 되었다. 지난달 기준으로 7위까지 올라갔고 , 영문판은 현재 650만개 이상의 기사를 보유하고 있다.

그러나 이 이동 정보소스만큼 트래픽이 많을 수 있지만 그 정확성은 약간 아쉬운 부분을 남긴다. 사이트 자체의 신뢰성에 대한 페이지 에는 "온라인 백과사전은 자신을 출처로 신뢰할 수 있다고 생각하지 않으며 독자가 학술 또는 연구 환경에서 이를 사용하는 것을 권장하지 않습니다."라고 명시되어 있다.

이전 Facebook의 Meta는 위키피디어 정보를 확인 희망한다. 지난달에 게시된 블로그 게시물에서 회사 직원들은 AI가 Wikipedia를 보다 정확하게 만드는 데 어떻게 도움이 되는지 설명한다.

수만 명이 사이트 편집에 참여하지만 그들이 추가한 사실이 반드시 정확하지는 않다. 인용이 있는 경우에도 항상 정확하거나 관련성이 있는 것은 아니다.

Meta는 이러한 인용을 스캔하고 해당 콘텐츠를 Wikipedia 기사와 상호 참조하여 주제가 정렬되어 있을 뿐만 아니라 인용된 특정 수치가 정확한지 확인하는 기계학습 모델을 개발하고 있다.

이것은 단순히 숫자를 선택하고 일치하는지 확인하는 문제가 아닙니다. Meta의 AI는 인용된 출처의 내용을 "이해"해야 한다(복잡성 이론 연구원 Melanie Mitchell 이 ​​말했듯이 "이해"는 잘못된 이름이지만 AI는 여전히 "협소한" 단계에 있으므로 고도로 정교한 패턴 인식, "이해"는 여전히 매우 다른 인간 인식에 사용되는 단어이다).

Meta의 모델은 텍스트 문자열을 비교하고 동일한 단어를 포함하는지 확인하는 것이 아니라 자연어 이해(NLU) 기술을 사용하여 도달하는 텍스트 블록의 수학적 표현을 비교하여 내용을 "이해"한다.

Meta의 Fundamental AI Research 기술 수석 관리자인 Fabio Petroni는 Digital Trends 와의 인터뷰 에서 "우리가 한 일은 이러한 모든 웹 페이지를 단락으로 나누고 각 단락에 대한 정확한 표현을 제공하여 이러한 모든 웹 페이지의 색인을 구축하는 것입니다." 라고 말했다 “그것은 구절을 한 단어로 표현하는 것이 아니라 구절의 의미를 나타내는 것입니다. 이는 유사한 의미를 가진 두 개의 텍스트 덩어리가 이 모든 구절이 저장되는 결과 n차원 공간에서 매우 가까운 위치에 표시될 것임을 의미합니다.”

AI는 400만 개의 Wikipedia 인용 세트에 대해 교육을 받고 있으며 사이트에서 잘못된 인용을 찾아내는 것 외에도 제작자는 결국 방대한 데이터 색인에서 가져와 정확한 출처를 제안할 수 있기를 바란다. 지속적으로 업데이트한다.

해결해야 할 한 가지 큰 문제는 출처의 신뢰성에 대한 등급 시스템에서 작업하는 것이다. 예를 들어 과학 저널의 논문은 블로그 게시물보다 높은 등급을 받는다. 온라인 콘텐츠의 양은 매우 방대하고 다양하여 거의 모든 주장을 뒷받침하는 "출처"를 찾을 수 있지만 잘못된 정보에서 잘못된 정보를 구문 분석한다(전자는 잘못된 것을 의미하고 후자는 고의적으로 기만하는 것을 의미함). 동료 검토를 거치지 않은 사람에게서, 급하게 뺨을 맞은 사람에게서 사실 확인을 받는 것은 작은 일이 아니라 신뢰와 관련하여 매우 중요한 일이다.

Meta는 해당 모델을 오픈소스화했으며, 궁금한 분들은 검증 도구 의 데모 를 볼 수 있다. Meta의 블로그 게시물은 회사가 이 프로젝트에서 Wikimedia와 협력하지 않고 있으며 아직 연구 단계에 있으며 현재 Wikipedia의 콘텐츠를 업데이트하는 데 사용되지 않는다고 언급했다.

당신이 Wikipedia에서 읽는 모든 것이 정확하고 신뢰할 수 있는 멀지 않은 미래를 상상한다면, 어떤 종류의 연구도 너무 쉽게 하지 않을까? 다양한 소스를 직접 확인하고 비교하는 것만큼 가치 있는 것이 있지 않나? 무거운 책을 샅샅이 뒤지는 것에서 검색 엔진에 몇 단어를 입력하고 "Enter" 키를 누르는 것은 큰 도약이었다. 우리는 Wikipedia가 연구의 출발점에서 마지막 단어를 얻는 출처로 이동하기를 정말로 원하나?

어쨌든 메타의 AI 연구팀은 온라인 백과사전을 개선할 수 있는 도구를 위해 계속 노력할 것이다. 페트로니는 "결국 우리는 호기심에 이끌렸다고 생각한다" 고 말했다“우리는 이 기술의 한계가 무엇인지 알고 싶었다. 우리는 [이 AI]가 이러한 맥락에서 의미 있는 일을 할 수 있는지 확신할 수 없었다. 아무도 비슷한 일을 시도한 적이 없다.”

이미지 크레디트: Pixabay 로부터 입수된 Gerd Altmann

 

 

 
 
광고
광고
광고
광고
광고
광고
많이 본 기사
신기술&메타버스AR/VR 많이 본 기사
최신기사