광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[AI, 머신러닝으로 가짜 뉴스 분별] Meta(구. Facebook)은 인터넷에 포스팅 된 인용을 스캔하고 해당 콘텐츠를 Wikipedia 기사와 상호 참조하여 주제가 정렬되어 있을 뿐만 아니라 인용된 특정 수치가 정확한지 확인하는 머신러닝 모델을 개발하고 있다. 즉, 위키피디아(Wikipedia) 사실 확인을 위한 AI를 구축하고 있으며 총 650만 개 기사에 해당한다.

https://singularityhub.com/2022/08/26/meta-is-building-an-ai-to-fact-check-wikipedia-all-6-5-million-articles/

JM Kim | 기사입력 2022/08/29 [00:00]

[AI, 머신러닝으로 가짜 뉴스 분별] Meta(구. Facebook)은 인터넷에 포스팅 된 인용을 스캔하고 해당 콘텐츠를 Wikipedia 기사와 상호 참조하여 주제가 정렬되어 있을 뿐만 아니라 인용된 특정 수치가 정확한지 확인하는 머신러닝 모델을 개발하고 있다. 즉, 위키피디아(Wikipedia) 사실 확인을 위한 AI를 구축하고 있으며 총 650만 개 기사에 해당한다.

https://singularityhub.com/2022/08/26/meta-is-building-an-ai-to-fact-check-wikipedia-all-6-5-million-articles/

JM Kim | 입력 : 2022/08/29 [00:00]

30세 이상의 대부분의 사람들은 아마도 좋은 구식 백과사전으로 조사를 했던 것을 기억할 것이다. 책장에서 많은 양의 책을 꺼내 관심 주제에 대한 색인을 확인한 다음 해당 페이지로 넘어가 읽기 시작한다. 구글 검색창에 단어 몇 개를 입력하는 것만큼 쉽지는 않았지만 긍정적인 측면에서는 브리태니커나 세계 책 페이지에서 찾은 정보가 정확하고 사실이라는 것을 알았다.

 

인터넷 조사에서는 그렇지 않다. 압도적으로 많은 출처는 충분히 혼란스러웠지만 잘못된 정보의 확산을 추가하고 우리 중 누군가가 온라인에서 읽은 단어를 믿는 것은 놀라운 일이다.

 

Wikipedia가 그 예이다. 2020년 초 현재 이 사이트의 영어 버전은 하루 평균 약 2 5,500만 페이지 뷰를 기록하여 인터넷에서 8번째로 많이 방문한 웹사이트가 되었다. 지난달 현재 7위까지 올라갔고, 영문판은 현재 650만개 이상의 기사를 보유하고 있다.

 

그러나 이 이동 정보 소스만큼 트래픽이 많을 수 있지만 그 정확성은 약간 아쉬운 부분을 남긴다. 사이트 자체의 신뢰성에 대한 페이지에는 "온라인 백과사전은 자신을 출처로 신뢰할 수 있다고 생각하지 않으며 독자가 학술 또는 연구 환경에서 이를 사용하는 것을 권장하지 않는다."고 명시되어 있다.

 

이전 Facebook Meta는 이것을 바꾸고 싶어한다. 지난 달에 게시된 블로그 게시물에서 회사 직원들은 AI Wikipedia를 보다 정확하게 만드는 데 어떻게 도움이 되는지 설명한다.

 

수만 명이 사이트 편집에 참여하지만 그들이 추가하는 사실이 반드시 정확하지는 않다. 인용이 있는 경우에도 항상 정확하거나 관련성이 있는 것은 아니다.

 

Meta는 이러한 인용을 스캔하고 해당 콘텐츠를 Wikipedia 기사와 상호 참조하여 주제가 정렬되어 있을 뿐만 아니라 인용된 특정 수치가 정확한지 확인하는 머신러닝모델을 개발하고 있다.

 

이것은 단순히 숫자를 선택하고 일치하는지 확인하는 문제가 아니다. Meta AI는 인용된 출처의 내용을 "이해"해야 한다(복잡성 이론 연구원 Melanie Mitchell이 말했듯이 "이해"는 잘못된 이름이지만 AI는 여전히 "좁은단계에 있기 때문에 고도로 정교한 패턴 인식, "이해"는 여전히 매우 다른 인간 인식에 사용되는 단어이다).

 

Meta의 모델은 텍스트 문자열을 비교하고 동일한 단어가 포함되어 있는지 확인하는 것이 아니라 자연어 이해(NLU) 기술을 사용하여 도달하는 텍스트 블록의 수학적 표현을 비교하여 콘텐츠를 "이해"한다.

 

Meta Fundamental AI Research 기술 수석 관리자인 Fabio Petroni Digital Trends와의 인터뷰에서 "우리가 한 것은 이러한 모든 웹 페이지를 단락으로 나누고 각 단락에 대한 정확한 표현을 제공하여 이러한 모든 웹 페이지의 색인을 구축한 것이다."고 말했다. “그것은 구절을 한 단어로 표현하는 것이 아니라 구절의 의미를 나타내는 것이다. 이는 유사한 의미를 가진 두 개의 텍스트 덩어리가 이 모든 구절이 저장되는 결과 n차원 공간에서 매우 가까운 위치에 표시될 것임을 의미한다.”

 

AI 400만 개의 Wikipedia 인용 세트에 대해 교육을 받고 있으며 사이트에서 잘못된 인용을 찾아내는 것 외에도 제작자는 결국 방대한 데이터 색인에서 가져와 정확한 출처를 제안할 수 있기를 바란다. 지속적으로 업데이트한다.

 

해결해야 할 큰 문제 중 하나는 출처의 신뢰성에 대한 등급 시스템에서 작업하는 것이다. 예를 들어 과학 저널의 논문은 블로그 게시물보다 높은 등급을 받는다. 온라인 콘텐츠의 양은 매우 방대하고 다양하여 거의 모든 주장을 뒷받침하는 "출처"를 찾을 수 있지만 잘못된 정보에서 잘못된 정보를 구문 분석한다(전자는 잘못된 것을 의미하고 후자는 고의적으로 기만하는 것을 의미함). 동료 검토를 거치지 않은 사람에게서, 급하게 뺨을 맞은 사람에게서 사실 확인을 받는 것은 작은 일이 아니라 신뢰와 관련하여 매우 중요한 일이다.

 

Meta는 해당 모델을 오픈소스화했으며, 궁금한 분들은 검증 도구의 데모를 볼 수 있다. Meta의 블로그 게시물은 회사가 이 프로젝트에서 Wikimedia와 협력하지 않고 있으며 아직 연구 단계에 있으며 현재 Wikipedia의 콘텐츠를 업데이트하는 데 사용되지 않는다고 언급했다.

 

당신이 위키피디아(Wikipedia)에서 읽는 모든 것이 정확하고 신뢰할 수 있는 멀지 않은 미래를 상상한다면, 어떤 종류의 연구도 너무 쉽게 하지 않을까? 다양한 소스를 직접 확인하고 비교하는 것만큼 소중한 것이 있지 않나요? 무거운 책을 샅샅이 뒤지는 것에서 검색 엔진에 몇 단어를 입력하고 "Enter" 키를 누르는 것은 큰 도약이었다. 우리는 Wikipedia가 연구의 출발점에서 마지막 단어를 얻는 출처로 이동하기를 정말로 원할까?

 

어쨌든 Meta AI 연구팀은 온라인 백과사전을 개선할 수 있는 도구를 위해 계속 노력할 것이다. Petroni "결국 우리는 호기심에 이끌렸다고 생각한다"고 말했다. “우리는 이 기술의 한계가 무엇인지 알고 싶었다. 우리는 [ AI]가 이러한 맥락에서 의미 있는 일을 할 수 있는지 확신할 수 없었다. 아무도 비슷한 일을 시도한 적이 없다.”

 

이미지 출처: Pixabay/Gerd Altmann

 
AI, 머신러닝, 가짜 분별, 위키피디아(Wikipedia) 관련기사목록
광고
광고
광고
광고
광고
광고
많이 본 기사
AIbio소식 많이 본 기사
최신기사