광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고

AI넷

유미포[Meta의 새로운 AI, 100개 이상의 언어로 실시간 음성 번역] 전문 통역가의 통역만큼이나 정확하고 빠르다.메타의 새로운 번역 AI는 거의 바벨피쉬다 이 시스템은 101개 언어로 실시간 음성 대 음성 번역을 할 수 있다.

윤소정 | 기사입력 2025/01/17 [12:34]

유미포[Meta의 새로운 AI, 100개 이상의 언어로 실시간 음성 번역] 전문 통역가의 통역만큼이나 정확하고 빠르다.메타의 새로운 번역 AI는 거의 바벨피쉬다 이 시스템은 101개 언어로 실시간 음성 대 음성 번역을 할 수 있다.

윤소정 | 입력 : 2025/01/17 [12:34]

 

Meta의 새로운 AI, 100개 이상의 언어로 실시간 음성 번역

전문 통역가의 통역만큼이나 정확하고 빠르다.

 

 

보편적인 AI 통역가의 꿈이 조금 더 가까워졌다. 이번 주에 기술 거대 기업 Meta는 101개 언어로 말을 하자마자 거의 즉시 통역할 수 있는 새로운 AI를 출시했다.

 

 

 

AI 번역기는 새로운 것이 아니다. 하지만 일반적으로 텍스트에서 가장 잘 작동하고, 한 언어에서 다른 언어로 말한 단어를 변환하는 데 어려움을 겪는다. 이 과정은 일반적으로 여러 단계로 이루어진다. AI는 먼저 음성을 텍스트로 바꾸고, 텍스트를 번역한 다음, 다시 음성으로 변환한다. 일상 생활에서는 이미 유용하지만, 이러한 시스템은 비효율적이고 느리다. 각 단계에서 오류가 몰래 들어올 수도 있다.

 

 

Meta의 새로운 AI인 SEAMLESSM4T는 음성을 음성으로 직접 변환할 수 있다. 음성 합성기를 사용하여 이 시스템은 101개 언어로 말한 단어를 36개 언어로 번역합니다. 현재 AI 통역사를 지배하는 경향이 있는 영어뿐만 아니다. 직접 비교 평가에서 이 알고리즘은 오늘날의 최고 모델보다 23% 더 정확하고 전문 인간통역사와 거의 비슷한 속도이다. 또한 텍스트를 텍스트로, 텍스트를 음성으로, 그리고 그 반대로 번역할 수도 있다.

 

 

Meta는 비상업적 사용을 위해 AI를 개발하는 데 사용된 모든 데이터와 코드를 대중에게 공개하여 다른 사람들이 최적화하고 이를 기반으로 구축할 수 있도록 한다. 어떤 의미에서 이 알고리즘은 "특정 언어 쌍이나 기술 전문 용어에 대한 번역 품질을 개선하는 것과 같은 특정 목적을 위해 신중하게 큐레이팅된 데이터 세트에서 미세 조정할 수 있기 때문에" "기초적"이다. 이 프로젝트에 참여하지 않은 Tallinn University of Technology의 Tanel Alumäe는 이렇게 썼다. "이 수준의 개방성은 이러한 모델을 처음부터 구축하는 데 필요한 방대한 계산 리소스가 부족한 연구자에게 큰 이점입니다."

 

 

서리대학의 사빈 브라운(Sabine Braun)은 Nature에 "이것은 매우 흥미롭고 중요한 노력"이라고 말했다. 브라운은 이 연구에 참여하지 않았다.

 

자기 학습 AI

 

기계 번역은 지난 몇 년 동안 대규모 언어 모델 덕분에 큰 진전을 이루었다. ChatGPT와 Claude와 같은 인기있는 챗봇을 구동하는 이 모델은 블로그, 포럼 댓글, 위키피디아 등 인터넷에서 스크래핑한 방대한 데이터 세트를 사용하여 언어를 학습한다.

 

 

번역에서 인간은 정확성을 보장하기 위해 이러한 데이터 세트 또는 "코퍼스"를 신중하게 검토하고 레이블을 지정한다. 레이블 또는 범주는 AI가 학습하고 예측할 때 일종의 "기본 진실"을 제공한다.

 

 

하지만 모든 언어가 동등하게 표현되는 것은 아니다. 영어와 프랑스어와 같이 리소스가 많은 언어의 경우 훈련 코퍼스를 쉽게 구할 수 있다. 반면, 중소득 또는 저소득 국가에서 주로 사용되는 리소스가 적은 언어는 찾기가 더 어려워 신뢰할 수 있는 데이터 세트로 데이터가 부족한 AI 번역기를 훈련하는 것이 어렵다.

 

 

"번역을 위한 일부 인간이 레이블을 붙인 리소스는 무료로 제공되지만 종종 소수의 언어나 매우 특정한 도메인으로 제한됩니다."라고 저자는 썼다.

 

 

문제를 해결하기 위해 팀은 병렬 데이터 마이닝이라는 기술을 사용했는데, 이는 인터넷과 다른 리소스를 크롤링하여 한 언어의 오디오 스니펫과 다른 언어의 일치하는 자막을 찾는다. 의미가 일치하는 이러한 쌍은 여러 언어로 풍부한 교육 데이터를 추가하므로 인간의 주석이 필요하지 않다. 전반적으로 팀은 일치하는 텍스트가 있는 약 443,000시간 분량의 오디오를 수집하여 약 30,000개의 정렬된 음성-텍스트 쌍을 생성했다.

 

 

SEAMLESSM4T는 세 가지 다른 블록으로 구성되어 있으며, 일부는 텍스트와 음성 입력을 처리하고 다른 일부는 출력을 처리한다. AI의 번역 부분은 여러 언어로 된 450만 시간의 음성 오디오가 포함된 방대한 데이터 세트에서 사전 학습되었다. 이 초기 단계는 AI가 나중에 "데이터의 패턴을 학습하여 특정 작업에 대한 모델을 미세 조정하기 쉽게 만들었습니다"라고 Alumäe는 썼다. 다시 말해, AI는 언어에 관계없이 음성의 일반적인 구조를 인식하는 법을 배웠고, 나중에 저소득 언어를 번역하기 쉽게 만드는 기준선을 확립했다.

 

 

그런 다음 AI는 음성 쌍을 통해 훈련을 받고 다른 번역 모델과 비교하여 평가되었다.

 

AI의 주요 장점은 먼저 텍스트로 변환하지 않고도 음성을 직접 번역할 수 있는 능력이다. 이 능력을 테스트하기 위해 팀은 AI에 오디오 합성기를 연결하여 출력을 방송했다. AI는 알고 있는 101개 언어 중 하나에서 시작하여 몇 초의 지연만으로 저소득 언어를 포함한 36개 언어로 음성을 번역했다.

 

 

이 알고리즘은 기존의 최첨단 시스템을 능가하여 표준화된 테스트를 사용하여 23% 더 높은 정확도를 달성했다. 또한 배경 소음과 다른 화자의 음성을 더 잘 처리했지만 인간과 마찬가지로 악센트가 강한 말에는 어려움을 겪었다.

 

번역 오류

 

언어는 단순히 문장으로 이어진 단어가 아니다. 문화적 맥락과 뉘앙스를 반영한다. 예를 들어, 성별 중립 언어를 성별이 있는 언어로 번역하면 편견이 생길 수 있다. 영어의 "I am a teacher"는 남성형 " Soy profesor "로 번역될까요, 아니면 스페인어의 여성형 " Soy profesora "로 번역될까요? 의사, 과학자, 유모 또는 대통령에 대한 번역은 어떨까요?

 

 

오역은 또한 AI가 원래 의미를 반영하지 않는 공격적이거나 해로운 언어를 토해낼 때 "독성"을 더할 수 있다. 특히 다른 언어에 직접적인 대응어가 없는 단어의 경우 더욱 그렇다. 어떤 경우에는 오류의 코미디로 웃어넘기기 쉽지만, 이러한 실수는 의료, 이민 또는 법적 시나리오에 관해서는 치명적으로 심각하다.

 

 

"이런 종류의 기계 유발 오류는 약물을 잘못 처방하거나, 시험에서 잘못된 사람을 고발하는 것과 같이 실제적인 피해를 유발할 가능성이 있습니다." 연구에 참여하지 않은 코넬 대학의 앨리슨 코에네케가 썼다. 이 문제는 상대적으로 훈련 데이터가 부족하기 때문에 저소득 언어나 특이한 방언을 사용하는 사람들에게 불균형적으로 영향을 미칠 가능성이 높다.

 

 

Meta팀은 독성 모델을 분석하고 여러 단계에 걸쳐 미세 조정하여 성적 편견과 유해한 언어 사용 가능성을 낮췄다는 점이 칭찬을 받았다.

 

 

Koenecke는 "이것은 올바른 방향으로 나아가는 한 걸음이며, 미래 모델을 테스트할 수 있는 기준을 제공합니다."라고 적었다.

 

 

Meta는 점점 더 오픈소스 기술을 지원하고 있다. 이전에 이 기술 거대 기업은 AI 훈련을 위한 소프트웨어 라이브러리인 PyTorch를 출시했는데, 이는 OpenAI와 Tesla를 포함한 회사와 전 세계 연구자들이 사용했다. SEAMLESSM4T도 다른 사람들이 그 능력을 확장할 수 있도록 공개될 것이다.

 

 

AI는 음성 대 음성 번역을 처리할 수 있는 최신 기계 번역기일 뿐이다. 이전에 Google은 113개 언어를 영어로 변환할 수 있는 알고리즘인 AudioPaLM을 선보였지만, 영어만 가능하다. SEAMLESSM4T는 범위를 넓힌다. 약 7,000개 언어의 표면만 긁었을 뿐이지만, AI는 우주 전역의 종들의 언어를 귀에 넣으면 번역해주는 은하수를 여행하는 히치하이커를 위한 안내서 의 바벨피쉬처럼 보편적인 번역기에 한 걸음 더 다가간다 .

 

 

Alumäe는 "저자들이 실제 세계 데이터를 활용하는 방법은 공상과학에 나오는 것과 맞먹는 음성 기술로 나아가는 유망한 길을 만들어 낼 것"이라고 썼다.

 

 

 

메타의 새로운 번역 AI는 거의 바벨피쉬다 

이 시스템은 101개 언어로 실시간 음성 대 음성 번역을 할 수 있다.

 

공상과학의 보편적 번역기, 예를 들어 은하수를 여행하는 히치하이커를 위한 안내서 의 바벨 피시는 오랫동안 한 구어에서 다른 구어로의 즉각적인 번역이라는 꿈을 제공해 왔습니다. 이제 이 판타지를 현실로 만드는 데 중요한 단계가 될 수 있는 페이스북 모회사 메타 의 과학자들은 최대 101개 언어에 대한 직접적인 음성 대 음성 번역을 포함하여 음성과 텍스트를 즉시 번역할 수 있는 AI 시스템을 개발했습니다.

 

손바닥 위에 채팅 상자가 떠 있는 로봇 손이 다채로운 대화 거품을 배경으로 배치되어 있습니다.

 

캘리포니아 멘로파크에 있는 Meta의 Fundamental AI Research 팀의 연구 과학자 인 마르타 코스타-주사 는 "공상 과학은 우리 그룹이 집중할 수 있는 명확한 목표를 제공합니다."라고 말합니다 . 과학자들은 1월 15일에 저널 Nature 에 그들의 작업을 설명했습니다 .

 

세계가 더욱 상호 연결됨에 따라 사람들은 그 어느 때보다 다국어 콘텐츠에 더 쉽게 접근할 수 있습니다. 그러나 대부분의 자동 번역 시스템은 텍스트만 입력하고 출력하도록 설계되었습니다. 지금까지 존재했던 음성 대 음성 기계 번역 시스템은 텍스트 대 텍스트 시스템보다 훨씬 적은 언어를 다루었습니다. 게다가 이전의 음성 ​​대 음성 시스템은 종종 영어에서 다른 언어로 번역하는 것이 아니라 주어진 언어를 영어로 번역하는 데 치우쳐 있었습니다.

 

Meta의 SeamlessM4T 번역 기술

이제 Meta는 최대 101개 언어로 음성과 텍스트를 번역할 수 있는 SeamlessM4T 라는 AI 시스템을 개발했습니다 . 구체적으로는 101~36개 언어의 음성-음성 번역, 101~96개 언어의 음성-텍스트 번역, 96~36개 언어의 텍스트-음성 번역, 96개 언어의 텍스트-텍스트 번역, 96개 언어의 자동 음성 인식을 지원할 수 있습니다. (언어 간 번역이 가능한지 여부는 양질의 음성 데이터의 가용성에 따라 달라집니다. Costa-jussà가 말했습니다.)

 

SeamlessM4T를 개발하기 위해 연구자들은 공개적으로 이용 가능한 웹 데이터 저장소에서 400만 시간의 다국어 오디오와 수십억 개의 문장을 사용하여 뇌를 모방하는 신경망 AI 시스템을 훈련했습니다. 또한 시스템을 더욱 개선하기 위해 자막이 있는 인터넷 비디오 클립과 같이 일치하는 텍스트가 있는 약 443,000시간의 오디오를 분석했습니다.

 

음성 대 음성 번역에 관해서, 연구팀은 SeamlessM4T의 번역이 이전 최첨단 시스템보다 최대 23% 더 정확하다는 것을 발견했습니다. 음성 대 텍스트 작업의 경우, 이전 시스템보다 8% 더 정확했습니다.

게다가 SeamlessM4T는 음성-텍스트 작업에서 배경 소음과 화자의 말투 변화에 대해 약 50% 더 회복력이 좋았습니다. 게다가 두 개 이상의 언어를 섞은 발화도 번역할 수 있었습니다.

 

독성 및 편견 확인

SeamlessM4T가 번역에 욕설 및 기타 유해한 언어를 추가할 가능성을 줄이기 위해 연구자들은 훈련 및 운영 중에 독성을 제거하기 위한 두 가지 전략을 채택했습니다. SeamlessM4T 모델을 최신 기술과 비교했을 때 이러한 접근 방식이 번역에서 독성을 최대 20%까지 줄이는 것으로 나타났습니다.

 

뉴욕 이타카에 있는 코넬 대학교의 정보 기술 조교수인 앨리슨 코에네케는 "SeamlessM4T 작업은 번역에서 잠재적인 피해를 감사하는 데 주의를 기울인다"고 말했습니다 . 그는 이 연구에 참여하지 않았습니다. "이것은 기계 기반 음성 번역이 진료 예약에서 직장 채용에 이르기까지 다양한 고위험 애플리케이션에서 점점 더 많이 사용되고 있기 때문에 특히 중요합니다."

Meta 과학자들은 또한 SeamlessM4T가 성별 중립적 문구를 성별 언어로 번역할 때 한 성별을 부당하게 선호하는지 여부를 조사했습니다. 그러나 그들은 성별 편향 성능을 크게 개선할 수 없다는 것을 발견했으며, 이 편향에 대응하기 위한 특정 기술을 개발해야 한다고 말합니다.

 

에스토니아 탈린 공과대학의 음성 처리 부교수인 타넬 알루매에(Tanel Alumäe)는 SeamlessM4T와 함께 Meta가 음성과 텍스트를 분석하기 위한 여러 가지 지원 AI 시스템을 출시했다고 언급했습니다. 그는 SeamlessM4T에서 일하지 않았습니다. 알루매에와 그의 동료들은 이러한 도구 중 하나를 "음성에서 감정을 인식하고 음성에서 알츠하이머병과 같은 초기 인지 저하를 감지하는 것과 같은 것"에 성공적으로 사용했습니다.

 

현재 Meta는 SeamlessM4T를 사용하여 Instagram 과 Facebook 에서 비디오를 자동으로 더빙하는 데 도움을 주고 있습니다 . 또한 특수 Ray-Ban 안경을 쓴 스피커를 통해 스페인어, 프랑스어 또는 이탈리아어를 영어로 실시간 번역하는 데 도움이 된다고 Costa-jussà는 말합니다. Meta는 음성 번역 기술에 대한 향후 연구를 촉진하기 위해 SeamlessM4T와 관련된 코드, 도구, 라이브러리 및 기타 리소스를 비상업적 사용을 위해 공개적으로 제공하고 있습니다.

 

연구자들이 SeamlessM4T를 지구상의 보편적인 번역기로 만들고 싶다면 아직 많은 작업이 남아 있습니다. 현재 기술이 약 100개 언어를 지원한다는 것은 신나는 일이지만, "세계에서 사용되는 언어의 수는 훨씬 더 많습니다. 어떤 추정에 따르면 약 6,500개입니다."라고 Alumäe는 말합니다.

 

 

 

 

 
광고
광고
광고
광고
광고
광고
유투브 많이 본 기사