광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[달리 인공지능] Microsoft의 새로운 VALL-E AI는 3초 안에 음성을 캡처할 수 있다.Microsoft 연구원은 Vall-E라고 하는 인상적인 새로운 텍스트 음성 변환 AI 모델을 선보였다. Vall-E는 단 몇 초 동안 음성을 들은 다음 감정 톤과 음향을 포함하여 해당 음성을 모방하여 원하는 대로 말할 수 있다.

박영숙세계미래보고서저자 | 기사입력 2023/01/15 [12:45]

[달리 인공지능] Microsoft의 새로운 VALL-E AI는 3초 안에 음성을 캡처할 수 있다.Microsoft 연구원은 Vall-E라고 하는 인상적인 새로운 텍스트 음성 변환 AI 모델을 선보였다. Vall-E는 단 몇 초 동안 음성을 들은 다음 감정 톤과 음향을 포함하여 해당 음성을 모방하여 원하는 대로 말할 수 있다.

박영숙세계미래보고서저자 | 입력 : 2023/01/15 [12:45]

 

Microsoft의 새로운 VALL-E AI는 3초 안에 음성을 캡처할 수 있다.

"피카소 스타일로 인간의 목소리를 훔치는 로봇."
"피카소 스타일로 인간의 목소리를 훔치는 로봇."
DALL-E에서 생성
 
 

Microsoft 연구원은 Vall-E라고 하는 인상적인 새로운 텍스트 음성 변환 AI 모델을 선보였다. Vall-E는 단 몇 초 동안 음성을 들은 다음 감정 톤과 음향을 포함하여 해당 음성을 모방하여 원하는 대로 말할 수 있다.

그것은 사람의 목소리 녹음을 활용하고 그 사람이 결코 말하지 않은 단어와 문장을 말하게 할 수 있는 많은 AI 알고리즘 중 가장 최근의 것이다. 예를 들어 몬트리올 대학의 2017년 Lyrebird 알고리즘은 분석 하는 데 1분의 음성이 필요했지만 Vall-E는 3초 분량의 오디오 스니펫만 있으면 된다.

AI는 주로 오디오북 내레이터에 의해 약 60,000시간의 영어 말하기에 대해 훈련되었으며 연구자들은 Vall-E가 다양한 인간의 목소리를 조종하려고 시도하는 샘플을 제시했다. 어떤 사람들은 목소리의 본질을 포착하고 자연스럽게 들리는 새로운 문장을 만드는 매우 특별한 일을 한다. 어떤 것이 진짜 목소리이고 어떤 것이 합성인지 구분하기 어려울 것이다. 다른 경우에는 AI가 문장의 이상한 부분을 강조할 때 유일한 장점이 된다.

Vall-E는 원본 샘플의 오디오 환경을 재현하는 데 특히 훌륭하다. 샘플이 전화로 녹음된 것처럼 들리면 합성도 마찬가지입니다. 억양도 꽤 좋다. 적어도 미국식, 영국식 및 일부 유럽식 억양이 있다.

감정의 측면에서 결과는 덜 인상적이다. 화가 나거나 졸리거나 즐겁거나 혐오스러운 것으로 표시된 음성 샘플을 사용하면 문제가 난관을 벗어나는 것처럼 보이며 합성이 이상하게 왜곡된 것처럼 들린다.

이러한 종류의 기술이 의미하는 바는 매우 분명하다. 긍정적인 측면은 슈퍼마켓 통로를 따라 트롤리를 탈 때 어느 시점에서 Morgan Freeman이 쇼핑 목록을 설명하도록 할 수 있다는 것이다. 배우가 영화 중간에 사망하면 이와 같은 시스템을 사용하여 딥페이크된 비디오 및 오디오를 통해 연기를 마칠 수 있다. Apple은 최근 AI가 읽어주는 오디오북 카탈로그를 도입했으며 곧 내레이터 사이를 즉석에서 전환할 수 있게 될 것이다.

부정적인 면은 음, 성우와 내레이터에게 좋은 소식이 아닙니다. 또는 실제로 청취자를 위해; AI는 내레이션을 빠르고 매우 저렴하게 퍼낼 수 있지만 많은 예술을 기대하지는 않는다. 그들은 Stephen Fry처럼 Douglas Adams를 해석하지 않을 것이다.

사기꾼의 가능성도 매우 높다. 사기꾼이 3초 동안 전화를 걸 수 있다면 목소리를 훔쳐 할머니에게 전화를 걸 수 있다. 또는 음성 인식 보안 장치를 우회하자. 이것은 정확히 터미네이터 로봇이 전화를 걸기 위해 필요한 것다.

그리고 물론 모든 사람들은 정치인의 첫 번째 딥페이크 연설이 사람들을 충분히 속여서 눈과 귀를 믿는다는 개념 자체를 약화시키는 순간을 여전히 기다리고 있다.

Microsoft Vall-E 팀은 시연 페이지 끝에 짧은 윤리 성명을 추가했다. 모델이 보이지 않는 화자로 일반화될 때 화자가 수정을 실행하는 데 동의하는지 확인하는 프로토콜과 편집된 음성을 감지하는 시스템을 포함하여 관련 구성 요소에 음성 편집 모델이 수반되어야 한다.

DALL-E , ChatGPT, 다양한 딥페이크 알고리즘 및 셀 수 없이 많은 다른 것들과 같은 창의적인 AI의 부상은 지난 몇 달 동안 실험실을 벗어나 현실 세계로 진입하기 시작한 변곡점에 있는 것처럼 느껴진다. 모든 변화와 마찬가지로 기회와 위험을 가져옵니다. 우리는 참으로 흥미로운 시대에 살고 있다.

Vall-E 데모 페이지에서 모든 오디오 샘플을 확인 하자.

 

 

 

 
광고
광고
광고
광고
광고
광고
많이 본 기사