시작페이지로　l　즐겨찾기　l　RSS　l　편집 2024.04.25 [20:53]

세상을 바꾸자
AI바이오제약 수명연장
자율차,드론, 교통, 에너지,기후
유투브
신기술&메타버스AR/VR
AiMindbot과 미래 우주
챗GPT와 AI, 로봇
라이프,거버넌스, 조직, 유망직종

신기술&메타버스AR/VR

[달리 인공지능] Microsoft의 새로운 VALL-E AI는 3초 안에 음성을 캡처할 수 있다.Microsoft 연구원은 Vall-E라고 하는 인상적인 새로운 텍스트 음성 변환 AI 모델을 선보였다. Vall-E는 단 몇 초 동안 음성을 들은 다음 감정 톤과 음향을 포함하여 해당 음성을 모방하여 원하는 대로 말할 수 있다.

박영숙세계미래보고서저자 | 기사입력 2023/01/15 [12:45]

신기술&메타버스AR/VR

[달리 인공지능] Microsoft의 새로운 VALL-E AI는 3초 안에 음성을 캡처할 수 있다.Microsoft 연구원은 Vall-E라고 하는 인상적인 새로운 텍스트 음성 변환 AI 모델을 선보였다. Vall-E는 단 몇 초 동안 음성을 들은 다음 감정 톤과 음향을 포함하여 해당 음성을 모방하여 원하는 대로 말할 수 있다.

박영숙세계미래보고서저자

| 입력 : 2023/01/15 [12:45]

Microsoft의 새로운 VALL-E AI는 3초 안에 음성을 캡처할 수 있다.

2023년 1월 10일

"피카소 스타일로 인간의 목소리를 훔치는 로봇."

DALL-E에서 생성

Microsoft 연구원은 Vall-E라고 하는 인상적인 새로운 텍스트 음성 변환 AI 모델을 선보였다. Vall-E는 단 몇 초 동안 음성을 들은 다음 감정 톤과 음향을 포함하여 해당 음성을 모방하여 원하는 대로 말할 수 있다.

그것은 사람의 목소리 녹음을 활용하고 그 사람이 결코 말하지 않은 단어와 문장을 말하게 할 수 있는 많은 AI 알고리즘 중 가장 최근의 것이다. 예를 들어 몬트리올 대학의 2017년 Lyrebird 알고리즘은 분석 하는 데 1분의 음성이 필요했지만 Vall-E는 3초 분량의 오디오 스니펫만 있으면 된다.

AI는 주로 오디오북 내레이터에 의해 약 60,000시간의 영어 말하기에 대해 훈련되었으며 연구자들은 Vall-E가 다양한 인간의 목소리를 조종하려고 시도하는 샘플을 제시했다. 어떤 사람들은 목소리의 본질을 포착하고 자연스럽게 들리는 새로운 문장을 만드는 매우 특별한 일을 한다. 어떤 것이 진짜 목소리이고 어떤 것이 합성인지 구분하기 어려울 것이다. 다른 경우에는 AI가 문장의 이상한 부분을 강조할 때 유일한 장점이 된다.

Vall-E는 원본 샘플의 오디오 환경을 재현하는 데 특히 훌륭하다. 샘플이 전화로 녹음된 것처럼 들리면 합성도 마찬가지입니다. 억양도 꽤 좋다. 적어도 미국식, 영국식 및 일부 유럽식 억양이 있다.

감정의 측면에서 결과는 덜 인상적이다. 화가 나거나 졸리거나 즐겁거나 혐오스러운 것으로 표시된 음성 샘플을 사용하면 문제가 난관을 벗어나는 것처럼 보이며 합성이 이상하게 왜곡된 것처럼 들린다.

이러한 종류의 기술이 의미하는 바는 매우 분명하다. 긍정적인 측면은 슈퍼마켓 통로를 따라 트롤리를 탈 때 어느 시점에서 Morgan Freeman이 쇼핑 목록을 설명하도록 할 수 있다는 것이다. 배우가 영화 중간에 사망하면 이와 같은 시스템을 사용하여 딥페이크된 비디오 및 오디오를 통해 연기를 마칠 수 있다. Apple은 최근 AI가 읽어주는 오디오북 카탈로그를 도입했으며 곧 내레이터 사이를 즉석에서 전환할 수 있게 될 것이다.

부정적인 면은 음, 성우와 내레이터에게 좋은 소식이 아닙니다. 또는 실제로 청취자를 위해; AI는 내레이션을 빠르고 매우 저렴하게 퍼낼 수 있지만 많은 예술을 기대하지는 않는다. 그들은 Stephen Fry처럼 Douglas Adams를 해석하지 않을 것이다.

사기꾼의 가능성도 매우 높다. 사기꾼이 3초 동안 전화를 걸 수 있다면 목소리를 훔쳐 할머니에게 전화를 걸 수 있다. 또는 음성 인식 보안 장치를 우회하자. 이것은 정확히 터미네이터 로봇이 전화를 걸기 위해 필요한 것이다.

그리고 물론 모든 사람들은 정치인의 첫 번째 딥페이크 연설이 사람들을 충분히 속여서 눈과 귀를 믿는다는 개념 자체를 약화시키는 순간을 여전히 기다리고 있다.

Microsoft Vall-E 팀은 시연 페이지 끝에 짧은 윤리 성명을 추가했다. 모델이 보이지 않는 화자로 일반화될 때 화자가 수정을 실행하는 데 동의하는지 확인하는 프로토콜과 편집된 음성을 감지하는 시스템을 포함하여 관련 구성 요소에 음성 편집 모델이 수반되어야 한다.

DALL-E , ChatGPT, 다양한 딥페이크 알고리즘 및 셀 수 없이 많은 다른 것들과 같은 창의적인 AI의 부상은 지난 몇 달 동안 실험실을 벗어나 현실 세계로 진입하기 시작한 변곡점에 있는 것처럼 느껴진다. 모든 변화와 마찬가지로 기회와 위험을 가져옵니다. 우리는 참으로 흥미로운 시대에 살고 있다.

Vall-E 데모 페이지에서 모든 오디오 샘플을 확인 하자.

박영숙세계미래보고서저자의 다른기사보기

[세계미래보고서]시리즈, 판매제품

신간소개 [세계미래보고서2024-2034] 이르면 10년 안에 등장할 인공일반지능 신기술이 가져올 유토피아와 디스토피아를 미리 살펴보자!

많이 본 기사

[소멸직종 15] 소멸직종 15가지 2030년 여행사와 직원, 캐시어 점원, 패스트푸드 요리사, 우체부, 은행원, 섬유 노동자, 인쇄소, 보석상, 배달원, 텔레마케터, 어민, 법무비서관, 조립제작사,

S[중국 도시 토지의 45%가 인공 개발로 인해 급속히 가라앉고 있다] 중국의 가장 인구 밀도가 높은 지역들이 해수면 상승과 급격한 토지 침하라는 이중의 위협에 직면해 있다. 과학자들은 현재의 추세가 지속된다면, 2120년까지 침수되는 도시 지역이 세 배로 늘어나 최대 1억 2,800만 명의 인구가 영향을 받을 수 있다고 경고

[AI가 교육을 어떻게 바꾸나?] AI 기술을 활용하여 언제 어디서나 학습이 가능한 환경을 조성하고 있다. 이는 특히 지리적 또는 경제적 제약을 받는 학습자들에게 큰 도움이 될 것이며, 평생 학습의 촉진에도 긍정적인 영향

[4월 18일 AI뉴스] AI 여자친구의 부상, 비디오의 생성적 채우기, Google의 로봇 공학 혁신. 프롬프트만으로 AI 노래를 무료로 생성. AI로 파킨슨병 치료 가속화. 스탠포드 대학의 502페이지 AI 보고서.

[OPEN AI에 필적할 멀티모달 AI 모델] 일론 머스크의 AI 벤처인 xAI가 오픈AI와의 경쟁 무대에 진입하면서 최초의 멀티모달 선보임. 문서, 차트, 다이어그램, 스크린샷 및 사진을 포함한 다양한 시각적 형식을 이해할 수 있는 기능을 자랑

유투브 책[2023년에 얼마나 많은 사람들이 YouTube를 사용하나 각종 통계들] 2006년 20억으로 구글이 사들인 유투브는 2005년 2월 14일에 설립, 첫비디오는 4월 23일에 게시, 지금은 20억명이 넘는 사용자보유, 인터넷사용자 43%가 매일 유투브를 본다.

[AI 전투기 조종사와 인간 조종사의 세기의 대결] 처음으로 AI 전투기 조종사가 공중에서 실제 제트기를 이용한 공중전에서 인간 조종사와 대결했다. 이는 자율 비행 및 군사 자동화 분야에서 큰 이정표를 세웠다.

[인공지능, 에너지 괴물로 변할 위험?] 인공지능의 높은 에너지 소비: 지속 가능성에 대한 새로운 우려 Arm의 CEO가 인공지능(AI)의 과도한 에너지 소비가 지속 가능하지 않다고 경고하면서, 인공지능 기술의 환경적 영향에 대한 우려가 새롭게 부각되고 있다.

[기후위기로 2050년 세계 GDP가 거의 5분의 1 로 감소할 것] 2050년 세계 GDP를 약 38조 달러, 거의 5분의 1로 축소할 것이라고. 온실가스 배출량을 가능한 한 빨리 줄이는 것은 세기 중반 이후 훨씬 더 파괴적인 경제적 영향을 피하는 데 중요

[획기적인 메타물질을 개척] 식물의 놀라운 회복력에서 영감을 얻은 호주 과학자들은 레이저와 금속 분말을 활용하여 전례 없는 중량 대비 강도 비율을 달성하는 획기적인 메타물질

신기술&메타버스AR/VR 많이 본 기사

[사우디아라비아, 세계 최초의 3D 프린팅 모스크 공개] 건축 혁신을 향한 획기적인 진전으로, 사우디아라비아 왕국은 제다(Jeddah)의 알자하라(Al-Jawhara) 교외 지역에 자리잡은 세계 최초의 3D프린팅 모스크를 자랑스럽게 공개했다.

[타이탄 공개: CEREBRAS, AI 패권을 위한 세계 최대 컴퓨터 칩 공개] WSE-3의 공개는 컴퓨팅의 새로운 시대를 예고하며 AI 기능의 경계를 전례 없는 수준으로 끌어올리고 기술 혁신의 최전선에서 Cerebras의 위치를 확고히 할 것

[조명 웨어러블: 과학자들이 웨어러블 인터페이스용 다색 광변색 섬유 개발] 통기성, 유연성, 내구성으로 유명한 섬유는 웨어러블 기기를 위한 최적의 기질로 등장하여 기술을 의류에 완벽하게 통합한다

[초당 156조 3000억 프레임을 촬영하는 세계에서 가장 빠른 카메라] 캐나다 INRS Énergie Matériaux Télécommunications Research Center의 엔지니어들은 초당 156.3 조 프레임(fps)이라는 놀라운 속도로 촬영할 수 있는 세계에서 가장 빠른 카메라를 개발했다.

[새로운 AI 칩에는 2,080억 개의 트랜지스터가 탑재] 거대 칩 기업인 NVIDIA는 AI의 규모와 속도 면에서 또 다른 도약을 제공할 Blackwell 프로세서 제품군을 출시했다.

최신기사

신간소개 [세계미래보고서2024-2034] 이르면 10년 안에 등장할 인공일반지능 신기술이 가져올 유토피아와 디스토피아를 미리 살펴보자!

마인드봇[AI 및 딥테크 솔루션을 위한 10억 달러 이상의 자금을 조달] AI, Web3, 로보틱스, 공간 컴퓨팅 및 양자 기술 포트폴리오 회사에 투자할 파트너십 조건 및 블록버스터 자금 조달에 대한 세부 정보가 최근 파나마에서 열린 유익한 AGI 서밋에서 신속하게 처리

유투브[배우의 소멸? 할리우드, 배우들의 AI 복제 시작] CAA와 AI: 헐리우드의 미래와 배우의 디지털 복제. 배우의 AI 복제본 제작 파트너십 체결: 헐리우드 미래를 바꿀까?

유투브[AI가 일본의 인구 문제를 해결할 수 있을까? ] 일본의 노동력 위기 대응: AI 도입으로 미래를 준비하다. 정부의 AI 활용 확대.

[저항성 전분: 암에 대항하는 유망한 무기] 흔히 발견되는 저항성 전분의 놀라운 잠재력이 다양한 암의 위험을 크게 줄일 수 있다는 획기적인 실험

회원약관 ㅣ 개인정보취급방침 ㅣ 회사소개 ㅣ 청소년보호정책 ㅣ 직원게시판 ㅣ 기사제보 ㅣ 보도자료 ㅣ 기사검색

AI넷ㅣ 주소 : 우)02821 서울특별시 성북구 북악산로 1길 31 ㅣ 전화 : 02-313-6300 ㅣ 팩스 : 02-908-9494
등록번호 : 서울, 아02236ㅣ 등록일 : 2009.11. 19. ㅣ E-mail : unfutures@gmail.com, futures2055@gmail.com
회사명 : AI넷 ㅣ 발행/편집인 : 박영숙ㅣ 발행일: 2020.09.05｜청소년보호책임자 : 박영숙
사업자등록번호 : 209-15-39241 (사)유엔미래포럼 www.unfuture.org
Copyright ⓒ 2020 AI넷. All rights reserved. (This is a non-profit organization/a free newspaper.)