광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[인공지능] 코로나로 인한 비대면 회의가 활발해지면서 Zoom 및 Google Spaces와 같은 플랫폼의 온라인 확대 회의로 이어졌다. 회의에 참가자가 많은 경우 참가자의 저해상도 행과 아이콘으로 인해 자연스러운 위협 평가 능력이 손상되고 표정과 신체 언어의 미묘한 시각적 신호를 읽는 데 어려움이 있다. AI는 화상 회의 중 긴장한 화자가 긴장하지 않고 회의를 이끌어 갈 수 있도록 돕는다.

https://www.unite.ai/ai-helps-nervous-speakers-to-read-the-room-during-videoconferences/

JM Kim | 기사입력 2022/04/13 [00:00]

[인공지능] 코로나로 인한 비대면 회의가 활발해지면서 Zoom 및 Google Spaces와 같은 플랫폼의 온라인 확대 회의로 이어졌다. 회의에 참가자가 많은 경우 참가자의 저해상도 행과 아이콘으로 인해 자연스러운 위협 평가 능력이 손상되고 표정과 신체 언어의 미묘한 시각적 신호를 읽는 데 어려움이 있다. AI는 화상 회의 중 긴장한 화자가 긴장하지 않고 회의를 이끌어 갈 수 있도록 돕는다.

https://www.unite.ai/ai-helps-nervous-speakers-to-read-the-room-during-videoconferences/

JM Kim | 입력 : 2022/04/13 [00:00]

2013년 일반 공포증에 대한 설문 조사에서는 대다수의 응답자가 대중 앞에서 연설할 가능성이 사망할 가능성보다 더 나쁜 것으로 나타났다. 증후군은 용어 공포증으로 알려져 있다.  

코로나로 인한 '대면' 회의에서 Zoom Google Spaces와 같은 플랫폼의 온라인 확대 회의로의 마이그레이션은 놀랍게도 상황을 개선하지 못했다. 회의에 참가자가 많은 경우 참가자의 저해상도 행과 아이콘으로 인해 자연스러운 위협 평가 능력이 손상되고 표정과 신체 언어의 미묘한 시각적 신호를 읽는 데 어려움이 있다. 예를 들어 Skype는 비언어적 신호를 전달하는 데 열악한 플랫폼으로 알려져 있다.

 

인지된 관심과 반응이 대중 연설 성능에 미치는 영향은 지금까지 문서화되어 있으며 대부분의 사람들에게 직관적으로 분명하다. 불투명한 청중 응답은 화자가 자신의 주장이 일치하는지, 경멸하는지 또는 무관심한지 알지 못한 채 주저하고 보충 연설로 되돌아가게 할 수 있으며, 종종 화자와 청자 모두에게 불편한 경험을 만든다.

 

코로나19 제한 및 예방 조치에서 영감을 받은 온라인 화상 회의로의 예상치 못한 전환으로 인한 압력으로 문제는 틀림없이 악화되고 있으며 지난 몇 년 동안 컴퓨터 비전 및 영향 연구 커뮤니티에서 개선된 청중 피드백 계획이 제안되었다.

 

하드웨어 중심 솔루션

 

그러나 이들 대부분은 개인 정보 보호 또는 물류 문제를 일으킬 수 있는 추가 장비 또는 복잡한 소프트웨어와 관련되어 있다. 이는 팬데믹 이전에 상대적으로 비용이 많이 들거나 리소스가 제한된 접근 방식이다. 2001 MIT는 청중 참가자의 감정 상태를 추론하는 손으로 착용하는 장치인 Galvactivator를 제안했으며, 이는 하루 동안의 심포지엄에서 테스트되었다.

 

 

2001년부터 MIT Galvactivator는 청중의 감정과 참여를 이해하기 위해 피부 전도도 반응을 측정했다.출처: https://dam-prod.media.mit.edu/x/files/pub/tech-reports/TR-542.pdf

 

 

 

많은 학술적 에너지는 청중의 적극적인 참여를 증가시키기 위한 조치인 청중 응답 시스템(ARS)으로 '클리커'를 배포하는 데에도 투자되었다. 능동 피드백 노드), 그러나 이는 화자 격려의 수단으로도 고려되었다.

 

연사와 청중을 '연결'하려는 다른 시도에는 심박수 모니터링, 뇌파검사를 활용하기 위한 복잡한 신체 착용 장비 사용, '치어 미터', 사무실 근무자를 위한 컴퓨터 비전 기반 감정 인식, 연사의 연설 중 청중이 보낸 이모티콘.

 

 

2017년부터 LMU 뮌헨과 슈투트가르트 대학의 공동 학술 연구 프로젝트인 EngageMeter가 있다. 출처: http://www.mariamhassib.net/pubs/hassib2017CHI_3/hassib2017CHI_3.pdf

 

청중 분석의 수익성 있는 영역의 하위 추구로서, 민간 부문은 시선 추정 및 추적에 특별한 관심을 가져왔다. 참여 및 승인의 지표로 안구 추적이 적용된다.

 

이 모든 방법은 상당히 마찰이 많다. 그들 중 다수는 맞춤형 하드웨어, 연구실 환경, 전문화된 맞춤형 소프트웨어 프레임워크, 고가의 상용 API 구독 또는 이러한 제한 요소의 조합을 필요로 한다. 따라서 지난 18개월 동안 화상회의를 위한 일반적인 도구를 기반으로 하는 미니멀리스트 시스템의 개발이 관심을 받게 되었다.

 

신중하게 청중 승인 보고하기

 

이를 위해 도쿄 대학과 카네기 멜론 대학 사이의 새로운 연구 협력은 가벼운 시선과 포즈를 취하는 웹캠 지원 웹사이트만 사용하여 표준 화상 회의 도구(: Zoom)에 편승할 수 있는 새로운 시스템을 제공한다. 추정 소프트웨어가 실행 중이다. 이러한 방식으로 로컬 브라우저 플러그인이 필요하지 않는다.

 

사용자의 고개를 끄덕이고 예상되는 시선이 대표 데이터로 변환되어 화자에게 다시 시각화된다.콘텐츠가 청중을 끌어들이는 정도에 대한 '라이브' 리트머스 테스트를 허용하고 연사가 청중의 관심을 잃을 수 있는 담화 기간에 대한 모호한 지표도 허용한다.

 

 

CalmResponses를 사용하면 사용자의 관심과 끄덕임이 청중 피드백 풀에 추가되고 발표자에게 도움이 될 수 있는 시각적 표현으로 변환된다. 자세한 내용과 예제는 기사 끝에 포함된 비디오를 참조하라. 출처: https://www.youtube.com/watch?v=J_PhB4FCzk0

 

온라인 강의와 같은 많은 학업 상황에서 학생들은 배경이나 현재 외모에 대한 자의식 때문에 카메라를 켜지 않았기 때문에 발표자에게 완전히 보이지 않을 수 있다. CalmResponses는 시청자가 카메라를 활성화할 필요 없이 화자가 콘텐츠를 보고 있는 방식과 고개를 끄덕인 경우에 대해 알고 있는 정보를 보고하여 화자 피드백에 대한 가시적인 장애물을 해결할 수 있다.

 

이 논문의 제목은 CalmResponse: Displaying Collective Audience Reactions in Remote Communication이며 UoT의 두 연구원과 Carnegie Mellon의 한 연구원의 공동 작업이다.

 

저자는 라이브 웹 기반 데모를 제공하고 GitHub에 소스 코드를 공개했다.

 

CalmResponses 프레임워크

 

고개를 끄덕이는 것에 대한 CalmResponses의 관심은 모든 청취자의 머리 움직임 중 80% 이상이 고개를 끄덕이는 것으로 구성되어 있음을 나타내는 연구(일부는 다윈 시대로 거슬러 올라간다)를 기반으로 한다. 의견이 일치하지 않는 경우에도). 동시에, 시선의 움직임은 수많은 연구를 통해 신뢰할 수 있는 관심 또는 참여 지표인 것으로 나타났다.

 

CalmResponses HTML, CSS JavaScript로 구현되며 청중 클라이언트, 스피커 클라이언트 및 서버의 세 가지 하위 시스템으로 구성된다. 청중 클라이언트는 클라우드 애플리케이션 플랫폼 Heroku를 통해 WebSocket을 통해 사용자의 웹캠에서 시선 또는 머리 움직임 데이터를 전달한다.

 

 

CalmResponses 아래의 애니메이션 움직임에서 오른쪽에 시각화된 청중 끄덕임. 이 경우 움직임 시각화는 발표자뿐만 아니라 전체 청중이 사용할 수 있다.

 

출처: https://arxiv.org/pdf/2204.02308.pdf

 

프로젝트의 시선 추적 섹션을 위해 연구원들은 웹사이트에서 직접 짧은 대기 시간으로 실행할 수 있는 경량의 JavaScript 기반 브라우저 기반 시선 추적 프레임워크인 WebGazer를 사용했다(연구원 고유의 웹 기반 구현).

 

간단한 구현과 거칠고 총체적인 응답 인식의 필요성이 시선 및 포즈 추정에서 높은 정확도의 필요성보다 중요하므로 입력 포즈 데이터는 전체 응답 추정에 고려되기 전에 평균값에 따라 평활화된다.

 

끄덕임 동작은 정규화 된 랜드마크 평균 이동을 통해 이미지 또는 비디오에서 감지된 얼굴에 얼굴 모델을 맞추는 JavaScript 라이브러리 clmtrackr를 통해 평가된다. 경제성과 짧은 대기 시간을 위해, 코에 대해 감지된 랜드마크만 작성자의 구현에서 적극적으로 모니터링된다. 이는 끄덕임 동작을 추적하기에 충분하기 때문이다.

 

 

사용자의 코끝 위치의 움직임은 모든 참가자에게 집계 방식으로 시각화되는 끄덕임과 관련된 청중 응답 풀에 기여하는 흔적을 만든다.

 

히트 맵

 

고개를 끄덕이는 활동이 동적으로 움직이는 점으로 표현되는 동안(위의 이미지와 끝 부분의 동영상 참조), 시각적 주의는 공유 프레젠테이션 화면 또는 화상 회의 환경에서 일반적인 관심의 초점이 집중되는 발표자와 청중을 보여주는 히트 맵으로 보고된다.

 

 

모든 참가자는 일반 사용자의 관심이 집중되는 위치를 볼 수 있다. 이 문서에서는 사용자가 다른 참가자의 '갤러리'를 볼 수 있을 때 이 기능을 사용할 수 있는지 여부에 대해 언급하지 않는다. 이는 다양한 이유로 한 특정 참가자에게 집중적으로 집중할 수 있음을 나타낼 수 있다.

 

테스트

 

3가지 다양한 상황을 사용하여 암묵적 절제 연구의 형태로 CalmResponses에 대해 두 가지 테스트 환경이 공식화되었다. '조건 B'(기준선)에서 저자는 대다수의 학생들이 웹캠을 켜두고 있는 일반적인 온라인 학생 강의를 재현했다. 꺼져 있고 연사는 청중의 얼굴을 볼 수 없다. 'Condition CR-E'에서 화자는 시선 피드백(히트 맵)을 볼 수 있다. 'Condition CR-N'에서 화자는 청중의 고개를 끄덕이고 응시하는 활동을 모두 볼 수 있었다.

 

첫 번째 실험 시나리오는 조건 B와 조건 CR-E로 구성되었다. 두 번째는 조건 B와 조건 CR-N으로 구성된다. 발표자와 청중 모두로부터 피드백을 받았다.

 

각 실험에서 세 가지 요소가 평가되었다. 프레젠테이션에 대한 객관적이고 주관적인 평가(프레젠테이션이 어떻게 진행되었는지에 대한 화자의 자체 보고 설문지 포함); 순간적인 불안정과 변덕을 나타내는 '필러' 연설의 횟수; 질적 코멘트. 이러한 기준은 말의 질과 화자 불안의 일반적인 평가자이다.

 

테스트 풀은 평균 연령 24.7세의 남성 29명과 여성 9명으로 구성된 19-44세의 38명으로 구성되었으며 모두 일본어 또는 중국어이며 모두 일본어에 능통하다. 그들은 무작위로 6-7명의 참가자로 구성된 5개 그룹으로 나뉘었으며 피험자 중 누구도 개인적으로 서로를 알지 못했다.

 

테스트는 Zoom에서 진행되었으며 첫 번째 실험에서는 5명의 연사, 두 번째 실험에서는 6명의 발표자가 발표했다.

 

 

주황색 상자로 표시된 충전제 조건. 일반적으로 필러 콘텐츠는 시스템의 청중 피드백 증가에 따라 합리적인 비율로 떨어졌다.

 

연구자들은 한 화자의 필러가 현저히 감소했으며 'Condition CR-N'에서 화자가 필러 프레이즈를 거의 발화하지 않았다는 점에 주목했다. 보고된 매우 상세하고 세분화된 결과에 대해서는 논문을 참조하라. 그러나 가장 두드러진 결과는 발표자와 청중 참가자의 주관적인 평가였다.

 

청중의 의견은 다음과 같다.

 

'프레젠테이션에 참여하고 있다는 느낌을 받았다'[AN2], "발표자들의 연설이 잘 되었는지는 모르겠지만, 머리 움직임 시각화를 통해 일체감이 느껴졌다.' [AN6]

 

'연사들의 연설이 개선되었는지 확신할 수 없었지만, 다른 사람들의 머리 움직임 시각화에서 일체감이 느껴졌다.'

 

연구자들은 화자가 더 진행하기 전에 청중의 피드백을 평가하기 위해 시각 시스템을 참조하는 경향이 있기 때문에 시스템이 화자의 프레젠테이션에 새로운 종류의 인공적인 일시 중지를 도입한다는 점에 주목한다.

 

그들은 또한 실험 환경에서 피하기 어려운 일종의 '백색 효과'에 주목했으며, 일부 참가자는 생체 데이터 모니터링이 보안에 미치는 영향으로 인해 제약을 느꼈다.

 

 

 

결론

 

이와 같은 시스템에서 한 가지 주목할만한 이점은 이러한 접근 방식에 필요한 모든 비표준 부가 기술이 사용이 끝나면 완전히 사라진다는 것이다. 제거해야 할 잔여 브라우저 플러그인이 없거나 참가자가 각자의 시스템에 남아 있어야 하는지에 대해 의구심을 불러일으킨다. 설치 프로세스를 통해 사용자를 안내할 필요가 없다(웹 기반 프레임워크는 사용자가 초기 보정에 1-2분 정도 필요함) 또는 사용자가 로컬 소프트웨어를 설치할 수 있는 적절한 권한이 없을 가능성을 탐색할 필요가 없다. 브라우저 기반 애드온 및 확장을 포함한다.

 

평가된 안면 및 안구 움직임은 전용 로컬 머신러닝 프레임워크(: YOLO 시리즈)가 사용될 수 있는 상황에서만큼 정확하지 않을 수 있지만 청중 평가에 대한 이 거의 마찰 없는 접근 방식은 광범위한 감정 및 자세 분석에 적절한 정확도를 제공한다일반적인 화상 회의 시나리오에서 무엇보다 매우 저렴하다.

 

자세한 내용과 예제는 아래 관련 프로젝트 비디오를 확인하라.

 
인공위성, 공포증, 긴장 관련기사목록
광고
광고
광고
광고
광고
광고
광고
많이 본 기사
최신기사