광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
로고

[비전 트랜스포머] 구글 리서치, 비디오에서 비전 트랜스포머 활용을 위한 인공지능(AI) 모델 제안. 트랜스포머는 지난 10년 동안 자연어처리작업에서 중요한 역할을 해왔다. 그들의 성공은 주로 시간 정보를 추출하고 활용하는 능력에 기인한다.

박영숙세계미래보고서저자 | 기사입력 2022/11/26 [09:52]

[비전 트랜스포머] 구글 리서치, 비디오에서 비전 트랜스포머 활용을 위한 인공지능(AI) 모델 제안. 트랜스포머는 지난 10년 동안 자연어처리작업에서 중요한 역할을 해왔다. 그들의 성공은 주로 시간 정보를 추출하고 활용하는 능력에 기인한다.

박영숙세계미래보고서저자 | 입력 : 2022/11/26 [09:52]

 

구글 리서치, 비디오에서 비전 트랜스포머 활용을 위한 인공지능(AI) 모델 제안

트랜스포머는 지난 10년 동안 자연어처리작업에서 중요한 역할을 해왔다. 그들의 성공은 주로 시간 정보를 추출하고 활용하는 능력에 기인한다. 

특정 방법이 한 영역에서 잘 작동하면 해당 방법을 다른 영역으로 가져오려는 연구를 기대하는 것이 일반적이다. 트랜스포머도 마찬가지였고 도메인은 컴퓨터 비전이었다. 비전 작업에 트랜스포머를 도입한 것은 큰 성공을 거두었고 이후에 유사한 연구가 많이 이루어졌다. 

ViT(Vision Transformer)는 2020년에 제안되어 이미지 분류 작업에서 CNN(컨볼루션 신경망)보다 성능이 뛰어난다. 더 많은 데이터 또는 더 강력한 정규화가 필요하기 때문에 주요 이점은 대규모였다. 

ViT는 많은 연구자들에게 변압기의 토끼 구멍을 더 깊이 파고들어 다양한 작업에서 얼마나 더 멀리 갈 수 있는지 알아보도록 영감을 주었다. 대부분이 이미지 관련 작업에 집중했고 정말 좋은 결과를 얻었다. 그러나 ViT를 비디오 영역에 적용하는 것은 다소 미해결 문제로 남아 있었다.

 

당신이 그것을 생각할 때, 변환기, 더 중요한 관심 기반 아키텍처는 비디오와 함께 사용하기에 완벽한 구조처럼 보인다. 자연어의 종속성을 모델링하고 단어 간의 문맥 관계를 추출하기 위한 직관적인 선택이다. 비디오에도 이러한 속성이 포함되어 있으므로 변환기를 사용하여 비디오를 처리하지 않는 이유는 무엇일까? 이것이 ViViT의 저자들이 물은 질문이며, 그들은 답을 내놓았다. 

대부분의 최첨단 비디오 관련 솔루션은 3D 컨벌루션 네트워크를 사용하지만 복잡성으로 인해 상용장치에서 적절한 성능을 달성하기가 어렵다. 일부 연구는 변환기의 self-attention 속성을 3D-CNN에 추가하여 비디오 내에서 장기적인 종속성을 더 잘 포착하는 데 중점을 두었다. 

ViViT는 비디오 분류를 위한 순수한 변환기의 사용을 탐구합니다. 트랜스포머의 주요 기능인 Self-Attention 모듈에서 사용하기 위해 입력 영상에서 공간적, 시간적 토큰을 추출한다. 여기서 토큰 추출은 중요한 역할을 합니다. 따라서 ViViT는 이를 위해 여러 가지 접근 방식을 제안한다. 

또한 ViViT는 사전 훈련된 이미지 모델을 사용하여 수행할 수 있는 훈련 중에 모델을 정규화하는 접근방식을 제안한다. 그렇게 하면 ViViT가 더 적은 수의 데이터세트를 사용하여 효율적으로 훈련할 수 있다. 대규모 비디오 데이터세트를 구성하는 것은 비용이 많이 드는 프로세스이기 때문이다.

또한 컨볼루션 신경망은 지난 10년 동안 컴퓨터 비전 작업의 플래그 캐리어였기 때문에 커뮤니티는 이를 성공적으로 만든 여러 가지 유용한 트릭을 제안했다. 이러한 트릭은 단순히 무시하기에는 너무 귀중하며 ViViT 작성자는 변압기에 미치는 영향을 조사하기를 원했다. 그러나 이러한 솔루션을 변환기에 복사하여 붙여넣는 것처럼 간단하지 않다. 서로 다른 특성을 가지고 있기 때문입니다. 그렇기 때문에 토큰화 전략, 모델 아키텍처 및 정규화 방법에 대한 심층 분석을 수행하여 가장 적절한 설계 선택을 개발했다.

ViViT는 비디오 토큰화를 위한 다양한 임베딩 및 변환기 접근 방식을 제안합니다. 튜블렛 및 균일한 프레임 임베딩 접근법을 조사한다. 주의를 끌기 위해 특정 사용 사례에 대한 각각의 장점과 단점이 있는 네 가지 접근 방식을 연구했다. 효율성과 정확성 사이의 트레이드 오프이므로 연습에 필요한 스윗 스팟을 선택할 수 있다.

 

 

 

 

 
광고
광고
광고
광고
광고
광고
광고
많이 본 기사
챗GPT와 AI, 로봇 많이 본 기사