[이 미니 AI 모델은 1,000배 적은 데이터로 OpenAI와 일치한다.] Molmo라고 불리는 이 모델은 10억에서 720억 개의 매개변수를 가지고 있습니다. 이에 비해 GPT-4o는 1조 개의 매개변수를 넘어설 것으로 추정
AI 산업, 거대 모델에서 소형 모델로 시선 전환: Molmo의 등장
AI 산업은 더 크고 강력한 모델을 향한 무한 경쟁 속에서 새로운 가능성을 제시하는 작은 모델의 등장으로 흥미로운 전환기를 맞이하고 있습니다.
OpenAI의 GPT-4와 같은 거대 언어 모델은 막대한 양의 데이터와 컴퓨팅 자원을 바탕으로 놀라운 성능을 보여주고 있습니다. 하지만 이러한 거대 모델은 개발 및 운영 비용이 매우 높아, 소수의 대기업만이 개발할 수 있다는 한계를 가지고 있습니다.
이러한 상황에서 AI2 연구소가 개발한 Molmo는 흥미로운 대안을 제시합니다. Molmo는 훨씬 적은 데이터와 컴퓨팅 자원으로 GPT-4와 유사한 성능을 보여주는 오픈소스 멀티모달 모델입니다. Molmo는 다음과 같은 특징을 가지고 있습니다.
Molmo의 등장이 시사하는 바
향후 전망 Molmo의 등장은 AI 산업의 패러다임 변화를 예고합니다. 더 이상 거대한 모델만이 AI의 미래를 주도하는 것은 아닙니다. 소형 모델과 오픈소스 생태계의 발전은 AI 기술의 대중화와 다양한 분야에서의 활용을 가속화할 것입니다.
결론 AI 산업은 거대 모델 중심에서 벗어나, 소형 모델과 오픈소스 생태계를 중심으로 새로운 시대를 맞이하고 있습니다. Molmo와 같은 모델의 등장은 AI 기술의 발전에 새로운 가능성을 열어줄 것입니다.
AI 효율성의 새로운 지평을 연 Molmo가 주목받고 있다.
Allen Institute for Artificial Intelligence(Ai2)가 개발한 이 오픈소스 AI 모델은 GPT-4o의 1000분의 1 수준의 데이터만으로도 유사한 성능을 달성했다. 혁신적인 데이터 접근법Molmo는 데이터의 양보다 질에 초점을 맞추었다. 약 70만 개의 이미지와 130만 개의 캡션만으로 학습을 진행했으며, 이는 기존 멀티모달 모델의 1000분의 1 수준의 데이터양이다. 주목할만한 성능벤치마크 결과
기술적 특징 오픈소스의 의미Molmo는 Apache 2.0 라이선스로 공개되어 있어 상업적 활용이 자유롭다. 이는 Meta의 Llama와 달리 사용자 수 제한이 없으며, 학습 데이터와 코드도 공개되어 있다. 산업적 영향이러한 효율적인 오픈소스 모델의 등장은 AI 산업에 새로운 변화를 가져올 것으로 전망된다:
이 미니 AI 모델은 1,000배 적은 데이터로 OpenAI와 일치한다.
인공지능 산업은 크기에 집착합니다. 더 큰 알고리즘. 더 많은 데이터. 몇 년 안에 도시 전체에 전력을 공급할 만큼의 전기를 소비할 수 있는 방대한 데이터 센터.
OpenAI는 올해 37억 달러의 수익을 낼 것으로 예상되지만 50억 달러의 손실을 볼 것으로 예상되는데, 이런 끝없는 욕망 때문에 방금 66억 달러의 추가 자금을 조달 하고 40억 달러 규모의 신용 한도를 개설했다고 발표했습니다.
이런 눈에 띄는 숫자 때문에 크기가 전부는 아니라는 사실을 잊기 쉽습니다.
일부 연구자, 특히 리소스가 적은 연구자는 더 적은 것으로 더 많은 것을 하려고 합니다. AI 확장은 계속될 것이지만 , 이러한 알고리즘은 성장함에 따라 훨씬 더 효율적이 될 것입니다.
지난주, Allen Institute for Artificial Intelligence(Ai2)의 연구원들은 OpenAI의 GPT-4o와 같은 최첨단 모델과 경쟁할 수 있는 새로운 오픈소스 멀티모달 모델 패밀리를 출시했습니다. 하지만 크기는 훨씬 작습니다. Molmo라고 불리는 이 모델은 10억에서 720억 개의 매개변수를 가지고 있습니다. 이에 비해 GPT-4o는 1조 개의 매개변수를 넘어설 것으로 추정됩니다.
모든 것은 데이터에 있습니다
Ai2는 양보다는 데이터의 질에 집중함으로써 이러한 성과를 달성했다고 밝혔습니다.
GPT-4o와 같은 수십억 개의 사례를 제공한 알고리즘은 인상적으로 유능합니다. 하지만 저품질 정보를 엄청나게 섭취합니다. 이 모든 노이즈는 귀중한 컴퓨팅 파워를 소모합니다.
Ai2는 새로운 멀티모달 모델을 구축하기 위해 기존의 대규모 언어 모델과 비전 인코더의 백본을 조립했습니다. 그런 다음 약 700,000개의 이미지와 130만 개의 캡션으로 구성된 보다 집중적이고 고품질의 데이터 세트를 컴파일하여 시각적 기능을 갖춘 새로운 모델을 훈련했습니다. 많은 것처럼 들릴 수 있지만 독점적인 멀티모달 모델에서 사용되는 데이터보다 약 1,000배 적은 데이터 입니다 .
캡션을 쓰는 대신, 팀은 주석가들에게 각 이미지에 대한 질문 목록에 답하는 60~90초 분량의 구두 설명을 기록하도록 요청했습니다. 그런 다음 그들은 종종 여러 페이지에 걸쳐 있는 설명을 필사하고 다른 대규모 언어 모델을 사용하여 정리, 압축 및 표준화했습니다. 그들은 서면 주석에서 구두 주석으로의 이 간단한 전환이 별다른 노력 없이 훨씬 더 많은 세부 정보를 제공한다는 것을 발견했습니다.
작은 모델, 톱독
그 결과는 인상적이었습니다.
작업을 설명하는 기술 논문 에 따르면 , 팀의 가장 큰 모델인 Molmo 72B는 11개의 학술적 벤치마크와 사용자 선호도에 따라 OpenAI의 GPT-4o, Anthropic의 Claude 3.5 Sonnet, Google의 Gemini 1.5 Pro를 포함한 최첨단 폐쇄형 모델과 거의 비슷하거나 더 나은 성능을 보였습니다. 가장 큰 모델의 10분의 1 크기인 더 작은 Molmo 모델조차도 최첨단 모델과 유리하게 비교됩니다.
Molmo는 이미지에서 식별한 것을 가리킬 수도 있습니다. 이런 종류의 기술은 개발자가 레스토랑 예약과 같은 작업을 처리하기 위해 웹페이지의 버튼이나 필드를 식별하는 AI 에이전트를 구축하는 데 도움이 될 수 있습니다. 또는 로봇이 현실 세계의 사물을 더 잘 식별하고 상호 작용하는 데 도움이 될 수 있습니다.
Ai2 CEO인 알리 파르하디는 벤치마크가 얼마나 많은 것을 말해줄 수 있는지에 대해서는 논란의 여지가 있다고 인정했습니다. 하지만 우리는 벤치마크를 사용하여 대략적인 모델 간 비교를 할 수 있습니다.
"사람들이 평가하는 벤치마크가 12개나 됩니다. 저는 이 게임을 과학적으로 좋아하지 않습니다... 하지만 사람들에게 숫자를 보여줘야 했습니다." Farhadi가 시애틀 출시 이벤트에서 말했습니다 . "저희의 가장 큰 모델은 72B라는 작은 모델인데, 이 벤치마크에서 GPT와 Claudes, Geminis보다 성능이 뛰어납니다. 다시 한 번 말씀드리지만, 이 벤치마크를 소금 한 알 정도로 믿으세요. 이게 정말 이보다 더 낫다는 뜻인가요? 저는 모릅니다. 하지만 적어도 저희에게는 이 게임이 같은 게임을 하고 있다는 뜻입니다."
오픈소스 AI
Molmo는 더 작을 뿐만 아니라 오픈 소스입니다. 이는 사람들이 이제 독점 모델에 대한 무료 대안을 갖게 되었다는 것을 의미하기 때문에 중요합니다.
일부 마크에서 상위권과 경쟁하기 시작한 다른 개방형 모델이 있습니다. 예를 들어, Meta의 Llama 3.1 405B 는 최초로 확장된 개방형 가중치 대형 언어 모델입니다. 하지만 멀티모달은 아닙니다. (Meta는 지난주에 더 작은 Llama 모델의 멀티모달 버전을 출시했습니다 . 앞으로 몇 달 안에 가장 큰 모델에 대해서도 같은 작업을 할 수 있습니다.)
Molmo는 Llama보다 더 개방적입니다. Meta의 모델은 "개방형 가중치" 모델 로 가장 잘 설명되는데 , 회사에서 모델 가중치는 공개하지만 학습에 사용된 코드나 데이터는 공개하지 않기 때문입니다. 가장 큰 Molmo 모델은 Alibaba Cloud의 개방형 가중치 Qwen2 72B를 기반으로 합니다. Llama와 마찬가지로 학습 데이터나 코드는 포함되지 않지만 Ai2는 모델을 멀티모달로 만드는 데 사용한 데이터 세트와 코드를 공개했습니다.
또한, Meta는 상업적 사용을 7억 명 미만의 사용자를 가진 제품으로 제한합니다. 반면, Molmo는 Apache 2.0 라이선스를 가지고 있습니다 . 즉, 개발자는 모델을 수정하고 몇 가지 제한으로 제품을 상용화할 수 있습니다.
"우리는 연구자, 개발자, 앱 개발자, 이런 [대형] 모델을 다루는 방법을 모르는 사람들을 타겟으로 삼고 있습니다. 이렇게 광범위한 청중을 타겟으로 삼는 데 있어서 핵심 원칙은 우리가 한동안 추진해 온 핵심 원칙인데, 그것은 더 쉽게 접근할 수 있게 만드는 것입니다." 파르하디가 말했습니다 .
발꿈치를 꼬집다
여기서 주목할 점이 몇 가지 있습니다. 첫째, 독점 모델 제작자가 모델을 수익화하려고 하는 동안 유사한 기능을 갖춘 오픈소스 대안이 등장하고 있습니다. Molmo가 보여주듯이 이러한 대안은 더 작기 때문에 로컬에서 실행할 수 있고 더 유연합니다. AI 제품의 약속으로 수십억 달러를 모으는 회사에게는 합법적인 경쟁입니다.
프린스턴 대학의 박사후 연구원인 오피르 프레스는 Wired에 "오픈 소스, 멀티모달 모델이 있다는 것은 아이디어가 있는 스타트업이나 연구자라면 누구나 시도할 수 있다는 것을 의미합니다." 라고 말했습니다 .
동시에, 이미지와 텍스트로 작업하는 것은 OpenAI와 Google의 오래된 일입니다. 이 회사들은 고급 음성 기능 , 비디오 생성 및 추론 기술을 추가하여 다시 앞서 나가고 있습니다. 수십억 달러의 새로운 투자와 출판사와의 거래 에서 증가하는 양질의 데이터에 대한 접근을 통해 차세대 모델은 다시 위험을 높일 수 있습니다.
그럼에도 불구하고 몰모는 대기업들이 기술 확장에 수십억 달러를 투자하는 한편, 오픈소스 대안이 멀지 않은 뒤를 따를 것이라고 제안합니다.
이미지 출처: 리소스 데이터베이스 / Unsplash
![]() 제이슨은 Singularity Hub의 편집 책임자입니다. 그는 과학과 기술로 옮기기 전에 금융과 경제에 대해 조사하고 글을 썼습니다. 그는 거의 모든 것에 호기심이 많지만, 특히 인공 지능, 컴퓨팅, 로봇 공학, 생명 공학, 신경 과학 및 우주 분야의 큰 아이디어와 발전에 대해 배우고 공유하는 것을 좋아합니다. <저작권자 ⓒ ainet 무단전재 및 재배포 금지>
|
많이 본 기사
신기술&메타버스AR/VR 많이 본 기사
2
최신기사
|