광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고
광고

AI넷

[특이점이 온다- 인간 수준의 AGI가 달성되었음을 확인하는 테스트] 언어 이해, 추론, 실용적인 문제 해결, 사회적 상호 작용, 윤리적 의사 결정과 같은 다양한 도메인에 대한 엄격한 평가를 결합하면 AI가 진정으로 인간 수준의 지능에 도달했는지에 대한 포괄적인 평가를 제공할 수 있다.

https://medium.com/singularitynet/tests-that-confirm-human-level-agi-has-been-achieved-1c42b447c427

JM Kim | 기사입력 2024/08/27 [00:00]

[특이점이 온다- 인간 수준의 AGI가 달성되었음을 확인하는 테스트] 언어 이해, 추론, 실용적인 문제 해결, 사회적 상호 작용, 윤리적 의사 결정과 같은 다양한 도메인에 대한 엄격한 평가를 결합하면 AI가 진정으로 인간 수준의 지능에 도달했는지에 대한 포괄적인 평가를 제공할 수 있다.

https://medium.com/singularitynet/tests-that-confirm-human-level-agi-has-been-achieved-1c42b447c427

JM Kim | 입력 : 2024/08/27 [00:00]

 

특이점이 온다- 인간 수준의 AGI가 달성되었음을 확인하는 테스트

 

인공 일반 지능(AGI)을 달성했는지 어떻게 알 수 있을까?

기계가 진정한 지능 또는 지각력을 가지고 있는지 판단하는 과제를 받았다고 상상해 보라.

ChatGPT, Gemini, Grok, Claude 등과 같은 대규모 언어 모델(LLM)이 인간과 유사한 대화를 손쉽게 생성할 수 있는 세상에서, 단순한 모방과 진정한 이해를 어떻게 구별할 수 있을까?

 

이러한 시스템을 사용해 온 많은 사람들은 자신이 진정으로 "생각하는" 것과 상호 작용하고 있다고 확신했다. 이는 우리에게 벤치마크를 제공한다. 표면 수준의 역량을 가진 좁은 AI조차도 얼마나 쉽게 속을 수 있는지 상기시켜준다.

 

하지만 광범위한 작업에서 인간과 유사한 추론을 할 수 있는 기계인 인공 일반 지능(AGI)의 경우, 이 과제는 단순히 대화로 확신하는 것보다 훨씬 더 깊다.

 

AGI의 정확한 정의나 특성은 널리 합의되지 않았지만, "인공 일반 지능"이라는 용어는 다음과 같은 엔지니어링 시스템의 능력을 나타내는 여러 가지 밀접한 관련이 있다:

 

인간과 같은 거친 종류의 일반 지능을 보여준다.

매우 구체적인 작업 세트에 얽매이지 않은 지능을 보여준다.

이전에 본 것과 질적으로 매우 다른 맥락에 대한 일반화를 포함하여 학습한 내용을 일반화한다.

광범위한 관점을 취하고, 현재 작업을 넓은 세상과 그것과의 관계의 맥락에서 유연하게 해석한다.

 

본질적으로 AGI는 체스를 두거나 얼굴을 인식하는 것과 같은 특정 작업을 수행할 수 있는 기계를 만드는 것만이 아니다. 인간과 비슷한 방식으로 세상을 탐색할 수 있는 다재다능함, 적응성 및 인지적 깊이를 갖춘 시스템을 개발하는 것이다.

 

그러나 우리가 이 놀라운 이정표에 더 가까이 다가가면서 중요한 질문이 생긴다. 우리가 진정으로 인간 수준의 AGI를 달성했는지 어떻게 확인할 수 있을까?

 

이 글에서는 AGI의 도래를 확인하기 위한 벤치마크 역할을 할 수 있는 6가지 핵심 테스트를 살펴보겠다. 각각은 인간처럼 생각하고, 추론하고, 행동하는 것이 의미하는 바의 다양한 측면을 탐구하도록 설계되었다.

 

"수집된 훈련 데이터에 대한 질의에 답하고 훈련 데이터에서 추론된 확률 분포를 기반으로 새로운 제품을 생성하는 능력은 확실히 가치 있고 매력적이다. 하지만 LLM과 현재 상업적으로 인기 있는 다른 AI 기술에는 다음과 같은 다른 중요한 능력이 부족하다.

- 다른 존재에 대한 연민과 공감

- 복잡하고 놀라운 다단계 논리적 추론 능력(획기적인 수학, 과학 및 엔지니어링을 수행하거나 새로운 상황에서 미묘한 윤리적 딜레마를 탐색하는 데 필요한 것)

- 이전에 보고 경험했던 것을 크게 뛰어넘는 근본적인 창의성

- 스스로를 개발하고 세상을 탐험하면서 개성화와 자기 초월의 균형을 맞추는 자율적 에이전트 및 유기체로 행동하는 능력."

벤 고르첼(Ben Goertzel) 박사의 유익한 AGI 선언문에서

 

튜링 테스트: 지능의 기초적 척도

앨런 튜링이 1950년에 제안한 튜링 테스트는 인공지능에서 가장 상징적인 벤치마크 중 하나로 남아 있다. 이 테스트는 기계가 인간과 구별할 수 없는 지능적인 행동을 보일 수 있는지 평가하도록 설계되었다.

 

일반적인 튜링 테스트 시나리오에서 인간 평가자는 기계와 인간 모두와 텍스트 기반 대화를 나누지만 어느 것이 무엇인지 알지 못한다. 평가자가 기계와 인간을 일관되게 구별할 수 없으면 기계가 테스트를 통과한 것으로 간주된다.

 

튜링 테스트는 기계 지능의 기초적 척도이지만 주로 언어 능력에 초점을 맞춘다. 기계가 인간 대화를 시뮬레이션하는 능력이 반드시 진정한 이해나 의식과 동일하지는 않다.

 

그럼에도 불구하고 튜링 테스트를 통과한 기계는 상당한 수준의 인지적 정교함을 보여주고 AGI를 향한 중요한 단계를 나타낸다.

따라서 튜링 테스트는 우리에게 유용할 수 있지만 단순히 충분하지는 않다. LLM은 이미 튜링 테스트를 통과했으며, 대화 상대를 54%의 성공률로 속였다.

 

위노그래드 스키마 챌린지: 언어에서 이해로 이동

튜링 테스트의 한계 중 일부를 해결하기 위해 위노그래드 스키마 챌린지(WSC)가 기계의 이해 및 추론 능력을 보다 엄격하게 측정하는 방법으로 도입되었다. 이 테스트는 모호한 대명사가 포함된 문장을 기계에 제시하는 것을 포함하며, 올바른 해석에는 언어 처리뿐만 아니라 상식적 추론과 세계 지식이 필요하다.

 

예를 들어, "AGI가 효과적으로 작동하려면 다양한 경험에서 학습해야 한다."라는 문장을 생각해 보라. "그것"이 무엇을 가리키는지 올바르게 식별하려면 기계가 AGI, 학습 프로세스 및 다양한 경험의 중요성 간의 관계를 이해해야 한다. 이러한 과제를 성공적으로 탐색한다는 것은 기계가 표면 수준의 언어 처리를 넘어서는 방식으로 세계에 대해 추론할 수 있음을 나타낸다.

 

위노그래드 스키마 챌린지를 통과한다는 것은 AGI 시스템이 더 깊은 수준의 이해를 달성했으며 인간의 인지 프로세스와 더 일치하는 방식으로 일반 지식을 적용할 수 있음을 시사한다.

대규모 언어 모델은 위노그래드 스키마와 유사한 작업을 처리하는 데 어느 정도 능력을 보였지만, 원래 구상된 대로 위노그래드 스키마 챌린지(WSC)를 일관되거나 안정적으로 통과하지 못했다. 우리는 여기서 올바른 길을 가고 있을 수도 있다.

 

커피 테스트: 물리적 세계에서의 실용적 지능

튜링 테스트와 위노그래드 스키마 챌린지와 같은 테스트는 인지 및 언어 능력에 초점을 맞추지만, 진정한 AGI는 물리적 세계와 상호 작용하는 능력도 보여야 한다. Apple의 공동 설립자 스티브 워즈니악이 제안한 커피 테스트는 AI의 실용적 지능에 대한 간단하면서도 심오한 테스트이다.

 

이 테스트에서 AI 기반 로봇은 평범한 집에 들어가 커피를 만드는 임무를 맡는다. 이를 위해 로봇은 커피 머신을 찾고, 필요한 재료를 찾고, 머신을 작동하는 방법을 이해하고, 인간의 개입 없이 작업을 완료해야 한다. 이 테스트는 AI가 사물, 그 기능, 작업에 관련된 단계에 대한 다양한 형태의 지식을 일관되고 목적 있는 행동으로 통합하도록 요구한다.

 

커피 테스트는 AI가 인간과 같은 방식으로 물리적 세계를 탐색하고 조작하는 능력을 강력하게 측정한다. 이 테스트를 통과하면 AI가 실제 세계 응용 프로그램에 필수적인 실용적이고 상황적 지능을 개발했음을 나타낸다.

 

로봇 대학생 시험: 다양한 지식 습득

인간 지능의 핵심 측면은 광범위한 과목을 학습하고 그 지식을 다양한 맥락에 적용할 수 있는 능력이다. SingularityNET CEO인 벤 고르첼 박사가 처음 구상한 로봇 대학생 시험은 AGI 시스템이 대학에 등록하고 인간 학생들과 함께 수업을 듣고 학위를 성공적으로 취득하는 것을 구상한다.

 

이 시험에서는 AI가 과학, 수학, 인문학, 예술 등 다양한 학문 분야에서 능숙함을 입증해야 한다. AI는 토론에 참여하고, 과제를 완료하고, 시험에 합격해야 하며, 창의성, 비판적 사고력, 다양한 분야에서 지식을 종합하는 능력을 보여야 한다.

 

로봇 대학생 시험에 합격한다는 것은 AGI가 인간과 비슷한 수준의 지적 다재다능함을 달성했으며 다양한 분야에서 지식을 학습하고 적용할 수 있다는 것을 의미한다. 일부 LLM은 법학과 경영대학원의 시험에 합격했지만 AI 시스템이 로봇 대학생 시험을 성공적으로 완료할 때까지는 아직 갈 길이 멀다.

 

고용 테스트: 인간의 작업 환경에서 기능하기

AGI에 대한 가장 실용적이고 포괄적인 테스트 중 하나는 고용 테스트로, AI가 특별한 배려 없이 인간이 할 수 있는 모든 작업을 수행할 수 있는지 평가한다. 이 테스트는 AI가 새로운 작업을 빠르게 배우고, 변화하는 작업 조건에 적응하고, 사회적으로 적절한 방식으로 인간 동료와 상호 작용하도록 도전한다.

 

고용 테스트는 인지적이고 실용적인 지능을 넘어 AI가 복잡한 사회적 환경을 탐색하고, 사회적 규범을 이해하고 따르고, 팀에 의미 있게 기여하는 능력을 조사한다.

이 테스트에서 성공하면 AGI가 특정 작업을 수행할 수 있을 뿐만 아니라 기능적이고 효과적인 참여자로서 인간 사회에 통합될 수 있음을 나타낸다.

 

윤리적 추론 테스트: 인간의 가치와 도덕성 탐색

인간의 지능은 단순히 문제를 해결하거나 작업을 완료하는 것이 아니라 윤리적 원칙을 이해하고 적용하는 것도 포함한다.

윤리적 추론 테스트는 AI가 인간의 가치와 일치하는 결정을 내리는 능력을 평가한다. 특히 도덕적 딜레마와 관련된 상황에서 더욱 그렇다.

 

예를 들어, AI는 다양한 수의 사람들에게 해를 끼칠 수 있는 행동 중에서 선택해야 하는 고전적인 트롤리 문제에 직면할 수 있다. 이 테스트는 AI의 추론 과정, 윤리적 원칙에 대한 이해, 인간의 도덕적 직관과 공명하는 방식으로 결정을 정당화하는 능력을 평가한다.

윤리적 추론 테스트에 합격하면 AGI가 복잡하고 종종 주관적인 인간 도덕성의 풍경을 탐색할 수 있음을 보여줄 수 있으며, 이는 인간과 깊고 의미 있는 수준에서 상호 작용하는 모든 시스템에 필수적인 역량이다.

 

AGI 확인의 다면적 과제

생각해보자. AGI를 달성하는 것은 단지 기술을 발전시키는 문제일까? 아니면 기계에서 인간의 인지의 깊이와 폭을 복제하는 것일까?

 

위에서 설명한 각 테스트는 언어와 추론에서 실용적인 기술, 적응성, 윤리에 이르기까지 일반적으로 지능적이라는 것의 다른 측면을 목표로 한다.

이러한 테스트를 함께 사용하면 엔지니어링된 시스템이 진정으로 인간 수준의 AGI를 달성했는지 평가하기 위한 포괄적인 프레임워크가 형성된다.

 

단일 테스트로는 이를 달성할 수 없을 가능성이 있지만 언어 이해, 추론, 실용적인 문제 해결, 사회적 상호 작용, 윤리적 의사 결정과 같은 다양한 도메인에 대한 엄격한 평가를 결합하면 AI가 진정으로 인간 수준의 지능에 도달했는지에 대한 포괄적인 평가를 제공할 수 있다.

 

이러한 테스트는 기계가 생각할 수 있다는 것을 증명하기 위한 것이 아니라 기계가 생각할 때 인간 삶의 풍부함, 복잡성, 도덕적 구조에 맞는 방식으로 생각하는지 확인하기 위한 것이다.

 

 

 

 
특이점, AGI, 대규모 언어 모델(LLM), 일반 인공 지능 관련기사목록
광고
광고
광고
광고
광고
광고
광고
AI로봇, 그레이스 아인슈타인 많이 본 기사