돈이 되는 경제 이야기

오픈AI 가 주창한 스케일링의 법칙(Scaling Law)이란? 스케일링의 법칙은 한계에 도달하였는가?

꿈달(caucasus) 2024. 12. 19.
728x90

지금의 생성형AI를 사용할 수 있게 된 것은 오픈AI 의 공이 크다.

오픈AI 는 AI의 대부 ‘제프리 힌튼’ 교수의 제자이자 ‘알렉스넷’의 주인공인 일야 수츠케버. 그리고 ‘알렉스넷’이 우승한 ‘이미지넷’ 대회를 만든 페이페이 리 스탠퍼드대 교수의 수제자 안드레이 카파시. 인공지능 3대 천황으로 불리는 얀 르쿤 NYU 교수의 제자였던 보이치에흐 자렘바, 버크리와 칼텍출신으로 오픈AI의 학습 후 팀을 이끈 존 슐만 등 최고의 연구진들을 데리고 AI연구와 학습을 시작했다.

 

 

 

 

 

 

오픈AI 는 2017년 구글 연구팀이 공개한 역사적 논문 ‘Attention is All You Need(어텐션이면 만사해결)’가 연구의 기반이었다. 2018년 ‘Improving Language Understanding by Generative Pre-Training(사전학습된 생성형 모델은 언어이해력이 뛰어나)’라는 논문이 드디어 오픈AI에서 발표되었다. 이 논문에서 사용된 생성형 사전 학습(Generative Pre-Training)이라는 단어가 챗GPT의 GPT를 의미한다. 또한, '생성형AI'라는 용어도 생성형 AI모델에서 가져온 용어이다.

 

 

스케일링 법칙이 시작되다

이 논문에서 만들어진 모델이 바로 GPT-1이다. 일야 수츠케버를 포함해 단 4명의 저자가 참여한 이 논문에서부터 본격적으로 ‘스케일링 법칙(Scaling Law)’이 시작된다. 스케일링 법칙은 오픈AI가 제시한 원칙으로 학습 시간이 길어질수록, 추론 시간이 늘어날수록 AI 성능이 강화된다는 이론이다. 스케일링 법칙은 컴퓨팅 파워, 데이터크기, 매개변수가 동시에 늘어나야만 한다. 언어 모델의 성능은 모델 크기, 데이터셋 크기, 학습에 사용된 컴퓨팅 양에 대해 거듭제곱 법칙(Power Law)을 따라 향상된다. 스케일링의 법칙이 적용되는 한 모델 크기를 키우고, 데이터를 더 집어넣고, 엔비디아 GPU를 더 사용하면 AI의 성능은 계속 좋아지게 된다. 결국에는 일반인공지능(AGI)까지 갈 수 있게 될 것이라는 것이다.

 

 

 

이미지 출처: 시사IN

 

 

 

오픈AI가 창업되었을 당시에는 1억1700만개의 매개변수를 가지고 AI를 학습시켰다. 당시만해도 이는 엄청난 매개변수였다. 이후 이 매개변수와 데이터의 크기를 키울 때마다 AI의 성능이 혁명적으로 좋아지는 기적 같은 일이 벌어지게 된다.

 

 

 

2019년에 오픈AI가 또 다른 논문을 발표한다. GPT-2가 등장한 논문 ‘Language Models are Unsupervised Multitask Learners(언어모델은 지도 없이도 이것저것 학습 다 잘해)’이다. 여기서 매개변수가 10배 커진 15억개의 AI모델이 등장한다. 이 논문에도 일야 수츠케버가 참여한다. 후일 오픈AI를 나가서 앤트로픽을 만든 다리오 아모데이가 이 논문의 주요저자로 등장한다.

 

 

 

 

이러한 과정에서 오픈AI 는 투자자들로부터 든든한 지원을 받고, 마이크로소프트의 슈퍼컴퓨터에서 학습이 가능해진다. 그러면서 세상을 깜짝 놀라게하는 논문과 AI모델을 내놓는다. 바로 2020년 등장한 ‘Language Models are Few-Shot Learners(언어모델은 눈치가 백단이야)’와 이 논문이 만들어낸 GPT-3 다.

 

 

 

31명의 연구자들이 참여한 이 논문에서 매개변수는 1750억개로 100배 커졌다. 이제 AI가 드디어 사람처럼 언어를 이해하는 능력이 생겼다. Few Shot Learner(몇번만 해도 배운다)라는 말에서 알 수 있듯이 ‘대충 말해도 AI가 알아듣는 것’이 가능해졌다. 드디어 사람처럼 말하고 사람과 소통이 가능한 AI가 나왔다는 것이 GPT-3의 가장 큰 의미라고 할 수 있다.

 

 

 

 

스케일링의 법칙은 한계에 도달했다?

하지만 최근 오픈AI를 떠난 일야 수츠케버 SSI 창립자는 데이터 고갈로 인해 대형언어모델(LLM)의 사전 훈련에 따른 ‘스케일링 법칙’ 시대는 끝났다고 선언했다. 대신, 추론이 새로운 인공시대(AI)를 열 것이며, 특히 이로 인해 인간의 예상을 뛰어넘는 자의식을 갖춘 초지능(super intelligence)이 등장할 것이라고 예고했다.

 

 

 

지난 12월 13일 캐나다 밴쿠버에서 열린 '뉴립스' 컨퍼런스에서 발표하는 일야 수츠케버

 

 

 

수츠케버는 지난 12월 13일(현지시간) 캐나다 밴쿠버에서 열린 ‘뉴립스(NeurIPS)’ 컨퍼런스에서 “우리가 아는 사전 훈련은 의심할 여지 없이 끝날 것”이라고 말했다.

 

 

 

그는 이유로 석유처럼 한정된 데이터가 고갈됐다는 점을 들었다. “컴퓨팅은 성장하고 있지만, 데이터는 성장하지 않는다. 왜냐하면 인터넷은 하나뿐이기 때문”이라며 “우리는 최고 데이터를 달성했고, 더 이상은 없을 것”이라고 밝혔다.

 

 

 

이와 관련, 상당수 전문가는 앞으로 2년 내 AI 학습에 사용할 인터넷 데이터가 바닥을 드러낼 것으로 보고 있다. 그러나 수츠케버 창립자는 한술 더 떠 모델 성능 향상에 도움이 될 만한 데이터는 이미 바닥을 드러냈다고 단언한 셈이다. 따라서 그는 차세대 AI 개발이 에이전트와 추론 중심으로 변할 것이라고 밝혔다.

 

 

 

하지만 스케일링의 법칙이 정말 한계에 도달했는가는 아직 결론이 나지 않은 논란이다. 일야 수츠케버의 경우 스타트업을 창업했고, 투자를 받아야하기 때문에 ‘기존의 언어모델은 한계에 부딪혔고, 새로운 AI모델을 개발하겠다’고 말하고 있으니 그의 주장을 곧이곧대로 받아들이기에는 여전히 논란이 많다.

 

 

728x90

댓글

💲 추천 글