챗GPT와 같은 거대언어모델(LLM)은 ‘방대한 양의 데이터로 학습된 AI’이다.
인간의 언어를 이해하고, 인간이 만든 언어를 학습할 수 있으며, 이를 인간의 언어로 전달해 줄 수 있다. 챗GPT가 등장한 이후 이제 AI는 우리들의 일상에서 쉽게 접할 수 있게 되었다. 그러면서 AI가 만든 콘텐츠가 점점 쌓여가고 있다.
최근 옥스퍼드 대학교의 한 과학자가 재미있는 실험을 기획했다.
"만약 AI가 만든 콘텐츠가 모든 정보를 뒤덮는다면, AI가 학습할 정보가 오로지 AI로 만들어진 콘텐츠밖에 없다면 어떤 일이 발생할까?"
영국 옥스퍼드대 컴퓨터과학과 연구진이 이를 확인해 보았다.
먼저 LLM을 이용해 위키백과와 유사한 항목을 만든 뒤 이를 기반으로 AI를 학습시켰다. AI가 만든 데이터를 AI가 학습하고, 이 학습한 데이터를 또 AI가 학습하는 상황이 이어지자 LLM의 출력, 즉 대답의 질은 점점 떨어지는 현상이 발견되었다. 논문의 제목도 ‘반복적으로 생성된 데이터로 학습한 AI는 붕괴한다/AI models collapse when trained on recursively generated data’였다.
연구진에 따르면 AI가 만든 데이터로 학습을 거듭할수록 AI가 내놓은 답변의 질이 계속 떨어졌다. 연구진은 이를 ‘붕괴’라고 표현했다. 이해를 돕기 위해 아래 그림으로 설명해보겠다. 예를 들어 개 이미지를 생성하는 AI가 있다고 가정해 보자. 골든레트리버, 불독 등 여러 개의 이미지를 AI가 학습한다.


데이터에 ‘골든레트리버’가 많다면(인기 종이라면) AI는 골든레트리버에 대한 학습량이 많아지게 된다. 이를 반복하면 결국 AI가 생각하는 개에 대한 이미지는 골든레트리버만 남게 된다. 골든레트리버만 학습한 AI는 최종적으로 골든레트리버조차 표현하지 못하는 이상한 그림을 그리게 된다.
이러한 일이 ‘텍스트’에서 벌어지게 되면 AI는 복잡 미묘한 세상을 반영하지 못하게 된다. 더 나아가 소수 집단은 덜 표현되면서 잠재적으로 지워질 수 있음을 의미한다. 이는 어찌보면 LLM 자체가 확률을 기반으로 데이터를 학습하기 때문에 일어나는 당연스러운 결과이기도 하다.
학습된 단어를 사용하는 만큼 기존 데이터에서 빈도가 낮은 단어는 선택받을 확률이 떨어지게 된다. 가장 분포도가 높은 단어만 AI의 선택을 받게 된다. 결국 ‘소수’는 사라지고 ‘과점’만이 남게 된다. AI가 내놓는 답은 형편없을 수밖에 없다.
네이처에 인터뷰한 UC버클리의 컴퓨터 과학자 하니 파리드는 이 과정을 “종의 근친교배와도 비슷하다. 근친교배하고 유전자 풀을 다양화하지 않으면 종의 붕괴로 이어진다”라고 표현하기도 했다.
결국 현재 AI를 이끄는 LLM 모델의 발전, 성장을 위해서는 학습하는 데이터의 ‘품질’이 무엇보다 중요하다. 최근 들어 오픈AI와 같은 기업들이 미디어 기업과 학습 데이터 계약을 잇달아 맺고 있는 이유도 여기에 있다. 레딧은 연간 800억원 규모로 훈련 데이터를 제공하고 있고, 오픈AI 또한 월스트리트저널에 무려 3400억원을 주고 뉴스를 받고 있다. 애플은 AI 학습용 데이터 확보에만 수천억원을 투자한다고 발표하기도 했다.
'돈이 되는 경제 이야기' 카테고리의 다른 글
3분만에 알아보는 나이키의 역사, 나이키의 역대 CEO (3) | 2024.10.07 |
---|---|
이제 AI는 커머디티(commodity)가 되었다. MS 사티아 나델라의 AI 활용 전략 (4) | 2024.10.02 |
다시 6만전자로 내려온 삼성전자 주가, 이유는? (5) | 2024.09.30 |
K-밸류업 지수에 포함된 100개 기업, 투자자들의 평가는? (2) | 2024.09.26 |
8대2의 법칙이란? 사람이 집중할 수 있는 시간은 최대 얼마일까? (1) | 2024.09.13 |
대표적인 이미지 생성형 AI 6가지를 소개합니다. (4) | 2024.09.12 |
eVTOL의 개념과 상용화 가능성 (6) | 2024.09.11 |
애플, 독점 생태계 균열? 아이폰에서 다른 간편결제(NFC) 허용 (2) | 2024.09.06 |
댓글
꿈달(caucasus)님의
글이 좋았다면 응원을 보내주세요!
이 글이 도움이 됐다면, 응원 댓글을 써보세요. 블로거에게 지급되는 응원금은 새로운 창작의 큰 힘이 됩니다.
응원 댓글은 만 14세 이상 카카오계정 이용자라면 누구나 편하게 작성, 결제할 수 있습니다.
글 본문, 댓글 목록 등을 통해 응원한 팬과 응원 댓글, 응원금을 강조해 보여줍니다.
응원금은 앱에서는 인앱결제, 웹에서는 카카오페이 및 신용카드로 결제할 수 있습니다.