돈이 되는 경제 이야기

구글 딥마인드 LLM 제미나이 전격 공개, 성능과 주요특징

꿈달(caucasus) 2023. 12. 7.
728x90

지난해 말 오픈AI가 공개한 ‘챗GPT-4’가 인공지능 대중화의 깃발을 들어올렸습니다. 사실 AI 분야에서는 구글의 기술력이 가장 앞 서 있다고 업계에서는 평가해왔습니다. 그런데, 구글을 제치고 오픈AI가 먼저 인공지능 대중화의 포문을 열면서 구글은 굉장한 위기의식에 사로잡히게 되었습니다.

 

구글은 사실 ‘챗GPT-4’가 구현하는 인공지능 기술을 이미 보유하고 있었는데, 인공지능이 초래하게 될 사회적, 윤리적 문제를 심각하게 고민하며 대중에 공개하는 것을 미뤄왔습니다. 그런데, 오픈AI에게 먼저 한 방 먹은 셈이 되니 구글 입장에서도 조바심이 났을 것입니다.

 

 

구글이 지난 6일(현지시각) 자사의 차세대 LLM 모델인 제미나이를 긴급 공개했습니다.

 

 

절치부심한 끝에 드디어 구글이 자사의 차세대 거대언어모델(LLM) 제미나이를 드디어 공개했습니다. 내년 초에 공개할 것이라고 기사에 본 것 같은데 바로 어제(6일 현지시각) 긴급 공개했네요. 그만큼 구글도 관련 분야에서의 치열한 경쟁을 의식한 듯 보입니다. 그럼 지금부터 구글이 공개한 LLM 제미나이의 주요 특징을 알아보겠습니다.

 

# LLM

> 대형 언어 모델(Large language model, LLM) 또는 거대 언어 모델은 수많은 파라미터(보통 수십억 웨이트 이상)를 보유한 인공 신경망으로 구성되는 언어 모델이다. ‘챗GPT-4’, ‘bard’와 같은 챗봇 AI의 기반이 되는 인공지능 기술이다.

 

 

구글은 전세계 주요 매체 기자들을 대상으로 온라인 기자 간담회를 열었습니다. 그러면서 제미나이의 성능과 각종 지표를 공개했는데, 제미나이는 오는 12월 6일부터 구글의 챗봇인 바드(Bard)에 탑재된다고 합니다.

 

이날 데미스 하사비스 구글 딥마인드 CEO는 자신감에 보이며 다음과 같이 소감을 말했습니다.

 

 

“제미나이는 MMLU(대규모 다중작업 언어 이해)에서 90%의 점수를 얻어 인간 전문가(89.8%)를 능가한 최초의 LLM 입니다. 32개 지표 중 30개에서 현재 가장 우수한 모델의 성능을 압도했습니다.”

 

 

오픈AI의 LLM 모델인 ‘GPT-4 터보’보다 더 우수하다는 것을 강조한 것입니다. 간단하게 말해서 제미나이로 할 수 있는 서비스는 크게 다음과 같습니다.

 

 

1. 이미지를 인식할 수 있다.

2. 음성으로 말하고 들을 수 있다.

3. 코딩을 할 수 있는 능력까지 갖췄다.

4. 수학문제를 풀거나 데이터를 분석할 수 있다.

 

 

 

구글 제미나이 공개 인트로 영상

 

 

즉, 언어면 언어, 수학이면 수학, 이미지면 이미지만 하는 한 가지 모델이 아닌 여러 능력을 갖춘 멀티모달 AI라는 점을 분명히 했습니다. 특히 코딩 능력인 ‘알파코드’를 업그레이드한 ‘알파코드2’로 훨씬 복잡한 프로그래밍이 가능하다고 밝혔습니다.

 

# 알파코드

> 구글 딥마인드가 2022년 내놓은 프로그래밍 AI. 평균적으로 프로그래밍 대회 참가자의 상위 54% 내의 점수를 얻었다. 예를 들면 특정 조건을 주고 도로와 건물을 배치하는 방법을 찾거나 맞춤형 보드 게임에서 승리하기 위한 전략을 만드는 문제가 주어진다.

 

 

 

제미나이는 코딩 분야에서 탁월한 성능을 보여줍니다.

 

 

 

구글이 공개한 시연 영상에서 제미나이는 실시간으로 인간이 보여주는 것을 음성으로 설명했고, 어려운 문제를 추론해서 해결하고, 사용자에게 퀴즈를 내기도 했습니다. 제미나이와 소통은 텍스트를 입력하는 것이 아닌 모두 음성으로 이뤄졌다는 점이 놀라웠습니다. 제미나이는 다른 언어로 번역을 하기도 했습니다. (번역가들의 생계는 이제... ??)

 

 

 

제미나이가 수학과 물리학 문제를 추론하는 영상, 이제 수학 문제를 사진찍어서 바드에게 물어보면 정답을 알려줍니다.

 

 

 

구글의 ‘제미나이’와 오픈AI의 ‘GPT-4’의 멀티모달 성능 비교 결과표입니다.

 

1. 이미지/문서이해(DocVQA) : 제미나이(90.0%) vs GPT-4(88.4%)

2. 비디오/영어 비디오 캡셔닝(VATEX) : 제미나이(62.7%) vs GPT-4(56.0%)

3. 오디오/자동 스피치 번역(CoVoST2) : 제미나이(40.1%) vs GPT-4(29.1%)

 

 

오픈AI의 GPT-4 역시 우수한 성능을 보였지만 제미나이에 비해 근소하게 성능이 뒤지고 있음을 보여줍니다. 하지만 아직까지도 오디오를 인식하고 자동으로 번역해주는 성능은 좀 더 연구가 필요해 보입니다. 또한 구글 제미나이는 경사진 도로에서 내려오는 자동차 스케치를 보여주면, 무엇이 더 빠른지 추론해 답변해줍니다.

 

 

제미나이가 두사진을 인식하고 어느 자동차가 더 빨리 경사면을 내려오는지 추론하는 장면

 

 

제미나이는 성능에 따라서 크게 울트라, 제미나이 프로, 제미나이 나노 3개의 모델로 제공됩니다.

 

먼저 제미나이 프로는 범용 제품입니다. 6일 부터 구글의 챗봇AI 서비스인 ‘바드’에 바로 적용됩니다. 제미나이 울트라는 내년 초에 ‘바드 어드밴스드’라는 이름으로 바드에 적용됩니다. 이 모델은 ‘GPT-4 터보’처럼 유료 모델이 적용될 것이라고 합니다. 제미나이 나노는 스마트폰, PC 등에서 클라우드 없이 구동되는 ‘on디바이스’ 용도입니다. 역시 구글의 스마트폰인 ‘픽셀8 프로’에 탑재될 것이라고 합니다.

 

 

업계에서는 제미나이 울트라는, 오픈AI의 ‘GPT-4 터보’를 상대하는 제품이고, 제미나이 나노는 애플 아이폰을 겨냥한 것이라고 합니다. 애플은 최근 자체 LLM 개발에 나서고 있는데, 구글은 이미 개발을 마치고 자체 스마트폰에 바로 도입합니다. 스마트폰에 탑재한 제미나이 나노는 통화내용을 텍스트로 바꿔주고, 바로 요약하는 기능을 제공한다고 합니다.

 

 

또한 인상적인 점은 구글이 오픈AI가 할 수 없는 AI 반도체를 함께 공개했다는 것입니다. 구글은 제미나이를 가동시키기 위한 AI 반도체 ‘TPU v5p’ 를 내놓았는습니다. 예전에 공개한 ‘v5e’ 보다 훨씬 강력한 성능을 보여준다고 합니다. 구글은 오래전부터 자체적으로 인공지능 반도체 칩을 개발해왔고 이미 사용중입니다. 엔비디아의 인공지능 반도체에 대한 의존도를 낮추고 관련 시장에서 구글의 영향력을 키우기 위함입니다.

 

구글은 하이퍼컴퓨터 아키텍처를 공개해, 앞으로 ‘AI 슈퍼컴퓨터 인프라’를 구축하겠다고 밝혔습니다. 이것은 MS 클라우드인 애저를 견제하려는 것입니다. 순다르 피차이 구글 CEO 는 제미나이를 공개하면서 다음과 같이 말했습니다.

 

 

“첫 번째 버전인 제미나이 1.0 은 제미나이 시대의 첫 번째 모델이자 구글 딥마인드의 비전을 실현한 첫 번째 모델이다. 이는 구글이 기업으로 수행한 가장 큰 과학 및 엔지니어링 성과라고 자부한다.”

 

 

사실 구글은 오래전에 양자컴퓨터를 개발하고 공개한 적도 있었습니다. 그만큼 인공지능 분야와 슈퍼컴퓨터 분야에서도 세계에서 가장 앞서가는 기술력을 보유하고 있는데, 이번 제미나이 공개 행사에서도 해당분야의 기술력에 자신감을 보였습니다. 하루가 다르게 급격하게 발전하고 있는 인공지능 기술, 앞으로 우리들의 일상에 어떤 큰 변화를 불러올지 기대가 됩니다.

 

 

728x90

댓글

💲 추천 글