돈이 되는 경제 이야기

로봇의 미래를 볼 수 있는 구글 RT-2 공개~!

꿈달(caucasus) 2023. 8. 11.
728x90

AI 분야의 강자인 구글~ 최근 구글에서 아주 흥미로운 로봇을 공개했습니다.

로봇의 이름은 ‘RT-2’입니다. 2 라는 수식어가 붙어있는 것으로 보아서는 앞선 모델도 있었던 것 같은데요. 이번에 공개된 RT-2 는 사람의 명령어를 들으면 로봇이 그 명령을 수행하는 모습을 보여주었습니다.

 

# RT-1 은 지난해 구글이 공개한 로봇입니다. 이번에 선보인 RT-2는 이전 모델의 업그레이드 모델입니다. RT-2는 RT-1에 비해 새로운 작업 수행에 있어 두 배의 성능을 보였다고 구글 측은 설명합니다. RT-1은 물건을 집어서 옮기고, 서랍을 여는 작업을 수행할 수 있었는데요. 이를 위해선 엔지니어의 프로그래밍 작업이 필요했다고 합니다. 결국 기존에 우리가 볼 수 있었던 로봇들의 수준이었던 것이지요. 하지만 RT-2는 이야기가 다릅니다.

 

 

예를 들어 다음과 같습니다.

여러 가지 사물들이 올려져 있는 책상을 로봇 앞에 높아두고 사용자가 다음과 같이 명령합니다.

 

“책상 위에 있는 수많은 과일 가운데 딸기만 골라 담아줄래?”

 

그러면 RT-2 는 명령자의 지시에 따라 바구니에 딸기만 골라 담습니다.

이런 명령도 해봅니다.

 

“장난감 차 가운데 독일산 차를 골라서 독일 국기 앞에 내려놓아”

 

라고 명령하자 RT-2 는 그대로 수행했습니다. 또는...

 

“책상 위에 있는 장난감 중에 멸종된 동물 장난감을 찾아줘”

 

하고 명령하자, 공룡을 집어 들어 보입니다.

이 장면은 실제로 구글의 개발자가 RT-2 를 공개한 자리에서 실제로 명령한 모습을 묘사한 것입니다.

 

 

구글이 최근에 공개한  ai 로봇인 RT-2, 개발자의 명령에 따라 공룡을 집어드는 모습

 

 

RT-2는 구글의 초거대 인공지능(Hyperscale AI)을 클라우드로 연결해 로봇 팔에 장착한 것입니다.

그동안 대중에게 공개된 수없이 다양한 로봇들은 개발자가 이미 로봇에게 학습을 시켰고, 로봇은 그 학습한 대로 정해진 임무를 수행했습니다. 그래서 그동안의 로봇들은 훈련에 막대한 시간을 필요했습니다. 왜냐하면 로봇의 움직임을 일일이 프로그래밍 했어야 했기 때문입니다.

 

 

요즘 시중에서 가끔 볼 수 있는 커피를 만드는 로봇을 예를 들어봅시다.

커피를 제작하기 위해서는 커피 재료가 있는 장소에 정확하게 팔을 움직여 원두를 갈아 내고, 뜨거운 물을 내려 정해진 용량에 맞게 컵에 담아내는 일련의 과정들을 세밀하게, 일일이 프로그래밍 해야만 합니다. 만약 주변에서 충격을 받아 조금이라도 위치나 각도가 틀어지기라도 한다면, 로봇은 커피를 만들 수가 없게 됩니다.

 

 

이러한 커피 제작 로봇들은 밀폐된 큰 상자 안에서 외부 변수가 전혀 작동하지 않도록 만들어졌습니다. 그러나 일반적인 환경에서 사람의 명령을 듣고 수행해야만 하는 로봇이라면 스스로 그러한 변수에 대응하며 명령을 수행해야만 하기 때문에 인공지능 기술이 훨씬 고도로 발달해야만 할 것입니다.

 

 

구글에서 공개한 RT-2의 소개 영상

 

 

구글이 이번에 공개한 RT-2 는 바로 이러한 점에서 큰 의미를 가집니다.

RT-2 는 구글이 개발한 초거대AI와 클라우드로 연결되어 있어 별도의 학습 과정이 필요치 않다고 합니다. 구글 딥마인드의 로봇공학 책임자인 빈센트 반호크는 “초거대AI 등장으로 이전 연구를 백지화해야했다”고 설명했습니다.

 

 

초거대 AI를 연동한 로봇은 그 자율성이 상상을 초월한다고 밝혔습니다.

RT-2는 별도 학습 없이도 사람의 목소리를 듣고 정확히 사용자가 원하는 임무를 수행하고 사람과도 스스럼없이 대화를 나눌 수 있습니다.

 

 

 

초거대AI가 이미 대규모언어모델을 학습했기 때문에, 로봇은 별도의 학습이 필요 없다는 것입니다.

로봇의 특정 작업을 하나하나 프로그래밍 하는 대신에, 사람 말을 알아들을 수 있는 대규모언어모델을 로봇에 연결한 것이에요. 특히 시각 언어 행동 모델을 토대로 로봇은 사람의 말을 듣고 카메라를 활용해 이를 감지하고 행동합니다. 이를 멀티모달(MultiModal)이라고 합니다.

 

#멀티모달

> 시각, 청각을 비롯한 여러 인터페이스를 통해 컴퓨터가 스스로 정보를 주고받는 것을 말하는 개념.

 

# 대규모언어모델

> 빅데이터 말뭉치를 사용하여 얻은 대규모화 된 언어 모델. 초거대AI는 언어뿐 아니라 비전 등을 포괄하고 있어 좀 더 큰 개념.

 

 

구글은 현재 RT-2 로봇을 판매할 계획은 없다고 설명했습니다. 하지만 향후 이 로봇이 창고에 투입되거나 의료기기를 다룰 때 사용될 수 있을 것이라고 말했어요. 또한 세탁물을 정리하고, 식기 세척기를 돌리고, 집안을 청소하는 도우미로 배치될 수 있다고 소개했습니다.

 

 

하루가 다르게 발전하고 있는 AI.

조만간 우리들 일상에서 RT-2와 같은 로봇들이 사용자의 명령을 알아듣고 여러분야에서 사람들의 수고로움을 덜어줄 것만 같습니다. 개인적으로 설거지와 청소만 제대로 도와줄 수 있는 로봇이 나온다면 정말 좋을 것 같습니다. 🙂👍

 

 

728x90

댓글

💲 추천 글