가장 쉬운 것이 가장 어렵다: AI가 땅콩버터 샌드위치 앞에서 멈춘 이유

모라벡의 역설과 최근 화제가 된 '로봇 올림픽'을 통해, AI가 물리적 세계를 이해하고 학습하는 과정의 난이도와 사전 학습의 중요성에 대해 다룹니다.

김영태

테크리드

안녕하세요. 풀링포레스트 풀스택 개발자 김테크입니다.

개발자라면 누구나 한 번쯤 "이거 간단한 수정인데 금방 끝나요"라고 호언장담했다가, 밤을 꼴딱 새운 경험이 있을 겁니다. 저도 8년 차가 되었지만, 복잡한 분산 시스템 아키텍처를 설계하는 것보다 레거시 코드의 사소한 날짜 포맷 버그를 고치는 게 더 진땀 빠질 때가 많습니다. 우리가 쉽다고 느끼는 것과 컴퓨터가 쉽다고 느끼는 것의 간극, 오늘은 이 흥미로운 주제인 '모라벡의 역설(Moravec's Paradox)'과 최근 화제가 된 '로봇 올림픽'에 대한 이야기를 해보려 합니다.

우리는 흔히 AI가 인간을 뛰어넘었다고 말합니다. 1996년 컴퓨터가 체스 챔피언을 이겼고, 2016년 알파고가 바둑을 제패했죠. 최근의 LLM은 수학 올림피아드 금메달급 문제도 풀어냅니다. 하지만 여기에는 함정이 하나 있습니다. 알파고는 바둑돌을 어디에 둘지 계산은 기가 막히게 했지만, 정작 그 돌을 집어서 바둑판 위에 올려두는 건 '아자황' 박사의 손을 빌려야 했습니다.

이것이 바로 모라벡의 역설입니다. 미적분이나 체스 같은 고도의 논리적 사고는 AI에게 식은 죽 먹기지만, 걷기, 물건 집기, 설거지하기 같은 3살 아이도 하는 신체 활동은 로봇에게 에베레스트 등반만큼 어렵다는 것이죠.

최근 'Physical Intelligence(π)'라는 회사에서 이 역설에 정면으로 도전했습니다. 이름하여 '로봇 올림픽'입니다. 종목은 화려하지 않습니다. 땅콩버터 샌드위치 만들기, 기름 묻은 프라이팬 닦기, 양말 뒤집기, 열쇠로 문 열기 같은 지극히 일상적인 과제들입니다. 하지만 로봇 공학 관점에서 이건 올림픽 결승전이나 다름없습니다.

이 회사는 자신들의 파운데이션 모델(π 0.6)을 파인튜닝(Fine-tuning)하여 이 과제들에 도전했습니다. 결과는 꽤나 흥미로웠습니다.

가장 인상 깊었던 건 '세탁' 종목이었습니다. 뒤집힌 양말을 다시 원래대로 뒤집는 작업이었죠. 로봇의 그리퍼(손)는 사람 손처럼 유연하지 않아서, 양말 안으로 손을 집어넣는 동작 자체가 엄청난 난이도입니다. 실제로 드레스 셔츠 뒤집기는 그리퍼가 너무 커서 물리적으로 실패했습니다. 하지만 양말 뒤집기는 약 8시간 분량의 데이터를 학습시킨 끝에 성공했습니다.

'기본 도구 사용' 종목의 땅콩버터 샌드위치 만들기기도 마찬가지입니다. 우리는 무의식적으로 나이프에 힘을 조절하며 빵에 버터를 펴 바르지만, 로봇에게는 빵을 찢지 않으면서 적당한 압력을 가하는 게 고난도 제어 기술입니다. 이들은 이 과정을 별도의 하드코딩된 규칙 없이, 오직 데이터와 모델의 학습만으로 해결해 냈습니다.

여기서 우리가 주목해야 할 기술적 포인트가 있습니다. 바로 '사전 학습(Pre-training)'의 중요성입니다. 연구팀은 비교를 위해 π 0.6 모델을 쓰지 않은 일반적인 VLM(Vision-Language Model)을 베이스로 똑같은 파인튜닝을 시도해 봤습니다. 결과는 처참했습니다. 성공률 0%, 작업 진행도 9%.

이것이 시사하는 바는 큽니다. 로봇에게 "샌드위치를 만들려면 나이프를 집어라"라는 지시(Instruction)를 내리는 것만으로는 부족하다는 겁니다. 로봇은 '집는다'는 행위가 무엇인지, 나이프의 물리적 특성이 무엇인지에 대한 근원적인 이해(Grounding)가 전혀 없기 때문입니다. 마치 코딩을 한 번도 안 해본 사람에게 "MSA로 리팩토링해라"라고 지시서만 던져주는 것과 같습니다. 그 지시가 수행되려면 수많은 배경지식과 기초 훈련이 선행되어야 하죠.

연구팀이 성공한 비결은 거창한 알고리즘의 발명이 아니라, 묵묵히 수행한 '데이터 수집'이었습니다. 과제당 약 9시간 정도의 데이터를 사람이 직접 원격 조종하며 모았다고 합니다. 결국 AI나 로봇에게 세상을 가르치는 건, 화려한 마법이 아니라 지루하고 끈질긴 반복 학습이라는 점을 다시 한번 깨달았습니다.

우리의 뇌는 수백만 년의 진화를 통해 물리적 세계와 상호작용하도록 최적화되어 있습니다. 그래서 우리는 걷고 물건을 집는 걸 '노력'이라고 생각하지 않습니다. 하지만 기계 입장에서 이 세상은 온통 예측 불가능한 변수투성이입니다. 젖은 스펀지의 미끄러움, 오렌지 껍질의 불규칙한 두께, 열쇠 구멍의 미세한 각도 차이 같은 것들 말이죠.

개발자인 우리에게도 시사하는 바가 큽니다. 우리는 종종 "그거 라이브러리 쓰면 되는 거 아냐?"라며 복잡한 문제를 단순하게 치부하곤 합니다. 하지만 그 라이브러리 내부에는, 혹은 그 코드가 돌아가는 인프라 바닥에는 누군가가 피땀 흘려 쌓아 올린 '기본기'와 '맥락'이 깔려 있습니다.

이번 로봇 올림픽 결과를 보며, 기술의 발전 방향이 단순히 '지능'을 높이는 것을 넘어 '신체성'을 이해하는 쪽으로 가고 있음을 느낍니다. 텍스트와 코드를 넘어, 물리 세계의 복잡성을 이해하는 AI가 등장한다면, 그때는 정말 개발자의 업무 환경도, 우리가 만드는 소프트웨어의 정의도 완전히 달라질지 모릅니다.

오늘 퇴근길에 현관문을 열고 들어갈 때, 주머니에서 열쇠를 꺼내 구멍에 맞추고 돌리는 그 사소한 동작에 자부심을 가져보시길 바랍니다. 당신은 지금 수십억 원짜리 로봇도 힘겨워하는 고난도 작업을 아무렇지 않게 해낸 것이니까요.

지금 읽으신 내용, 귀사에 적용해보고 싶으신가요?

상황과 목표를 알려주시면 가능한 옵션과 현실적인 도입 경로를 제안해드립니다.

프로젝트 문의 솔루션 보기

가장 쉬운 것이 가장 어렵다: AI가 땅콩버터 샌드위치 앞에서 멈춘 이유

지금 읽으신 내용, 귀사에 적용해보고 싶으신가요?

Related Articles

AI를 AI로 검증하다: 확장 가능한 구술시험 시스템의 가능성

UltraShape 1.0: 3D 생성 AI, 이제 디테일의 전쟁입니다

안드레 카패시가 없다고 했던, 그 'AI 에이전트 매뉴얼'이 나왔습니다