챗GPT는 왜 식기세척기를 돌릴 수 없을까? 월드모델과 피지컬AI 부상

"챗봇은 식기세척기를 돌릴 수 없다"는 얀 르쿤의 통찰과 함께, 텍스트를 넘어 물리 세계를 이해하는 '월드 모델'의 중요성을 분석합니다. 바운드포는 정밀한 시각 데이터와 언어 모델을 결합해 로봇이 보고 판단하는 '피지컬 AI'의 기준을 제시합니다. 진정한 무인화를 실현할 바운드포의 파운데이션 데이터 솔루션을 만나보세요.
Dec 01, 2025
챗GPT는 왜 식기세척기를 돌릴 수 없을까? 월드모델과 피지컬AI 부상
👇
Key Takeaways
  1. LLM의 한계와 월드 모델의 부상: 얀 르쿤(Yann LeCun)은 텍스트만 학습한 AI는 물리 법칙을 모른다는 한계를 지적하며, 비디오 데이터를 통해 세상의 본질과 인과관계를 학습하는 '월드 모델'이 차세대 AI의 핵심이라고 강조했습니다.
  1. 바운드포의 솔루션, 파운데이션 데이터: 바운드포는 로봇이 세상을 정확히 '보는' 것이 우선이라는 판단 하에, 픽셀 단위로 객체를 완벽히 구분하는 파놉틱 세그멘테이션 기술로 고품질의 학습 데이터를 제공합니다.
  1. 시각과 언어의 결합, 진정한 피지컬 AI: 바운드포는 물리적 직관을 가진 '눈(Vision)'에 업무 맥락을 이해하는 '뇌(LLM)'를 결합하여, 보고 판단하고 행동하는 완전한 무인화 기술을 실현하고 있습니다.

1. 챗봇은 식기세척기를 돌릴 수 없다: 텍스트를 넘어 물리 세계로

2025년 11월, '딥러닝의 아버지'이자 튜링상 수상자인 얀 르쿤(Yann LeCun)이 12년간 이끌어온 메타(META)를 떠나 독자적인 스타트업 창업을 선언했습니다. 그는 "더 큰 모델, 더 많은 텍스트 데이터만으로는 진정한 지능에 도달할 수 없다"고 단언합니다.
"지금의 AI는 변호사 시험을 통과하고 복잡한 수학 문제도 척척 풀어냅니다. 그런데 왜 식탁을 치우고 그릇을 식기세척기에 넣는, 열 살짜리 아이도 하는 단순한 일을 하는 로봇은 없을까요?"
챗GPT 같은 거대언어모델(LLM)은 인터넷상의 방대한 텍스트를 학습해 '말 잘하는 능력'은 갖췄습니다. 하지만 고양이가 가구 위를 뛰어다닐 때 본능적으로 거리를 계산하고 착지하는 것과 같은 '물리적 세계에 대한 감각'은 전무합니다. 글자로 배운 세상과, 부딪히며 겪는 세상은 다르기 때문입니다. 르쿤이 메타를 떠나면서까지 만들고자 하는 것, 그것은 바로 '월드 모델(World Model)'입니다. 언어만 아는 AI가 아니라, 세상이 돌아가는 물리 법칙을 이해하고 추론하는 AI. 이것이 바로 진정한 '무인화' 시대를 열 열쇠입니다.
출처:MIT Technolohy Review
출처:MIT Technolohy Review

2. 화가가 아닌 전략가가 되어라: 픽셀 예측을 넘어선 '상식'의 발견

르쿤의 이러한 확신은 하루아침에 나온 것이 아닙니다. 2022년, 그는 한 인터뷰에서 "비디오의 모든 점(픽셀)을 다 맞추려는 건 불가능하고 무의미했다"고 솔직하게 고백했습니다.
생각해 보세요. 우리가 운전을 할 때 길가에 핀 꽃잎이 바람에 어떻게 흔들릴지 100% 정확하게 예측하나요? 아닙니다. 그건 운전하는 데 전혀 중요하지 않으니까요. 르쿤은 여기서 중요한 깨달음을 얻습니다. "AI에게 필요한 건 고화질 영상을 그려내는 화가의 능력이 아니라, 세상이 돌아가는 이치를 아는 전략가의 '상식(Common Sense)'이다."
여기서 말하는 '상식'은 예절이 아니라 물리적 직관입니다. 손에 든 펜을 놓으면 바닥으로 떨어진다는 것을 알기 위해, 펜의 낙하 궤적을 고화질 3D로 시뮬레이션할 필요는 없습니다. "잡은 걸 놓으면? → 떨어진다"라는 인과관계만 알면 충분하죠.
르쿤은 이를 위해 'Configurator(조정자)'라는 개념을 도입했습니다. 마치 뇌의 관제탑처럼 "저건 배경이니까 대충 봐", "저 차는 위험하니까 자세히 봐"라며 정보의 중요도를 조절하는 것입니다. 텍스트를 몽땅 외우는 게 아니라, 상황의 '본질'을 파악하는 능력, 이것이 르쿤이 추구하는 월드 모델의 핵심입니다.
얀 르쿤의 V-JEPA 학습 원리
"AI에게 비디오의 일부를 가리고(위쪽), 가려진 부분에 무엇이 있을지 예측하게 합니다. 이때 중요한 건 빈칸을 그림처럼 복원하는 게 아니라, 그곳에 담긴 '상황의 의미(보라색 블록)'를 추론하는 것입니다. 르쿤은 이 방식을 통해 AI가 세상의 본질을 빠르게 학습한다고 설명합니다.
얀 르쿤의 V-JEPA 학습 원리 "AI에게 비디오의 일부를 가리고(위쪽), 가려진 부분에 무엇이 있을지 예측하게 합니다. 이때 중요한 건 빈칸을 그림처럼 복원하는 게 아니라, 그곳에 담긴 '상황의 의미(보라색 블록)'를 추론하는 것입니다. 르쿤은 이 방식을 통해 AI가 세상의 본질을 빠르게 학습한다고 설명합니다.

3. 객관식 언어 vs 주관식 현실: 얀 르쿤이 '비디오'를 선택한 이유

그렇다면 이 '상식'을 AI에게 어떻게 가르쳐야 할까요? 르쿤의 선택은 텍스트가 아닌 '비디오'입니다. 그는 현재의 텍스트 기반 AI와 비디오 기반 월드 모델의 차이를 '객관식'과 '주관식'에 비유합니다.
  • 텍스트(LLM): 사전에 있는 단어 중 하나를 고르는 유한한 '이산적(Discrete/객관식)' 세상입니다.
  • 현실(비디오): 운전대를 1cm 꺾을지 1.1cm 꺾을지 정답이 없는 무한한 '연속적(Continuous/주관식)' 세상입니다.
텍스트라는 한정된 틀로는 중력, 관성, 공간감 같은 미묘하고 연속적인 물리 법칙을 담아낼 수 없습니다. 그래서 르쿤의 연구팀은 AI에게 '가려진 비디오(Masking)'를 보여줍니다. 영상을 보여주다가 중간을 가려버리고, "이 다음에 무슨 일이 일어날까?"를 예측하게 만드는 것입니다.
이 훈련 방식은 아기가 세상을 배우는 과정과 소름 돋게 닮았습니다. 아기에게 뉴턴의 법칙을 말로 설명하지 않아도 공이 떨어지는 모습을 보며 스스로 중력을 깨닫듯, 르쿤의 AI는 정답지(레이블) 없이 오직 비디오 관찰만으로 세상의 작동 원리를 스스로 터득합니다. 이것이 바로 그가 "텍스트는 충분하지 않다"고 외치며 비디오 데이터에 집착하는 진짜 이유입니다.
100만 시간의 비디오로 세상을 배우다: V-JEPA 2
V-JEPA 2는 인터넷상의 100만 시간 분량 비디오를 사전 학습해 물리적 직관을 갖췄습니다. 이렇게 훈련된 '눈'은 LLM과 결합해 상황을 설명하거나, 아주 적은 데이터만으로도 로봇의 행동 결과를 정교하게 예측합니다
100만 시간의 비디오로 세상을 배우다: V-JEPA 2 V-JEPA 2는 인터넷상의 100만 시간 분량 비디오를 사전 학습해 물리적 직관을 갖췄습니다. 이렇게 훈련된 '눈'은 LLM과 결합해 상황을 설명하거나, 아주 적은 데이터만으로도 로봇의 행동 결과를 정교하게 예측합니다

4. "로봇에게 진짜 '눈'을 선물하다: 바운드포 파운데이션 데이터"

흥미로운 평행이론이 있습니다. 얀 르쿤이 "픽셀 예측은 틀렸다, 세상의 본질을 봐야 한다"며 월드 모델의 비전을 공개했던 2022년, 바운드포(Bound4) 역시 같은 본질에 착안했습니다. 완전한 무인화(Unmanned Automation)를 실현하기 위해서는, AI가 생각하기 이전에 먼저 세상을 정확하게 '보는(Vision)' 능력이 선행되어야 한다고 판단한 것입니다.
이것이 바운드포가 창업 초기부터 '파놉틱 세그멘테이션(Panoptic Segmentation)'에 집요하게 집중한 이유입니다. 화면 속 모든 객체를 픽셀 단위로 완벽하게 구분해야만, AI가 비디오 속 물리 법칙을 제대로 학습할 수 있기 때문입니다. 기술력의 차이는 명확합니다. 타사가 정밀 데이터 한 장을 처리하는 데 90분이 걸릴 때, 바운드포는 독자 기술로 단 10분 만에 작업을 끝내며 국내 주요 로봇 기업들의 선택을 받고 있습니다.
하지만 바운드포의 핵심 경쟁력은 속도를 넘어선 '데이터의 질(Quality)'에 있습니다. 현장에서 로봇을 운용하며, 무의미한 데이터 폭탄보다는 완벽하게 정제된 '신뢰할 수 있는 데이터' 하나가 연산 한계가 있는 로봇을 훨씬 똑똑하게 만든다는 사실을 깨달았기 때문입니다. 르쿤이 "모든 것을 예측하지 말고 본질을 보라"고 했듯, 바운드포 역시 '파운데이션 데이터(Foundation Data)'를 통해 로봇에게 가장 맑고 정확한 '시신경'을 제공하고 있습니다.

5. 보는 눈과 이해하는 뇌의 결합: 진정한 피지컬 AI 완성

하지만 로봇이 세상을 정확하게 '본다'고 해서 무인화가 완성될까요? 눈이 아무리 좋아도 말을 알아듣지 못하면 소통할 수 없고, 업무의 맥락을 모르면 엉뚱한 행동을 하게 됩니다. 가령 공장 로봇이 부품을 인식(Vision)했다 하더라도, "이 부품은 불량이 잦으니 A라인으로 분류해"라는 복잡한 지침을 이해하지 못하면 그 로봇은 반쪽짜리에 불과하기 때문입니다.
바운드포는 이 점을 놓치지 않았습니다. 그래서 단순히 시각 데이터를 처리하는 것을 넘어, 산업 현장의 매뉴얼과 업무 문서를 학습하는 기술을 접목했습니다. 로봇에게 '눈'뿐만 아니라, 업무의 흐름과 이유를 판단할 수 있는 '뇌'를 달아준 것입니다. 더 나아가 로봇의 관절 각도, 힘의 세기, 이동 경로 같은 '행동 메타데이터(Action Metadata)'까지 언어처럼 통합 분석하여, 로봇이 상황에 맞춰 정교하게 움직이도록 만들었습니다.
결국 바운드포가 그리는 미래는 '보는 AI(World Model)'와 '이해하는 AI(LLM)'의 완벽한 결합입니다. 얀 르쿤이 강조한 물리적 직관(Body)에, 업무 맥락을 파악하는 논리적 지능(Brain)을 더한 것입니다. 보고(See), 계획하고(Plan), 행동하는(Act) 이 세 박자가 톱니바퀴처럼 맞물릴 때, 비로소 바운드포가 꿈꾸는 진정한 의미의 '피지컬 AI'가 완성됩니다.
👇
90분 → 10분, 빠른 R&D 속도 차이가 경쟁력입니다. 국내 주요 로봇 기업과 연구소가 바운드포를 선택한 이유가 있습니다. 9배 빠른 속도, 검증된 품질. 여러분의 AI 프로젝트에 바운드포의 파운데이션 데이터가 어떤 변화를 만들 수 있는지 알아보세요.
Posted by. 황인호 바운드포 Co-Founder, CEO | ‘기술은 저절로 발전하지 않는다’고 믿습니다. ‘단 하나의 아이디어로 세상을 바꿀 수 있다’는 비전 아래, 바운드포를 ‘AI 데이터 파운드리 기업’으로 성장시키고 있습니다. AI가 ‘사람의 열망에서 시작되어, 인류의 진보에 기여’하는 기술이 되도록, 오늘도 우리 구성원들과 최선을 다하고 있습니다.

References
  • Hannah Murphy & Cristina Criddle, "Meta AI chief says large language models will not reach human intelligence", Financial Times, May 22, 2024.
  • Alok Jha, "Machine-learning pioneer Yann LeCun on why a new revolution in AI is coming", The Economist Podcasts (Babbage), February 5, 2025.
  • Kurt Wagner & Riley Griffin, "Meta AI Pioneer LeCun Announces Exit, Plans New Startup", Bloomberg, November 20, 2025.
  • NVIDIA, "NVIDIA Launches Cosmos World Foundation Model Platform to Accelerate Physical AI Development", NVIDIA Newsroom, January 2025.
  • Meta AI, "V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning", arXiv, June 11, 2025.
  • Melissa Heikkilä & Will Douglas Heaven, "Yann LeCun has a bold new vision for the future of AI", MIT Technology Review, June 24, 2022.
  • Assran, M. et al., "V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning," Meta AI, June 2025. https://arxiv.org/abs/2506.09985
  • Bardes, A., Garrido, Q., Ponce, J., Chen, X., Rabbat, M., LeCun, Y., Assran, M., & Ballas, N. (2024). "Revisiting Feature Prediction for Learning Visual Representations from Video." arXiv preprint arXiv:2404.08471. arXiv.orgarXiv.orgRevisiting Feature Prediction for Learning Visual Representations...
Share article

Bound4 Blog