- 주요 통찰 세 가지 핵심 요소 프레임워크: 현대 로봇공학의 성공은 의미론(작업 이해), 계획(목표 세분화), 제어(정확한 움직임 실행)를 숙달하는 데 달려 있으며, AI는 마침내 이 세 가지 전반에 걸친 통합 과제를 해결했습니다. - 교차-구현 학습: 여러 로봇 플랫폼에서 동시에 훈련하면(단일 플랫폼이 아닌) 단일 로봇에 최적화된 전문 모델보다 5...
(Ycombinator) How AI-Powered Robots Are Finally Becoming...
핵심 요약
- 주요 통찰
세 가지 핵심 요소 프레임워크: 현대 로봇공학의 성공은 의미론(작업 이해), 계획(목표 세분화), 제어(정확한 움직임 실행)를 숙달하는 데 달려 있으며, AI는 마침내 이 세 가지 전반에 걸친 통합 과제를 해결했습니다.
- 교차-구현 학습: 여러 로봇 플랫폼에서 동시에 훈련하면(단일 플랫폼이 아닌) 단일 로봇에 최적화된 전문 모델보다 50% 더 나은 성능을 보이는 범용 모델을 생성합니다.
- 낮아진 진입 장벽으로 수직 전문화 가능: 현대 로봇공학은 더 이상 독점적인 하드웨어 스택이나 20년의 경험을 요구하지 않습니다.
- 현대 로봇공학의 세 가지 핵심 요소 이해
로봇공학 문제는 역사적으로 해결하기 어려운 것처럼 보였습니다.
주요 통찰
- 세 가지 핵심 요소 프레임워크: 현대 로봇공학의 성공은 의미론(작업 이해), 계획(목표 세분화), 제어(정확한 움직임 실행)를 숙달하는 데 달려 있으며, AI는 마침내 이 세 가지 전반에 걸친 통합 과제를 해결했습니다. - ** 기반 모델을 통한 확장 가능성**: 인터넷 규모 데이터로 훈련된 비전-언어 모델을 사용하면 로봇 제어로 지식을 이전하여 로봇별 훈련 데이터의 필요성을 획기적으로 줄일 수 있습니다. - ** 교차-구현 학습**: 여러 로봇 플랫폼에서 동시에 훈련하면(단일 플랫폼이 아닌) 단일 로봇에 최적화된 전문 모델보다 50% 더 나은 성능을 보이는 범용 모델을 생성합니다. - ** 클라우드 호스팅 추론의 실시간 작동**: 지연 시간 문제에도 불구하고, 영리한 아키텍처 혁신 덕분에 로봇은 제어 루프를 통해 클라우드 기반 AI 모델에 쿼리하면서도 실시간 응답성을 희생하지 않습니다. - ** 경제적 타당성이 채택을 주도**: 로봇 확장의 길은 고가치 사용 사례를 식별하고, 집중적인 데이터를 수집하며, 혼합 인간-로봇 시스템을 구현하고, 완전한 자율성을 추구하기 전에 수익성을 달성하는 것을 요구합니다. - ** 낮아진 진입 장벽으로 수직 전문화 가능**: 현대 로봇공학은 더 이상 독점적인 하드웨어 스택이나 20년의 경험을 요구하지 않습니다. 이제 패기 넘치는 창업자들도 특정 산업을 위한 수직 솔루션을 구축할 수 있습니다.
현대 로봇공학의 세 가지 핵심 요소 이해
로봇공학 문제는 역사적으로 해결하기 어려운 것처럼 보였습니다. 이는 근본적으로 다른 세 가지 과제가 함께 작동하기 때문입니다. 의미론적 요소 는 로봇이 무엇을 해야 하는지 이해하는 데 중점을 둡니다. 이것이 대규모 언어 모델이 로봇공학에 가장 크게 기여한 부분입니다. ChatGPT가 복잡한 지시를 단계별로 분해할 수 있듯이, 이러한 모델은 "저 빨래를 개라"와 같은 고수준의 인간 명령을 로봇이 실행할 수 있는 하위 작업으로 변환할 수 있습니다. 여기서 뛰어난 점은 언어 모델이 인터넷에서 방대한 양의 상식적 지식을 흡수했다는 것입니다. 즉, 명시적인 로봇 훈련 없이도 사물 간의 관계, 물리적 원리, 인간의 의도를 이해합니다.계획 기둥 은 이러한 의미론을 받아들여 상세한 행동 시퀀스를 생성합니다. 로봇은 단순히 "테이블로 이동"하는 것뿐만 아니라 최적의 경로, 작업 순서, 그리고 예상치 못한 시나리오를 처리하는 방법까지 알아야 합니다. 시각-언어 모델은 시각적 입력을 분석하고 공간적 관계에 대해 추론할 수 있기 때문에 이 분야에서 탁월합니다. 이 모델들은 다양한 의류 품목으로 가득 찬 테이블을 보고 각 품목을 처리하기 위한 논리적인 시퀀스를 생성할 수 있습니다. 제어 기둥 은 모든 것이 구체화되는 곳입니다. 이는 물리적 세계와의 연속적인 실시간 상호작용입니다. 10~50밀리초마다 로봇은 각 관절을 얼마나 회전시킬지, 얼마나 많은 힘을 가할지, 위치 오류를 어떻게 수정할지 등 정밀한 명령을 받아야 합니다. 이는 밀리초 단위의 시간 척도에서 작동하고 지속적인 환경 피드백에 반응해야 하므로, 의미론 및 계획 문제와는 근본적으로 다릅니다. 제어는 전통적으로 로봇 공학자들의 악몽, 즉 작은 오류가 치명적인 실패로 이어지는 영역이었습니다. 판도를 바꾼 것은 이 세 가지 기둥이 단일 기반 모델 아키텍처를 통해 통합될 수 있다는 깨달음이었습니다. RT-2 (Robotic Transformer 2) 및 ** PaLM-E**와 같은 논문들은 강력한 시각-언어 모델을 로봇 제어 데이터로 미세 조정하면, 모델이 모든 의미론적 추론 능력을 유지하면서 로봇 "언어"를 배운다는 놀라운 사실을 입증했습니다. 지식 전달이 너무나 효과적이어서 로봇은 훈련 데이터에서 한 번도 접하지 못한 작업을 수행할 수 있습니다. 예를 들어, 테이블 위에 있는 테일러 스위프트 사진을 본 로봇은 테일러 스위프트가 로봇 훈련 데이터에 전혀 등장하지 않았음에도 불구하고 "콜라 캔을 테일러 스위프트 옆으로 옮겨라"라는 지시를 이해할 수 있습니다. 이것이 바로 진정한 전이 학습이며, 모델의 공간 관계 및 객체 개념 이해가 보편적으로 적용되는 것입니다.
교차-구현체 학습 및 스케일링의 돌파구
수년 동안 각 로봇 공학 연구실은 고립된 연구 왕국처럼 운영되었습니다. 한 팀은 12년을 단일 로봇 플랫폼을 구성하고, 해당 하드웨어에 특화된 데이터를 수집하며, 자신들의 특정 센서, 모터, 액추에이터 조합에서만 작동하는 모델을 훈련하는 데 보냈습니다. 암묵적인 가정은 모든 로봇의 제어 역학이 미묘하게 다르기 때문에 로봇 A에서 훈련된 모델은 로봇 B에 일반화될 수 없다는 것이었습니다. 이러한 가정은 틀렸다는 것이 입증되었습니다. Open X-Embodiment 라는 획기적인 연구는 10개의 완전히 다른 로봇 플랫폼에서 동시에 수집된 데이터로 단일 정책을 훈련함으로써 기존의 통념에 도전했습니다. 그 결과는 로봇 공학 커뮤니티를 충격에 빠뜨렸는데, 10개 로봇 모두로부터 학습한 범용 모델이 개별 플랫폼에 최적화된 전문 모델보다 50% 더 나은 성능을 보였습니다. 이는 단순히 미미한 개선이 아니라, 훈련 데이터의 다양성이 실제로 성능을 향상시킨다는 것을 시사하는 패러다임의 전환이었습니다.교차-구현 학습이 훨씬 더 잘 작동하는 이유는 무엇일까요? 모델이 단일 로봇의 데이터로만 훈련할 경우, 해당 특정 플랫폼의 특이점, 하드웨어 한계, 그리고 고유한 행동을 학습합니다. 특정 센서 특성이나 제어 패턴에 과적합됩니다. 하지만 동일한 모델이 서로 다른 센서, 다른 액추에이터, 그리고 다른 물리적 제약 조건을 가진 10개의 다른 로봇으로 훈련할 경우, 로봇 시스템을 제어하는 방법에 대한 보다 추상적이고 일반화 가능한 근본 원리를 학습할 수밖에 없습니다. 조작, 힘 제어, 공간 추론의 핵심 원리가 특정 하드웨어 구현을 초월한다는 것을 인식하게 됩니다. 데이터 수집의 어려움 자체가 이 돌파구가 왜 중요한지를 보여줍니다. 연구를 위해 단일 로봇 플랫폼을 설정하는 데는 약 12년이 걸립니다. 전통적인 접근 방식을 사용한다면, 10개의 다른 플랫폼에서 데이터를 수집하는 데 20년의 노력이 필요할 것입니다. Open X-Embodiment는 로봇 공학 커뮤니티 전반에 걸친 전례 없는 협력, 즉 다양한 연구실, 기업, 기관의 연구자들이 데이터를 공유했기 때문에 가능했습니다. 그들이 만든 데이터셋은 컴퓨터 비전 분야에서 ** ImageNet이 가졌던 것과 동일한 규모와 영향력을 로봇 공학 분야에 가져다주었습니다. 이는 발전을 평가하기 위한 재현 가능한 표준을 확립하고, 전체 분야가 기반으로 삼을 수 있는 공유된 토대를 마련했습니다. 하지만 Open X-Embodiment는 로봇 공학의 가장 깊은 난제인 ** 데이터 희소성을 드러냈습니다. 로봇 공학 분야는 언어 모델이 결코 극복할 필요가 없었던 문제에 직면해 있습니다. 바로 "로봇 데이터의 인터넷"이 없다는 것입니다.
실제 작업 해결: 세탁물 접기부터 창고 자동화까지
이론적인 돌파구는 실제 검증 없이는 아무런 의미가 없습니다. Physical Intelligence (π)는 그들의 파운데이션 모델이 경제적 가치를 제공하는 실제 작업에서 실제로 작동함을 입증했습니다. 두 가지 프로젝트가 이러한 발전을 보여줍니다: Weave의 세탁물 접는 로봇과 Ultra의 창고 포장 시스템입니다. Weave의 세탁물 접기 챌린지 는 오랫동안 로봇 공학의 어려움을 상징해 왔습니다. 세탁물은 물리적 작업의 "튜링 테스트"라고 할 수 있는데, 이는 두 개의 의류 품목이 동일하지 않고, 직물은 끝없이 다양하며, 변형 공간은 말 그대로 무한하기 때문입니다. AI 이전의 접근 방식은 고전적인 로봇 공학, 즉 결정론적 프로그래밍, 정밀하게 보정된 센서, 수기로 작성된 규칙을 사용하려고 했습니다. 이러한 방식은 문제 공간이 전통적인 엔지니어링으로는 단순히 포착될 수 없었기 때문에 실패했습니다. 여기서의 돌파구는 알고리즘이 아니라, 옷을 접는 데 시각적 이해, 상식적 사고가 필요하다는 것을 인식하는 파운데이션 모델의 능력입니다.변형 가능한 물체에 대한 풍부한 지식과 적응형 제어를 포함합니다. 이 시스템은 실제 고객, 이전에 본 적 없는 의류 품목, 그리고 현실 세계의 복잡성을 가진 실제 세탁소에 배포되었습니다. 고전 로봇 공학이 해결하는 데 수십 년이 걸렸을 법한 문제를, 이 파운데이션 모델은 배포 후 약 2주 만에 접근했습니다. 이 모델은 변형과 조작의 핵심 원리를 이해하고 있기 때문에 훈련 데이터에 한 번도 나타나지 않았던 의류 품목도 처리할 수 있었습니다. 울트라의 창고 포장 작업 은 다른 종류의 문제입니다. 트레이에서 물품을 집어 선적을 위해 작은 파우치에 정확하게 넣는 것입니다. 이는 여러 물체 유형을 이해하고, 공간 제약(파우치 입구가 매우 좁음)을 탐색하며, 정밀하게 움직임을 실행해야 합니다. 로봇은 복잡한 장면 이해와 실시간 동작 제어를 필요로 하는 '넛징' 움직임, 즉 물체를 좁은 공간으로 유도하기 위한 미세한 방향 조정을 수행합니다. 이곳은 통제된 실험실 환경이 아닙니다. 이 영상은 실제 고객 주문이 배송되는 실제 전자상거래 창고 작업을 보여줍니다. 로봇은 최소한의 사람 개입으로 며칠 동안 작동하며, 끊임없이 변하는 물체 유형과 구성의 변화를 처리했습니다. 두 시스템 모두에서 혁신적인 점은 바로 배포 기간입니다. 전통적으로, 새로운 작업을 처리하기 위해 로봇을 배포하는 데는 맞춤형 그리퍼 설계, 제어 코드 수동 작성, 매개변수 튜닝, 광범위한 테스트 등 수개월의 엔지니어링 작업이 필요했습니다. 파운데이션 모델을 사용하면 엔지니어링 질문이 "솔루션을 처음부터 어떻게 설계할까?" 대신 "이 특정 작업을 위한 데이터 수집을 어떻게 설정할까?"로 바뀝니다.
업계의 통념에 도전하는 클라우드 기반 추론 아키텍처
로봇 공학 엔지니어들은 실시간 성능을 위해 컴퓨팅이 로봇에서 직접 실행되어야 한다고 보편적으로 믿었습니다. 이러한 가정은 업계 전반의 하드웨어 결정, 비용 구조 및 시스템 아키텍처를 형성했습니다. 기업들은 강력한 엣지 프로세서, GPU, 특수 컴퓨팅 하드웨어에 막대한 예산을 지출했으며, 때로는 로봇 내부에 전체 서버를 운영하기도 했습니다(초기 자율주행차의 Waymo처럼). 그 이유는 타당해 보였습니다. 클라우드 지연 시간은 실시간 제어를 불가능하게 만들기 때문입니다. Physical Intelligence는 직관에 반하는 해결책을 발견했습니다. AI 모델을 클라우드에 호스팅하고 로봇의 제어 루프를 통해 쿼리하는 것입니다. 이는 실시간 제어를 유지하면서 클라우드 기반 모델에 의사 결정을 요청하는 것이므로 역설적으로 들릴 수 있습니다. 하지만 이것은 작동하며, 놀랍도록 잘 작동합니다. 이 아키텍처의 비결은 로봇 공학 문제를 분리하는 두 가지 통찰력에 있습니다.첫 번째 통찰: 액션 버퍼링 및 파이프라인 추론. 모델이 단일 액션을 반환하기를 기다리는 대신, 로봇은 "액션 청크"라고 불리는 일련의 액션—예를 들어 100밀리초 분량의 움직임—을 미리 계획합니다. 이 100밀리초를 로컬에서 실행하는 동안, 로봇은 동시에 클라우드 모델에 쿼리하여 다음 액션 청크를 받습니다. 현재 시퀀스가 끝나면 다음 시퀀스가 준비됩니다. 클라우드 요청은 로컬 실행과 병렬로 이루어져, 시스템의 자연스러운 처리 파이프라인 내에서 지연 시간을 효과적으로 "숨깁니다". 로봇에 미리 계획된 액션이 50밀리초 남아 있다면, 즉시 모델에 쿼리하여 다음 청크가 필요하기 전에 도착하도록 합니다. 두 번째 통찰: 실시간 청킹. 이는 더 미묘하지만 똑같이 중요합니다. 전통적인 추론은 개별 액션을 반환하지만, 실시간 청킹은 일관된 시퀀스를 예측합니다. 한 청크에서 다음 청크로 전환할 때 일관성은 엄청나게 중요합니다. 첫 번째 청크가 로봇 팔을 부드럽게 아래로 움직였다면, 다음 청크는 갑자기 움직이거나 방향을 바꾸지 않고 그 움직임을 자연스럽게 계속해야 합니다. Physical Intelligence는 이러한 전환을 미리 계산하는 알고리즘 개선을 개발하여, 클라우드 기반 추론과 내재된 네트워크 지연에도 불구하고 부드럽고 연속적인 움직임을 보장합니다. 실질적인 의미는 엄청납니다. 기업들은 내년에 더 큰 모델이 맞지 않을까 걱정하면서 오늘날 값비싼 컴퓨팅 하드웨어에 투자할 필요가 없습니다. 이중 운영 체제(임베디드 실시간 OS와 Linux), 복잡한 미들웨어, 또는 이기종 하드웨어에 모델을 배포하는 엔지니어링 부담이 필요 없습니다. 로봇은 더 단순해집니다. 본질적으로 클라우드 기반 인텔리전스에 의해 제어되는 "단순한 카메라"이자 액추에이터입니다. 이러한 단순화는 전체 시스템 아키텍처에 파급 효과를 가져옵니다—더 적은 구성 요소, 더 적은 고장 모드, 더 낮은 비용, 그리고 중요하게는 유연성입니다.
새로운 패턴: 혼합 자율성과 완전 자동화로 가는 길
완전한 자율성은 하룻밤 사이에 도달하는 이진 상태가 아니라, 시스템이 시간이 지남에 따라 거치는 점진적인 과정입니다. Physical Intelligence의 접근 방식은 인간과 로봇이 의사 결정 책임을 공유하는 혼합 자율 시스템 을 사용합니다. 초기 배포에서는 인간이 예외 상황과 실패를 처리하고, 로봇은 일상적인 작업을 처리합니다. 시간이 지남에 따라 시스템이 실제 복잡성과 예외 상황에 대한 경험을 쌓으면서 로봇이 처리하는 작업의 비율이 증가합니다. 이 패턴은 자율 주행 차량이 진화한 방식과 유사합니다. 초기 시스템은 진정으로 복잡한 교통 상황을 탐색할 수 없었으며, 인간이 지속적으로 감독했습니다. 그러나 수백만 마일의 실제 주행에 시스템을 노출함으로써, 자율 시스템은 수천 가지 예외 상황을 접하고 모델을 개선하여 점차 인간의 개입이 덜 필요하게 되었습니다. 로봇 공학도 같은 궤적을 따릅니다.혼합 자율성의 경제적 이점은 매우 중요합니다. 시스템이 완전한 자율성을 달성하기 전에 배포를 가능하게 하기 때문입니다. 작업의 80%를 성공적으로 처리하고 20%에 대해 인간의 개입이 필요한 로봇도 이미 측정 가능한 가치를 제공합니다. 만약 그 시스템이 경제적으로 손익분기점을 넘을 수 있다면(즉, 로봇 생산성으로 인한 비용 절감이 하드웨어 및 인간 감독 비용을 초과한다면), 기업은 확장을 시작할 수 있습니다. 완벽한 자율성(어쩌면 결코 오지 않을 수도 있는)을 위해 10년을 기다리는 대신, 시스템이 개선됨에 따라 점진적으로 확장하는 것입니다. 로봇이 추가될 때마다 더 많은 데이터를 수집하고, 모델을 개선하며, 다음 로봇의 가치를 높입니다. 이러한 선순환은 로봇 공학을 '달 탐사'와 같은 거창한 프로젝트가 아닌, 일반적인 비즈니스 문제로 만듭니다.
수직 로봇 공학 기업 구축을 위한 플레이북
진입 장벽의 감소는 전례 없는 기회를 창출했습니다. 역사적으로 로봇 공학 회사를 설립하려면 수직 통합이 필요했습니다. 로봇을 설계할 기계 엔지니어, 펌웨어를 작성할 제어 엔지니어, 자율성을 다룰 머신러닝 전문가, 특정 산업 분야를 이해할 영업팀, 그리고 배포를 관리할 운영 인력이 필요했습니다. 이러한 복잡성 때문에 자금력이 풍부한 회사나 연구실만이 로봇 공학에 도전할 수 있었습니다. 그 모델이 변화하고 있습니다. Quan Vuong은 여러 창업팀이 이미 따르고 있는 명확한 플레이북을 제시했습니다. 특정 사용 사례 식별**. 범용 로봇을 만들려고 하지 마십시오. 대신, 로봇이 엄청난 가치를 제공할 수 있는 기존 워크플로우를 깊이 이해하십시오. 대규모 세탁물 접기, 창고에서 주문 포장하기, 공장에서 위험 물질 처리하기 등이 될 수 있습니다. 로봇 도입이 비용을 절감하고, 인력 부족을 해결하거나, 위험한 작업을 없애는 곳이 최고의 기회입니다. 이러한 특수성은 데이터 수집 노력을 집중시키기 때문에 중요합니다. 적절한 하드웨어 확보**. 가장 정밀하고 비싼 로봇이 필요하지 않습니다. Physical Intelligence의 모델은 반응형 제어 접근 방식을 통해 하드웨어 부정확성을 보정할 만큼 충분히 견고합니다. 상용 로봇 팔을 구매하고, 카메라를 부착하고, 작업에 적합한 그리퍼를 추가하십시오. 하드웨어는 빠르게 상품화되고 있습니다. 더 이상 처음부터 만들 필요가 없습니다. 데이터 수집에 끊임없이 집중**. 이것이 당신의 경쟁 우위가 됩니다. 로봇이 실제 운영 환경에서 특정 작업을 수행하는 것을 보여주는 데이터를 수집해야 합니다. 이것은 운영적으로는 집중적이지만 확장 가능합니다. 새로운 알고리즘 문제를 해결하는 것이 아니라, 알려진 프로세스를 실행하는 것입니다. 데이터 수집, 주석 처리 및 평가 도구는 점점 더 접근하기 쉬워지고 있지만, 이 분야는 여전히 성숙한 인프라가 부족합니다(이는 지원 회사들에게 큰 비즈니스 기회입니다).** 4. 혼합 자율 시스템 우선 도입**. 완벽한 자율성을 기다리지 마십시오. 인간이 실패를 처리하고 로봇이 일상적인 작업을 처리하는 시스템을 배포하십시오. 이는 즉각적인 실제 가치를 창출하고, 배포될 때마다 시스템이 개선되는 피드백 루프를 만듭니다. 경제적 손익분기점 달성**. 확장하기 전에 수익성에 집중하십시오. 단일 로봇 배포가 경제적으로 실행 가능해지면(비용 절감이 총 소유 비용을 초과하면) 모델이 작동함을 증명한 것입니다. 그 다음에는 공격적으로 확장하십시오. 피지컬 인텔리전스의 파운데이션 모델 활용**. 이것이 핵심적인 가능성을 열어주는 요소입니다. 자율성을 처음부터 구축하는 것이 아니라, 사전 훈련된 모델을 특정 사용 사례에 적용하는 것입니다. 이는 개발 기간을 수년에서 수개월로 단축하고 필요한 전문 지식을 줄여줍니다. 20년의 로봇 공학 경험 대신, 끈질긴 실행력, 고객 이해, 그리고 운영 우수성이 필요합니다.
왜 지금 이 순간이 다른가: 로봇 공학의 캄브리아기 대폭발
수십 년 동안 로봇 공학은 막대한 투자와 인재에도 불구하고 더디게 발전했습니다. 핵심적인 한계는 로봇 공학이 의미론적 이해, 동작 계획, 제어, 기계 설계, 비즈니스 실행 등 여러 어려운 문제를 동시에 해결해야 한다는 것이었습니다. 이를 시도한 기업들은 기본적인 자율성 문제를 해결하는 데 자원을 소진하여 비즈니스 개발이나 시장 적합성을 위한 여력이 거의 없었습니다. 획기적인 발전은 바로 언번들링(Unbundling) 입니다. 이전에는 로봇 공학 회사를 설립하려면 다음이 필요했습니다. - 맞춤형 기계 설계
- 독점 제어 소프트웨어
- 맞춤형 자율성 알고리즘
- 비즈니스 관계 및 고객 이해
- 운영 배포 전문성
이제 피지컬 인텔리전스와 같은 연구소의 파운데이션 모델을 통해 자율성 계층이 해결(또는 충분히 해결)되었습니다. 이러한 언번들링은 신생 기업들이 다음 사항에 전적으로 집중할 수 있음을 의미합니다. - 특정 수직 시장 이해
- 운영 워크플로우에 맞는 시스템 설계
- 고객 관계 구축
- 배포를 효율적으로 실행
이러한 급진적인 단순화는 Quan Vuong이 "로봇 공학의 캄브리아기 대폭발"이라고 부르는 현상을 가능하게 합니다. 소수의 자금력 있는 기업들이 범용 로봇 공학을 해결하려던 것과 달리, 우리는 특정 틈새시장을 위한 로봇을 구축하는 수천 개의 전문 팀을 보게 될 것입니다. 일부는 실패하겠지만, 많은 기업이 성공할 것입니다. 성공의 기준이 "모든 로봇 공학 문제를 해결"하는 것에서 "이 특정 문제를 사람을 고용하는 것보다 더 잘 해결"하는 것으로 낮아졌기 때문입니다.이 비유는 유용합니다. 현재 산업용 로봇 공학은 1960년대의 메인프레임 컴퓨팅과 같습니다. 즉, 대기업만이 특정 애플리케이션을 위해 배포하는 비싸고 전문화된 장비입니다. 개인용 컴퓨팅은 진입 장벽을 낮췄을 때 어떤 일이 일어나는지 보여주었습니다. 수십억 대의 기기가 어디에나 존재하고, 수많은 기업이 생겨나며, 모든 계층에서 혁신이 일어났습니다. 로봇 공학은 이제 개인용 컴퓨팅 시대로 진입하고 있습니다. 로봇은 범용 안드로이드가 아니라, 특정 문제를 해결하는 전문화된 도구가 되어 다양한 산업 분야에 수직적으로 배포될 것입니다. 이러한 폭발적인 성장은 이미 시작되고 있습니다. Physical Intelligence는 Weave, Ultra 및 특정 수직 산업을 위한 로봇을 구축하는 다른 회사들과 협력해 왔습니다. 하지만 이는 초기 사례에 불과합니다. 진정한 물결은 수백 개의 팀에서 올 것입니다. 이들 중 상당수는 젊은 창업가들이며, 로봇 공학 경험이 없더라도 파운데이션 모델을 기반 계층으로 활용하고 비즈니스 실행에 집중할 것입니다.
인프라 격차와 지원 기회
Physical Intelligence를 설립하는 동안 놀라웠던 점은 로봇 공학을 위한 인프라가 소프트웨어만큼의 규모로 존재하지 않는다는 것이었습니다. 텍스트 기반 머신러닝 모델을 훈련시키고자 할 때, 데이터 주석, 품질 검사, 실험 추적, 평가 등을 제공하는 수십 개의 플랫폼이 있습니다. 하지만 로봇 공학 분야에서는 거의 아무것도 존재하지 않았습니다. Physical Intelligence는 이 중 많은 부분을 자체적으로 구축했습니다. 원격 조작 시스템(멀리서 로봇 제어), 데이터 수집 및 관리, 주석 워크플로우, 품질 검사, 데이터 버전 관리, 평가 프레임워크 등이 그것입니다. 하지만 이는 지원 생태계에 엄청난 비즈니스 기회를 제시합니다. 다음과 같은 서비스를 제공하는 기업들을 상상해 보세요. - 원격 조작 플랫폼: 사람이 어디서든 로봇을 제어하고 데이터 수집을 지원할 수 있도록 합니다. - ** 데이터 주석 서비스**: 로봇 데이터 레이블링을 위한 전문화된 워크플로우 (객체 식별, 동작 분할, 실패 지점 표시)
- 평가 인프라: 벤치마크 전반에 걸쳐 로봇을 체계적으로 테스트하기 위한 도구
- 모니터링 및 로깅: 로봇 작동, 성능 지표, 실패 모드에 대한 실시간 가시성 제공
- 최적화 서비스: 실패 패턴 분석 및 개선 사항 제안
이들은 로봇 회사가 아니라 지원 도구를 제공하는 회사입니다. 하지만 로봇 산업이 확장되기 위해서는 이들이 필수적입니다. 최고의 인프라를 구축하는 팀은 모든 수직 로봇 회사가 필요로 하는 핵심 서비스가 될 것입니다. 또한, Physical Intelligence는 개방적인 접근 방식을 취하고 있습니다. 그들은 π (파이) Zero와 π Zero.5를 오픈 소스 모델로 공개했습니다. 놀랍게도, 가중치는 동일합니다. 오픈 소스 버전은 Physical Intelligence가 내부적으로 사용하는 것과 정확히 동일한 사전 훈련된 모델 가중치를 사용합니다. 이러한 결정은 더 많은 팀이 실험하고, 접근 방식을 검증하며, 개선 사항에 기여할 수 있도록 함으로써 생태계를 가속화합니다. 회사의 성공은 독점 모델에 기반한 것이 아니라 실행력과 도메인 전문성에 달려 있습니다.## 결론: 로봇 시대의 서막
이 분야 역사상 처음으로, 로봇 공학은 틈새 산업 애플리케이션을 넘어 확장할 수 있는 도구를 갖추게 되었습니다. 파운데이션 모델, 클라우드 인프라, 그리고 간소화된 배포 아키텍처의 융합은 발전을 가로막던 근본적인 장애물들을 제거했습니다. 우리는 공상 과학 소설에 대해 이야기하는 것이 아닙니다. 우리는 실제 세탁소에서 빨래를 개고, 실제 창고에서 주문을 포장하며, 어려움이나 위험 때문에 인간 작업자들이 기피했던 작업들을 처리하는 로봇에 대해 이야기하고 있습니다.