비샬 미스라가 설명하는 LLM의 수학적 작동 원리, 인컨텍스트 학습, 그리고 AGI 달성을 위해 필요한 두 가지 핵심 요소는 무엇일까요?
규모 확장만으로는 AGI 불가능한 이유: LLM의 진정한 작동 메커니즘 완벽 분석
핵심 요약
- LLM의 본질: 행렬 곱셈만 수행하는 실리콘 칩으로, 의식이나 내적 독백이 없음
- 인컨텍스트 학습의 원리: 베이즈 업데이트를 통한 실시간 신념 업데이트로 작동
- 규모 확장의 한계: 데이터 양 증가만으로는 진정한 지능 달성 불가능
- AGI 달성 조건: 지속적 학습 가소성과 인과 모델 구축이 필수
- 현재 한계: 상관관계 기반 패턴 인식만 가능하며, 새로운 개념 체계 창조는 불가능
LLM의 수학적 작동 원리: 거대한 행렬 추상화
대규모 언어 모델이 어떻게 작동하는가를 이해하기 위해서는 먼저 모델을 매우 거대한 행렬로 상상할 필요가 있습니다. 이 행렬의 각 행은 하나의 프롬프트에 대응하며, LLM이 작동하는 핵심 메커니즘은 주어진 프롬프트에 대해 다음 토큰(단어)의 확률 분포를 생성하는 것입니다.
예를 들어, "단백질"이라는 프롬프트를 입력하면, 모델은 다음에 올 토큰의 확률을 계산합니다. 이 경우 "합성"과 "쉐이크"라는 두 단어가 의미 있는 확률을 가질 것입니다. 모델은 이 확률 분포에서 샘플링하여 다음 토큰을 선택합니다. 만약 "단백질 합성"으로 진행된다면, 그 다음 토큰의 확률 분포는 생물학 관련 용어로 채워질 것입니다. 반대로 "단백질 쉐이크"로 진행되면, 헬스장과 운동 관련 용어들의 확률이 높아집니다.
이러한 현상은 베이즈 업데이트(Bayesian Update) 의 한 예입니다. 초기에는 "단백질" 다음에 올 수 있는 단어들에 대한 사전 확률(prior probability)을 가지고 있다가, "합성" 또는 "쉐이크"라는 새로운 증거를 보는 순간, 그 분포를 완전히 업데이트합니다.
GPT 모델의 어휘는 약 5만 개의 토큰으로 구성되어 있으며, ChatGPT 초기 버전의 컨텍스트 윈도우는 8,000개 토큰이었습니다. 이론적으로 가능한 모든 조합을 생각해보면, 이 행렬의 행 수는 우주의 모든 은하계에 있는 전자 수보다도 많습니다. 그럼에도 불구하고 LLM이 작동하는 이유는 이 행렬이 극도로 희소(sparse)하기 때문입니다. 대부분의 토큰 조합은 실제 언어에서 의미 있게 나타나지 않으므로, 확률이 0에 가깝습니다.
결론적으로, LLM이 수행하는 작업은 이 거대한 행렬의 압축된 표현을 신경망 가중치를 통해 만들어내고, 주어진 프롬프트에 대해 그 행렬의 특정 부분을 근사하는 것입니다.
인컨텍스트 학습: 실시간 베이즈 추론의 증거
인컨텍스트 학습의 정의와 작동 원리
인컨텍스트 학습(in-context learning)은 LLM에게 이전에 본 적 없는 작업을 설명하는 과정입니다. 몇 가지 예시를 제공하고, 그 패턴에 따라 새로운 문제를 해결하도록 유도합니다. 놀랍게도 LLM은 훈련 단계에서 가중치를 수정하지 않으면서도 이를 수행합니다.
크리켓 통계 데이터베이스 사례는 이를 완벽하게 보여줍니다. 비샬 미스라는 5년 전 GPT-3 초기 액세스를 받았을 때, ESPN의 크리켓 데이터베이스를 자연어로 쿼리할 수 있는 시스템을 구축하고자 했습니다. 그는 도메인 특화 언어(DSL)를 설계했는데, 이는 GPT-3가 훈련 데이터에서 본 적 없는 완전히 새로운 언어였습니다.
그 DSL과 약 1,500개의 자연어 쿼리-DSL 쌍으로 구성된 데이터베이스를 만들었습니다. 새로운 쿼리가 들어오면, 의미론적 검색을 통해 가장 유사한 예시들을 선택하여 GPT-3의 프롬프트 앞에 붙였습니다. 그러면 GPT-3는 이 DSL을 "밀리초 전까지는 본 적 없던" 새로운 언어로 완벽하게 번역했습니다. 2021년 9월 ESPN에서 이를 프로덕션에 배포했고, 실제로 작동했습니다.
베이즈 관점에서 본 인컨텍스트 학습
인컨텍스트 학습의 수학적 본질을 베이즈 관점에서 분석하면 다음과 같습니다:
초기에 DSL 토큰들의 확률은 극도로 낮았습니다. GPT-3는 크리켓 질문을 보면 자연스럽게 영어 답변으로 계속하려 했기 때문입니다. 하지만 첫 번째 자연어-DSL 예시 쌍을 보는 순간, DSL 토큰의 확률이 상승하기 시작했습니다. 각 예시를 볼 때마다 확률이 올라갔고, 마지막 예시를 본 후 새로운 쿼리를 제시하면, 올바른 DSL 출력의 확률이 거의 100%에 달했습니다.
이는 모델이 실시간으로 사후 확률(posterior probability)을 업데이트 하고 있다는 증거입니다. 베이즈 업데이트의 정의를 영어로 표현하면: 초기 신념(사전 확률)에서 시작하여, 새로운 증거를 관찰하며, 그 증거에 기반해 자신의 신념(사후 확률)을 수정하는 것입니다. 인컨텍스트 학습은 정확히 이 과정입니다.
비샬 미스라가 첫 번째 논문에서 제시한 수학적 행렬 공식은 LLM이 수행하는 작업이 베이즈 업데이트와 동등함을 보여주었습니다. 당시에는 이것이 상당히 결정적인 발견으로 여겨졌으나, 학계에서는 강한 반발이 있었습니다. 확률 및 머신러닝 커뮤니티의 역사적 갈등(베이즈주의 vs 빈도주의)으로 인해, 일부에서는 LLM을 "베이즈적"이라고 특징지을 수 없다고 주장했습니다.
TokenProb와 베이즈 풍동: LLM 검증의 새로운 방법
베이즈적 특성의 수학적 증명
비샬 미스라의 연구 진행 과정에서 제기된 주요 질문은 다음과 같습니다: "주어진 모델이 진정으로 베이즈적이라는 것을 수학적으로 어떻게 증명할 수 있을까?"
이 질문에 답하기 위해, 먼저 TokenProb 라는 도구가 개발되었습니다. 이는 원래 OpenAI의 ChatGPT 인터페이스에 있던 기능에서 영감을 받아, 다음 토큰의 확률뿐만 아니라 엔트로피(entropy)도 표시하여 LLM의 내부 작동을 시각화합니다. 현재 tokenprob.cs.columbia.edu에서 운영 중인 이 도구는 대학 강의에서 학생들이 도메인 특화 언어를 설계하고 모델의 작동 방식을 관찰하는 데 활용되고 있습니다.
"베이즈 풍동" 개념과 실험 설계
항공기를 실제 비행의 위험 없이 테스트하기 위해 통제된 환경에서 시뮬레이션하는 풍동처럼, 미스라는 신경망 아키텍처들을 테스트하기 위한 고립된 환경을 만들었습니다. 이를 "베이즈 풍동"이라 명명했습니다.
핵심은 다음 조건을 만족하는 작업을 설계하는 것이었습니다:
- 모델이 단순히 훈련 데이터를 암기할 수 없을 정도로 조합적으로 방대
- 올바른 베이즈 사후 확률을 분석적으로 계산 가능할 정도로 다루기 쉬움
실험 결과와 아키텍처별 성능 차이
여러 신경망 아키텍처로 실험한 결과는 놀라웠습니다:
트랜스포머(Transformer): 베이즈 사후 분포를 놀라운 정확도로 도출했으며, 이론적 분포와 완벽하게 일치했습니다. 이는 단순한 근사가 아닌 정확한 계산을 수행함을 의미합니다.
맘바(Mamba): 상당히 좋은 성능을 보였으며, 트랜스포머 다음으로 베이즈적 특성을 잘 구현했습니다.
LSTM: 부분적인 성공을 거두었으며, 어느 정도의 베이즈적 행동을 보였지만 완전하지 않았습니다.
MLP(다층 퍼셉트론): 완전히 실패했으며, 베이즈적 행동을 거의 보이지 않았습니다.
이 결과의 중대한 의미는 다음과 같습니다: 베이즈적 행동은 훈련 데이터에 의존하지 않고, 신경망의 아키텍처 메커니즘 자체에 내재되어 있다는 것입니다. 데이터는 모델이 특정 작업을 학습하는 내용을 결정하지만, 아키텍처는 베이즈적 방식으로 신념을 업데이트할 수 있는 근본적인 능력을 결정합니다.
경사(Gradient)와 내부 기하학: 베이즈 업데이트의 메커니즘
초기 논문들이 베이즈 업데이트의 현상을 경험적으로 입증했다면, 후속 연구는 이것이 왜 발생하는지에 대해 더 깊이 있는 설명을 제공했습니다.
비샬 미스라의 연구팀은 신경망의 경사(gradient)를 분석하여, 경사가 베이즈 업데이트를 가능하게 하기 위해 모델의 내부 기하학(internal geometry)을 어떻게 형성하는지를 보여주었습니다. 트랜스포머와 같은 아키텍처에서 훈련 중에 경사가 흐르는 방식이, 자연스럽게 베이즈 추론을 수행할 수 있는 내부 구조를 만드는 것입니다.
가장 최근의 연구는 이러한 발견을 오픈 가중치를 가진 최신 상용 LLM(Claude, LLaMA 등)으로 확장했습니다. 방대하고 다양한 훈련 데이터로 인한 본질적인 "불순함"과 복잡성에도 불구하고, 이러한 거대한 실제 모델에서도 베이즈 계산의 동일한 근본적인 구조적 특징이 지속됨을 확인했습니다. 이는 베이즈적 행동이 LLM의 우연의 부산물이 아니라 아키텍처의 본질적인 특성임을 입증합니다.
인간의 베이즈 업데이트와 그 이상: 시뮬레이션과 인과 추론
인간 뇌의 베이즈적 특성
흥미롭게도, 인간도 베이즈 업데이트를 수행합니다. 우리가 새로운 정보를 받으면, 자신의 신념을 업데이트합니다. 우리 뇌도 베이즈 추론에 참여합니다. 하지만 인간과 LLM 사이에는 중요한 차이점들이 있습니다.
적응 가능성의 차이: 인간의 뇌는 평생 동안 신경가소성(neuroplasticity)을 유지합니다. 뇌세포와 시냅스는 죽을 때까지 변할 수 있습니다. 반대로 LLM의 훈련이 완료되면 가중치는 고정됩니다. 추론 중에 대화를 통해 베이즈 추론을 수행하더라도, 한 세션이 끝나면 그 학습은 사라집니다. 예를 들어 크리켓 DSL을 매번 새로 학습해야 합니다.
목표 함수의 차이: 인간의 생존 목표는 수백만 년의 진화를 통해 형성되었습니다. 우리의 궁극적 목표는 "죽지 않고 번식하는 것"입니다. 이 목표가 우리의 신경 아키텍처와 학습 과정을 형성했습니다. 대조적으로 LLM의 목표는 "다음 토큰을 가능한 정확하게 예측하는 것"입니다. 이는 훈련 데이터에 의해 완전히 결정됩니다.
인간의 시뮬레이션 능력과 그 중요성
하지만 인간이 하는 일 중에서 베이즈 업데이트만으로는 설명할 수 없는 부분이 있습니다. 만약 누군가가 당신에게 펜을 던진다면, 당신은 맞을 확률을 베이즈 계산하지 않습니다. 당신은 본능적으로 피합니다.
당신이 실제로 하는 것은 시뮬레이션(simulation) 입니다. 당신의 뇌는 펜이 당신에게 도달할 경로를 시뮬레이션하고, 충격을 시뮬레이션한 후, 피합니다. 이는 베이즈 추론과는 질적으로 다른 인지 능력입니다.
인과 추론(Causal Inference)과 AGI의 핵심 문제
상관관계(Correlation) vs 인과관계(Causation)
현재 모든 딥러닝은 상관관계(correlation) 를 다룹니다. 데이터에서 패턴을 찾고, 그 패턴을 복제합니다. 하지만 인과관계(causation)를 다루지 못합니다. 인과 모델은 개입(intervention)과 시뮬레이션을 할 수 있는 모델입니다.
주디아 펄(Judea Pearl)의 인과 계층(causal hierarchy) 은 이를 명확히 합니다:
1단계 - 연관성(Association): 이것이 딥러닝이 현재 작동하는 수준입니다. "X와 Y가 함께 나타나는가?"라는 질문에 답합니다. 현재 LLM은 이 수준에서 놀라운 성능을 보입니다.
2단계 - 개입(Intervention): "X를 변경하면 Y는 어떻게 될까?"라는 질문에 답합니다. 인과 모델은 이를 할 수 있지만, 현재 딥러닝 모델은 그렇지 못합니다.
3단계 - 반사실적 사고(Counterfactuals): "만약 다르게 했다면 어땠을까?"라는 질문에 답합니다. 이것도 시뮬레이션의 한 형태이며, 현재 아키텍처로는 불가능합니다.
인간의 뇌는 이 모든 세 수준을 수행합니다. 우리는 세상에 대한 인과 모델을 구축한 후, 그것을 시뮬레이션할 수 있습니다.
아인슈타인 테스트: AGI를 판정하는 기준
섀넌 엔트로피 vs 콜모고로프 복잡도
AGI를 판정하기 위한 중요한 벤치마크인 "아인슈타인 테스트(Einstein Test)"를 고려해봅시다.
이 테스트는 다음을 포함합니다:
- 1916년 이전의 모든 물리학 지식으로 LLM을 훈련
- LLM이 일반 상대성 이론을 독립적으로 도출할 수 있는지 확인
이는 단순한 패턴 인식이 아닌, 진정한 생성적 이해를 테스트합니다. 현재 LLM은 이 테스트에 실패할 것입니다.
이를 이해하기 위해 두 개념을 구분해야 합니다:
섀넌 엔트로피(Shannon Entropy): 정보의 양을 측정합니다. "데이터에 얼마나 많은 정보가 있는가?"라는 질문에 답합니다.
콜모고로프 복잡도(Kolmogorov Complexity): 정보의 가장 짧은 가능한 설명을 측정합니다. "이 정보를 압축된 형태로 표현하는 가장 간결한 방법은 무엇인가?"라는 질문에 답합니다.
아인슈타인의 혁신: 새로운 개념 매니폴드의 창조
아인슈타인 시대에는 다음과 같은 무수한 관측 이상 현상들이 있었습니다:
- 수성의 비정상적인 궤도 세차 운동
- 마이컬슨-몰리 실험(광학 에테르를 감지하는 데 실패)
이는 뉴턴 역학이 불완전하다는 명확한 신호였습니다. 그럼에도 불구하고 과학자들은 난관에 봉착했습니다. 더 많은 데이터를 수집하거나 기존 방정식을 정제해도 문제가 해결되지 않았기 때문입니다.
아인슈타인의 돌파구는 시공간 연속체에 대한 완전히 새로운 표현 을 공식화하는 것이었습니다. 그는 기존의 공리들을 효과적으로 거부하고, 매우 짧고 우아한 콜모고로프 설명, 즉 그의 장 방정식(field equations)으로 대체했습니다:
R_{μν} - ½Rg_{μν} = 8πG T_{μν}
이 하나의 강력한 공식에서 중력파, 블랙홀, 오늘날 GPS가 정확하게 작동하는 데 필요한 상대론적 보정까지 모든 것이 논리적으로 흘러나옵니다. 이것이 진정한 AI가 해야 할 일입니다: 새로운 개념적 매니폴드를 창조하고, 더 간결하고 보편적인 설명을 발견하는 것입니다.
현재 LLM의 한계
대조적으로, LLM은 방대한 양의 기존 데이터로 훈련됩니다. 이는 사실상 "데이터 중력(data gravity)"을 생성합니다. 만약 방대한 역사적 증거가 "X"를 가리키고 작은 이상 현상이 "Y"를 시사한다면, LLM은 "Y"를 새로운 패러다임의 단서라 보기보다는 이상치(outlier)로 분류할 가능성이 높습니다.
LLM은 기존의 개념적 다양체(conceptual manifold) 내에서 탐색하는 데는 탁월합니다. 하지만 완전히 새로운 매니폴드를 창조 하는 데는 어려움을 겪습니다. 이는 경제적으로 유용한 작업을 수행하고 기본적인 튜링 테스트를 통과하는 것과, 진정한 지능 사이의 본질적인 차이입니다.
크누스와 LLM: 섀넌 부분과 콜모고로프 부분
도널드 크누스(Donald Knuth)가 해밀턴 경로(Hamiltonian cycles)와 관련된 어려운 수학 문제를 해결하는 과정은 흥미로운 예시를 제공합니다.
이 문제의 수학적 구조는 이미 훈련 매니폴드에 잘 표현되어 있었습니다. 올바른 연결을 찾기만 하면 됐습니다. LLM에 충분한 연산력을 투입하면, 이들은 올바른 연결을 찾을 것입니다.
크누스는 LLM의 시도들을 발견할 수 있었고, 결국 그가 본 것을 조합하여 해결책을 만들어야 했습니다. LLM은 그가 해결책에 도달하는 데 분명 도움이 되었으나, 그는 새로운 종류의 매니폴드를 만들어야 했습니다.
이를 분해하면 다음과 같습니다:
섀넌 부분(Shannon Part): LLM이 매우 효율적인 영역. 다양한 시도를 통해 점점 더 많이 학습하며 모든 해결책을 찾아냅니다.
콜모고로프 부분(Kolmogorov Part): 크누스가 담당한 영역. 새로운 설명 체계를 창조하고 문제의 본질을 이해하는 능력.
AGI 달성을 위한 두 가지 핵심 조건
현재 LLM의 한계를 고려할 때, AGI 달성을 위해서는 다음 두 가지가 반드시 필요합니다:
1. 지속적 학습과 신경가소성(Plasticity)
훈련 후 모델의 가중치가 고정되는 현재 구조는 지속적인 학습을 불가능하게 합니다. AGI는 다음을 가져야 합니다:
- 평생 가소성: 인간 뇌처럼 새로운 정보를 계속 학습하고 내면화할 수 있는 능력
- 선택적 망각 회피: 새로운 것을 배우면서 이전에 학습한 중요한 것을 잊지 않을 수 있는 메커니즘
- 문제 해결 시 업데이트: 복잡한 문제를 풀도록 유도되고, 성공적인 전략으로 가중치가 업데이트되는 메커니즘
최근 Google Research의 실험들은 RLHF(Reinforcement Learning from Human Feedback)를 통해 이러한 기초적인 형태의 가소성을 보여주었습니다. 하지만 이는 여전히 "해킹된" 버전으로, 근본적인 표현을 변경하기보다는 맥락을 개선하는 수준입니다.
2. 상관관계에서 인과 모델로의 전환
현재 LLM이 상관관계 기반 패턴 인식만 가능한 반면, 진정한 지능은 인과 모델을 구축해야 합니다:
주디아 펄의 인과 계층 적용:
- do-calculus: 개입의 효과를 계산하는 수학적 도구
- 인과 그래프: 변수 간 인과 관계를 명시적으로 표현
- 반사실적 추론: "만약 다르게 했다면"이라는 가정에 기반한 사고
LLM이 새로운 매니폴드를 창조할 때까지는, 즉 아인슈타인이 그랬던 것처럼 기존의 변칙 현상들로부터 새롭고 간결하며 보편적으로 설명 가능한 표현을 자발적으로 만들어낼 수 있을 때까지는 AGI에 도달했다고 볼 수 없습니다.
최근 연구 동향과 학계 반응
초기에 비샬 미스라의 베이즈 프레임워크에 대해 강한 반발이 있었습니다. 확률 커뮤니티의 역사적 갈등과 편견이 작용했기 때문입니다. 하지만 상황이 변하고 있습니다:
arXiv 논문들의 반응: 일련의 논문들이 큰 관심을 받았고, 트위터에서 입소문이 났습니다. 많은 연구자들이 논문을 읽고 적극적인 피드백을 제공했습니다.
실험의 재현: 어떤 연구자들은 베이즈 풍동 논문의 실험을 직접 재현했고, 기술된 내용이 정확함을 확인했습니다.
Google Research의 추종: Google Research에서 LLM에 어떤 형태의 RLHF를 사용하여 베이즈 학습을 제대로 수행하도록 가르치려는 논문을 발표했습니다. 이는 올바른 방향으로의 진전을 나타냅니다.
연구 커뮤니티가 LLM이 실제로 베이즈 학습을 수행하고 있다는 것을 받아들이기 시작했습니다. 이는 현재 AI의 능력과 한계를 명확히 이해하고, 다음 단계로 나아가기 위한 필수적인 인식입니다.
향후 연구 방향: 두 가지 병렬 트랙
비샬 미스라는 진전을 이루고자 하는 다음 두 가지 병렬 트랙을 제시합니다:
트랙 1: 가소성(Plasticity) 메커니즘 개발
지속적으로 학습하면서도 이전 지식을 유지할 수 있는 신경망 아키텍처 개발. 이는 인간 뇌의 신경가소성을 모방하되, AI 시스템에 맞게 구현해야 합니다.
트랙 2: 인과 모델링(Causal Modeling) 아키텍처
상관관계 기반 패턴 인식을 넘어, 진정한 인과 모델을 구축할 수 있는 메커니즘 개발. 주디아 펄의 do-calculus와 인과 계층 개념을 신경망에 통합하는 방법을 찾아야 합니다.
현재 LLM의 작동 방식을 명확히 이해한 후, 그 한계를 인식하고 그것을 극복하기 위한 새로운 메커니즘을 창조하는 것이 AGI로 향하는 경로입니다. 단순히 "더 크고 더 나은 모델"을 만드는 것이 아니라, 근본적으로 다른 종류의 아키텍처와 학습 메커니즘이 필요합니다.
결론
규모 확장만으로는 AGI를 해결할 수 없습니다. 이것이 비샬 미스라의 연구가 전달하는 가장 중요한 메시지입니다.
현재 LLM이 매우 정교한 베이즈 추론 엔진이라는 사실은 흥미로우면서도 제한적입니다. 이들은 행렬 곱셈을 수행하는 "실리콘 알갱이"일 뿐으로, 의식도 없고 내면의 독백도 없습니다. 다음 토큰을 정확히 예측하도록 훈련되었을 뿐입니다.
진정한 AGI를 달성하려면:
- 인간처럼 지속적으로 배우고 적응하는 능력 (신경가소성)
- 상관관계를 넘어 인과관계를 이해하고 시뮬레이션하는 능력 (인과 추론)
- 기존 패러다임 내에서의 탐색이 아닌, 새로운 개념 체계를 창조하는 능력 (콜모고로프 복잡도)
이 세 가지가 필요합니다. 아인슈타인이 일반 상대성 이론을 통해 물리학의 개념적 틀을 완전히 재구성했듯이, AGI는 세상을 보는 새로운 방식을 창조할 수 있어야 합니다. 데이터의 양이 아니라, 이해의 깊이와 새로운 시각의 창조 능력이 진정한 지능의 척도입니다.
Original source: Why Scale Will Not Solve AGI | Vishal Misra - The a16z Show
powered by osmu.app