컨텍스트-CoT: LLM이 진짜로 생각하게 만드는 방법 (인컨텍스트 러닝과의 차이)

주요 내용

컨텍스트 러닝이란?
- LLM이 프롬프트에 제공된 새로운 정보(규칙, 지식)를 동적으로 내재화하고 추론하는 능력.
- 기존 '인컨텍스트 러닝(ICL)'과 달리 사전 학습된 파라메트릭 지식에 의존하지 않고 완전히 새로운 도메인 지식을 학습해야 함.
- 예: 뉴턴 물리학만 배운 물리학자가 갑자기 끈 이론이나 양자 역학을 배우는 상황.
현 LLM의 문제점
- CL Bench(2026년 2월) 평가 결과, GPT-5.2도 18%의 낮은 성공률을 보임.
- 주요 오류 유형: 컨텍스트 무시(60%), 컨텍스트 오용(65%), 형식 오류(33%) 등.
- 이유: LLM이 새로운 컨텍스트를 학습하지 않고 기존 파라메트릭 지식을 사용해 답을 '합리화'하는 환각(hallucination)을 발생.
Context-CoT의 두 가지 핵심 아이디어
- 에피스테믹 블라인드폴딩 (최소 누설): 교사 모델이 정답을 미리 알면 파라메트릭 지식으로 합리화하므로, 정답을 숨기고 추론을 유도.
- 학생 역 선택 (최소 인지 마찰): 교사 모델이 생성한 여러 추론 궤적 중 학생 모델의 확률 분포에 가장 적합한(가장 낮은 인지 마찰) 궤적을 선택.
수학적 프레임워크
- 단계별 정렬(Step-wise Alignment): 각 추론 단계의 난이도 분산을 최소화하여 부드러운 학습을 유도.
- 추론 이득(Reasoning Gain): 각 단계가 최종 답변의 불확실성(perplexity)을 낮추는 정도를 측정.
- 최종 선택은 두 목표의 가중합(λ)으로 최적화.
실험 결과
- Qwen 3.5 4B 모델에 LoRA를 적용하여 CL Bench에서 약 4% 성능 향상 (9.06% → 12.85%).
- 정답을 노출한 체인오브소트(Answer-exposed CoT)는 오히려 성능 하락 (-0.47%).
- λ=0.4에서 최적 성능 달성. λ=0(정답만 중시) 또는 λ=1(부드러움만 중시)은 성능 하락.
시사점
- 증류(distillation)는 단순한 지식 전달이 아니라 서로 다른 매니폴드 위상 간의 정렬 문제.
- 현재 LLM은 컨텍스트 러닝에서 심각한 한계를 보이며, 이는 AI 발전의 중요한 미해결 과제.

타임스탬프별 요약

[0:00] 컨텍스트 러닝 소개: LLM이 프롬프트의 새로운 정보를 학습하고 추론하는 능력의 중요성과 기존 ICL과의 차이점 소개. 예시로 식기 세척기 안전 설명서와 질문.
[2:00] CL Bench 소개: 2026년 2월 Tencent와 Fudan 대학이 발표한 컨텍스트 러닝 벤치마크. 500개 복잡 컨텍스트, 1899개 태스크, 31000개 평가 루브릭으로 구성.
[4:00] ICL vs 컨텍스트 러닝 비교: ICL은 사전 학습된 지식을 활성화하는 메커니즘, 컨텍스트 러닝은 완전히 새로운 지식을 내재화하고 추론해야 하는 더 어려운 과제.
[6:02] LLM 성능 현황: GPT-5.2(18%), O3 high(17%), Gemini 3 Pro(15%) 등 최고 모델도 CL Bench에서 낮은 성공률. 주요 오류 유형 분석.
[8:03] 왜 실패하는가?: 뉴턴 물리학자 비유. LLM이 새로운 규칙을 학습하지 않고 기존 지식으로 합리화하는 '환각 제곱' 현상.
[10:04] 첫 번째 아이디어 - 최소 누설: 교사 모델에게 정답을 숨겨야 함. 정답을 알면 파라메트릭 지식으로 합리화하기 때문.
[12:04] 두 번째 아이디어 - 학생 역 선택: 교사 모델의 복잡한 추론 궤적이 작은 학생 모델에게는 너무 어려움. 학생의 확률 분포에 맞는 최소 인지 마찰 궤적을 선택.
[14:07] 루브릭 정의: AI에서 루브릭은 작업 평가를 위한 구조화된 평가 도구. 일관성과 투명성을 보장.
[16:09] 수학적 프레임워크: 두 아이디어를 수학으로 변환. 단계별 정렬(난이도 분산 최소화)과 추론 이득(퍼플렉서티 감소)의 가중합 최적화.
[18:12] 단계별 정렬 상세: 각 추론 단계의 난이도를 음의 로그 우도로 계산하고, 분산을 최소화하여 부드러운 궤적 선택.
[20:13] 추론 이득 상세: 각 단계가 최종 답변의 퍼플렉서티를 얼마나 낮추는지 측정. 양수 값이면 학습에 효과적.
[22:13] 실험 결과: Qwen 3.5 4B + LoRA. Context-CoT로 9.06% → 12.85% (약 4% 향상). 정답 노출 CoT는 8.59%로 하락.
[24:15] 파라미터 분석: λ=0.4에서 최적 성능. λ=0(정답만)이나 λ=1(부드러움만)은 성능 하락. 다목적 최적화 필요성 확인.
[26:15] 결론 및 시사점: 증류는 서로 다른 매니폴드 위상 간의 정렬 문제. 단 4% 향상에 그쳐 AI 발전의 중대한 미해결 과제임을 시사.
[28:16] 개인적 인사이트: 현재 AI 증류 방법론에 대한 이해 부족. LoRA 대신 전체 파인튜닝 시 더 나은 성능 가능성 제시.
[30:17] 마무리: Context-CoT의 중요성과 한계를 강조하며, 시청자에게 논문 직접 읽기를 권장.

컨텍스트-CoT: LLM이 진짜로 생각하게 만드는 방법 (인컨텍스트 러닝과의 차이)

주요 내용

주요 내용

타임스탬프별 요약

링크 공유, 이제 더 스마트하게