Codex에서 목표(Goals) 사용하기: 지속적인 목표 기반 코드 작업

주요 내용

Goals 개념: Goals는 Codex에서 특정 결과가 달성될 때까지 스레드가 지속적으로 작업하게 하는 영구적인 목표입니다. 일반 프롬프트('다음 작업 수행')와 달리, Goals는 '이 결과가 참이 될 때까지 계속 작업'하도록 지시합니다.
- 프롬프트와의 차이점:
  - 프롬프트: 요청 -> 작업 -> 결과 -> 대기 (단일 턴)
  - Goal: 작업 -> 확인 -> 계속 또는 완료 (지속적인 루프)
- 적합한 작업 예시: 성능 프로파일링, 플래키(flaky) 테스트 재현, 의존성 마이그레이션, 벤치마크 기반 튜닝, 복잡한 연구 작업 등.
Goal 작성법: 강력한 Goal은 다음 6가지 요소를 정의해야 합니다.
- 결과(Outcome): 작업이 완료되었을 때 참이어야 하는 상태.
- 검증 수단(Verification surface): 결과를 증명할 테스트, 벤치마크, 보고서, 아티팩트 등.
- 제약 조건(Constraints): 작업 중 퇴보(regression)하지 말아야 할 사항.
- 경계(Boundaries): 사용 가능한 파일, 도구, 데이터, 리포지토리 범위.
- 반복 정책(Iteration policy): 각 시도 후 다음 최선의 행동을 선택하는 방법.
- 차단 중단 조건(Blocked stop condition): 더 이상 진행할 수 없을 때 중단하고 보고하는 조건.
- 예시(강력한 Goal): /goal Reduce p95 checkout latency below 120 ms, verified by the checkout benchmark, while keeping the correctness suite green. Use only the checkout service, benchmark fixtures, and related tests. Between iterations, record what changed, what the benchmark showed, and the next best experiment to try. If the benchmark cannot run or no valid paths remain, stop with the attempted paths, the evidence gathered, the blocker, and the next input needed.
- 약한 Goal 개선:
  - 약함: /goal Improve performance
  - 강함: /goal Reduce p95 latency below 120 ms on the checkout benchmark while keeping the correctness test suite green
Goal 생명주기 관리: /goal 명령어를 통해 관리합니다.
- /goal <목표>: Goal 설정 및 활성화
- /goal: 현재 Goal 확인
- /goal pause: 활성 Goal 일시 중지
- /goal resume: 일시 중지된 Goal 재개
- /goal clear: 현재 Goal 제거
Goal 활성화 시 변경 사항:
1. 목표 지속성: Codex가 테스트 실패, 벤치마크 미달 등 중간 결과를 만나도 원래 목표를 유지합니다.
2. 자동 계속 실행: 스레드가 유휴 상태이고 Goal이 활성화되어 있으며 예산 범위 내에 있으면 Codex가 자동으로 작업을 계속합니다.
3. 증거 기반 완료: Goal은 모델의 판단이 아닌 구체적인 증거(파일 변경, 테스트 통과, 벤치마크 출력 등)에 기반하여 완료되어야 합니다.
아키텍처: Goal은 전역 메모리나 프로젝트 수준 명령이 아닌, 스레드 범위의 지속적인 상태(persisted thread state)로 구현됩니다. 완료 확인, 예산 관리, 생명주기 전환(활성, 일시 중지, 완료, 예산 소진)을 포함합니다.
복잡한 연구 사례: 퀀트 페이퍼 재현:
- 약한 Goal: /goal Reproduce Buehler et al., "Deep Hedging" (불완전)
- 강한 Goal: /goal Produce the strongest evidence-backed reproduction of Buehler et al., "Deep Hedging," using the available paper materials and local resources. Attempt every headline result, verify the outputs, and end with a report that separates reproduced mechanics, approximate trained results, blocked exact replay, and remaining uncertainty.
- 실행 결과:
  - 가격 책정 및 헤징 메커니즘 재현, Heston 참조 가격 재현, CVaR 헤지 실험 정책 훈련, 주요 시각화 자료 재현 성공.
  - 하지만 논문의 정확한 랜덤 시드, 학습 경로, 텐서플로 그래프 등은 제공되지 않아 완전한 재현은 불가능했으며, 이는 '부분적이고 근사적인 재현'으로 기록됨.
  - 핵심: Goal은 Codex가 막힘 속에서도 계속 작업하게 하면서도, 최종 결과가 과장되지 않도록 '근사치'와 '정확한 재현'을 명확히 구분하도록 합니다.
Goal을 사용하지 말아야 할 때:
- 한 줄 수정, 간단한 설명, 짧은 코드 리뷰, 단일 질문에 대한 답변 등.
- 완료 조건이 모호한 작업(예: '이것을 더 좋게 만들어라', '이 코드를 리팩토링해라').
- 불확실성을 숨기려는 경우.
결론: Goals는 Codex가 정의된 결과, 증거 기반 완료선, 몇 번의 조사 턴이 필요한 작업에서 가장 효과적입니다. 사용자가 목표를 제공하면 Codex가 증거를 따라가며 작업을 완료하거나 정직하게 차단될 때까지 진행합니다. 이는 단순히 답변을 생성하는 것과 증거 기반 감사 보고서를 생성하는 것의 차이를 만듭니다.

Codex에서 목표(Goals) 사용하기: 지속적인 목표 기반 코드 작업

주요 내용

링크 공유, 이제 더 스마트하게