§ 00요지
§ 01단일 모델의 한계와 예측 과학의 합의
단일 대형 언어모델에 사건 확률을 질의하면 그럴듯한 응답을 얻을 수 있다. 그러나 이는 단일 관점에 불과하다. 한 모델은 자신의 사전 편향을 스스로 검증할 수 없으며, 탐색의 양과 무관하게 결론을 산출하는 추론기는 하나다.
예측 정확도에 관한 과학적 연구는 일관된 방향을 가리킨다.
- 분해·기저율·베이지안 갱신·보정. Tetlock의 Good Judgment Project가 규명한 우수 예측가(superforecaster)의 공통점은 천재성이 아니라 방법이었다 — 질문을 분해하고, 기저율(base rate)에서 출발하여, 새로운 증거로 점진적으로 갱신하며, 자신의 확신을 결과와 대조해 보정한다 (Tetlock & Gardner, Superforecasting, 2015).
- 다관점의 우위. 단일한 거대 이론(고슴도치형)보다 복수의 관점을 종합하는 사고(여우형)가 더 정확하다 (Tetlock, Expert Political Judgment, 2005).
- 다양성의 수리적 근거. 서로 약하게 상관된(weakly-correlated) 독립 추정을 집계하면 개별 오차가 상쇄된다 — 군중의 평균이 전문가를 능가한 Galton의 실험 (Vox Populi, Nature 1907), 집단지능 (Surowiecki, 2004), 그리고 "집단 오차 = 평균 개별 오차 − 다양성"으로 정식화된 다양성 예측 정리 (Page, 2007).
- 언어모델 예측 연구. 언어모델에 독립 예측 → 토론 → 수정 절차를 적용하면 정확도가 향상된다 (Halawi et al., NeurIPS 2024; Brier 0.179→0.149). 다중 에이전트 토론은 사실성과 추론을 개선한다 (Du et al., ICML 2024). 서로 다른 언어모델 4종을 가중 앙상블한 상용 서비스가 Metaculus Cup에서 549명 중 8위를 기록하였다 (Mantic, 2025).
동시에 본 플랫폼은 한계를 명시한다. 현재 벤치마크에서 언어모델 단독 예측은 인간 슈퍼예측가에 미치지 못한다 (Karger et al., ForecastBench, ICLR 2025; 언어모델 Brier 0.111 대 슈퍼예측가 0.093). 따라서 APNALYST의 주장은 '인공지능이 인간보다 정확하다'가 아니다. 본 플랫폼의 차별점은 다관점의 구조화된 충돌, 실행된 방법론, 완전한 검증 가능성, 그리고 한국 도메인 특화에 있다. 정확도는 이 설계의 결과로서 추구되며, 과장된 약속의 대상이 아니다.
§ 02자율 분석가와 역량 샌드박스
APNALYST의 예측 단위는 단일 모델이 아니라 네 명의 자율 분석가이다. 각 분석가는 서로 다른 기반 모델(Anthropic·OpenAI·Google·xAI) 위에서 작동한다. 기반 모델의 상이성은 오차의 약한 상관(weak correlation)을 의미하며, 이는 앙상블 이득의 출발점이 된다.
특히, 방법론은 분석가에게 사전 배정되지 않는다. 각 분석가는 주어진 질문에 대해 다음을 스스로 결정한다 (ADR-0012).
- 적용할 방법론(§4의 도구상자에서 자율 선택)
- 하위 에이전트 구조(단일 에이전트부터 다단계 ReAct 루프까지) — 사전 정의된 역할 분담보다 창발적 분업이 우월하다는 연구 결과에 근거한다 (AgentVerse, ICLR 2024).
- 호출할 데이터·도구, 그리고 발표 준비 완료 시점에 대한 판단
플랫폼이 제공하는 것은 방법론이 아니라 역량 샌드박스(capability sandbox)이다.
| 제공 역량 | 내용 |
|---|---|
| 언어모델 접근 | 분석가별 기반 모델. 프롬프트·온도·반복은 자율 |
| MCP 도구 | 웹 검색, 순차 추론, 코드 실행(Python/Stan/PyMC), 파일 입출력, 임베딩·검색 |
| Frozen corpus | 시점 박제된 한국 코퍼스(뉴스·한국은행 보도자료·KOSIS/ECOS/DART 스냅샷). 예측 시점 이전 데이터에 한정 |
| 외부 데이터 API | ECOS·KOSIS·DART·KRX·기상청·차트 API 등(§8) |
| 연산 환경 | Python/R, 베이지안 추론 라이브러리, 시계열 파운데이션 모델 API, 머신러닝 라이브러리 |
| Brier 이력 | 분석가별 과거 정확도(보정). 가중에 활용 |
자율성에는 경계(gate)가 존재한다. anti-goal 위반 차단(§10), frozen-corpus 시점 검증(§7), 연산 예산 상한, 도구 경계, 출력 스키마(예측 분포 + 추론 트레이스 + 방법 선언 + 출처)가 적용된다.
§ 03방법론 실행 강제
본 절은 APNALYST 방법론의 근간이다.
"베이지안 추론을 적용하였다"고 선언하는 것과, 실제로 사전확률을 설정하고 우도를 갱신하는 연산을 실행하는 것은 다르다. 상당수의 인공지능 예측은 전자에 그친다 — 검색으로 자료를 수집하고, 확률을 어림한 뒤, 적절한 방법론 명칭을 사후에 부여한다. 이 경우 시스템 전체는 '딥리서치 4회 + 수사적 토론'에 가까우며, 잘 구성된 단일 딥리서치 1회보다 우월하다는 보장이 없다.
따라서 본 플랫폼은 방법론의 실행을 강제한다 (ADR-0017).
- 예측 확률은 실행된 연산의 출력이어야 한다. 어림한 수치에 명칭을 부여한 것이어서는 안 된다.
- Finalize 게이트. 분석가가 예측을 확정하려 할 때, 해당 라운드 트레이스에 수치를 산출한 연산(code execution)이 없으면 시스템은 확정을 거부하고 "방법론을 실제로 실행하여 산출하라"는 교정을 주입한다. 어떤 방법을 사용할지는 지정하지 않으며, 산출 여부만을 검증한다.
- 투명 보고. 무엇을 실행하였는지, 어떤 중간 수치가 도출되었는지, 요인을 어떻게 결합하였는지가 검증 가능하게 기록된다.
- 외부 조회 없는 예측의 출판 불가 (ADR-0021). 데이터를 한 차례도 조회하지 않은 예측은 분석이 아니라 추측이다.
§ 04방법론 도구상자
분석가는 아래의 방법론 공간에서 질문에 적합한 도구를 직접 선택하며, 특정 방법에 고정되지 않고 흔히 복수의 방법을 결합한다. 다음 목록은 본 플랫폼이 동원하거나 동원을 예정한 방법론의 체계이다.
§ 05예측 파이프라인
- R1 독립성. R1 단계에서 분석가는 타 분석가의 결과를 열람하지 않는다 (ADR-0017). 진정한 독립이 보장되어야 앙상블 다양성이 유지된다 (Halawi et al.).
- 교차검증 토론. 디렉터가 주도하는 동적 교차검증으로, 일방이 타방에 근거를 요구(demand-answer)하고 필요시 개입한다 (ADR-0016, 0020). 토론은 판정되며, 다툰 핵심 주장이 근거로 뒷받침되었는지가 가려지고 종합은 검증을 통과한 것만을 반영한다 (ADR-0017). 토론은 수사에 그치지 않고 결론을 산출한다.
- 집계. 분석가별 과거 정확도에 따라 Brier 가중을 적용하고, 한국팀(인간 집단지능) overlay를 결합하며, 평균이 과소확신 경향을 보이므로 선택적 extremization(Satopää et al. 2014; Baron et al. 2014)으로 외삽한 뒤 신뢰구간을 산출한다.
- 종합 보고서. 집계된 수치 그 자체는 보고서가 아니다. 별도의 합성 에이전트가 토론·R1·집계를 입력받아 이견 구조·시나리오 조건부 확률·핵심 리스크·종합 판단을 갖춘 기관급 문서로 합성한다 (ADR-0023). 사후 결과는 별도의 Resolution 문서로 분리한다(§7).
§ 06정확도와 보정의 과학
우수한 예측은 빈번히 적중하는 예측이 아니라 정직하게 보정된 예측이다. 70%로 제시된 사건은 실제로 약 70%의 빈도로 발생해야 한다.
- 적정 채점 규칙(proper scoring rules). Brier 점수(Brier, 1950)와 그 분해 — 신뢰도(reliability)·해상도(resolution)·불확실성(Murphy, 1973). 분포 예측에는 로그 점수와 CRPS(연속 순위 확률 점수)를 적용한다 (Gneiting & Raftery, 2007). 적정 채점 규칙은 정직한 보고가 최적 전략이 되도록 설계되어 과신을 벌점한다.
- 보정 곡선(calibration plot). 예측 확률 대 실제 빈도로, 잘 보정된 분석가는 대각선에 근접한다. 필요시 Platt scaling·isotonic regression으로 재보정한다.
- 외삽(extremization). 복수 예측의 단순 평균은 과소확신 경향을 보이므로, 적정 범위에서 외삽하면 정확도가 향상된다 (Satopää 2014; Baron, Mellers, Tetlock, Ungar 2014).
- 백테스트. walk-forward 검증과 시점 고정(point-in-time) 데이터를 통해 미래참조(look-ahead) 편향을 제거한다(§7).
§ 07누수 방지와 검증
예측 플랫폼의 신뢰는 적중 주장 그 자체가 아니라 그 주장의 검증 가능성에서 비롯된다.
- 시점 고정 코퍼스(point-in-time corpus). 분석가는 예측 시점 이전 데이터에만 접근하며, 시점 이후 데이터에 대한 접근 시도는 timestamp 검증으로 차단된다. 예측 시점 이후의 정보를 사후에 활용하는 데이터 누수(leakage)를 구조적으로 차단한다.
- 순수 예측 시점 문서. 종합 보고서에 사후 결과를 혼합하지 않는다. 예측은 예측 시점에 박제되고, 결과(Resolution)는 별도 문서로 사후 대조된다 (ADR-0023·0024). 사후 수정을 통한 적중 위장이 불가능하다.
- 전적의 정직한 공개 (ADR-0024). 모든 예측은 결과와 자동 대조되어 공개되며, 데이터가 부족한 초기에는 누적 진행 중임을 정직하게 표시한다. 전적을 수기로 조작하지 않는다.
- 분쟁 기록·출처 공개. 판정 분쟁 이력과 데이터 출처는 영구 공개된다(§8, /disputes·/data-sources).
§ 08데이터 출처 (현재 및 예정)
데이터 거버넌스는 법적 최소요건이 아니라 B2B 신뢰의 자산이다. 모든 소스는 3색 체계로 분류·운영된다 (PRD M6).
| 도메인 | 주요 출처 | 분류·단계 |
|---|---|---|
| 경제 | ECOS(한국은행)·KOSIS(통계청)·KRX·DART(금융감독원)·기획재정부·관세청·FRED·IMF·OECD | 🟢 Phase 0 |
| 경제(보강) | 증권사 리서치(인용), Bloomberg Terminal | 🟡 / 🔴 Phase 2 |
| 스포츠 | KBO·K리그·KLPGA·KBL 공식 통계·ESPN·FiveThirtyEight | 🟢🟡 Phase 0 / SportRadar 🔴 Phase 2 |
| K-엔터 | 음원 차트·검색 추세(Naver DataLab) / 멜론 등 라이선스 차트 | 🟡 / 🔴 Phase 2 |
| 기상 | 기상청(KMA) 공공 데이터 / 외부 특화 모델(GraphCast 계열) 위탁 | 🟢 Phase 0 |
| 사회 | 시점 고정 뉴스 코퍼스(주요 언론)·한국은행/정부 보도자료 | 🟢🟡 |
| 공통 | AI Hub(NIA) 데이터셋, 시계열 파운데이션 모델 API | 🟢🟡 |
§ 09한국 도메인 특화와 학술 기반
범용 글로벌 모델은 한국 시장의 고유한 맥락을 충분히 반영하지 못한다. APNALYST는 한국 예측에 특화된다.
- 한국 금융 sentiment. 한국 자본시장 심리지수(KCMI CMSI)를 직접 참조·baseline으로 활용한다 (노성호·김민기 외, KCMI 보고서).
- 한국 거시 구조 모델. 한국은행 BOKDSGE 계열, KDI·KAIST FELab 등 국내 학술 라인을 인용한다.
- 시점 고정 한국 코퍼스. 주요 언론·정부 보도자료의 시점 고정(point-in-time) 스냅샷을 활용한다.
- 인간–인공지능 하이브리드. 한국 사용자 집단지능(한국팀)을 인공지능 4팀과 동일 기준으로 평가·결합한다 (Benjamin et al. 2023, INFER/SAGE 하이브리드 예측의 학술 선례).
한국의 인공지능 네이티브 예측 서비스는 사실상 공백 상태이며, 본 플랫폼은 그 공백을 학술적 기반 위에서 메운다.
§ 10본 플랫폼이 주장하지 않는 것 — 정직성과 한계
신뢰는 과장이 아니라 한계의 정직한 명시에서 비롯된다.
- 분석이며 베팅이 아니다. 확정적 예언을 제시하지 않으며, 매매 권유 형태의 투자 추천을 하지 않는다. 금전 베팅·정치/선거 예측·의료 진단·주식 정확치 예측(구간 추정은 허용)·가상자산 가격 예측은 시스템이 차단한다(anti-goal).
- 불확실성을 분포로 인정한다. 데이터가 부족한 사건은 엄밀히 분석하여도 결론이 "52:48, 높은 불확실성"에 수렴할 수 있다. 서사적 긴장은 대담한 단언이 아니라 방법의 투명성과 판정되는 토론에서 발생한다.
- 모델의 한계를 인정한다. 구조 변화·외생 충격(블랙스완)·데이터 한계 앞에서 완전한 모델은 존재하지 않으며, 본 플랫폼은 그 한계를 보고서에 명시한다.
- 정확도를 과장하지 않는다. 현 시점에서 언어모델 예측이 슈퍼예측가를 능가한다고 주장하지 않는다 (ForecastBench). 본 플랫폼의 약속은 정확도의 과장이 아니라 과정의 정직성과 검증 가능성이다.
이러한 정직성이야말로, 역설적으로, 예측을 위임할 근거가 된다.