APNALYST앞날리스트
맞춤 분석
§ Methodology · 예측 방법론v1.0 · 2026-05

예측 방법론

동일한 질문에 대해 네 명의 자율 AI 분석가가 각자 최적의 방법론을 직접 선택·실행하여 독립적으로 예측하고, 교차검증 토론을 통해 상호 반박·검증한 뒤, 검증을 통과한 근거만을 정량 확률로 종합한다. 모든 단계는 예측 시점에 박제되어 사후 검증이 가능하다. 본 문서는 이 구조가 단일 모델 기반 '딥리서치'와 구조적으로 구별되는 근거와, 그 차이를 뒷받침하는 학술적·방법론적 장치를 기술한다.

10 sections + references · 약 22분다크 주력 · 편집 디자인발행 v1.0 · 검증 대상

§ 00요지

동일한 질문에 대해 네 명의 자율 AI 분석가가 각자 최적의 방법론을 직접 선택·실행하여 독립적으로 예측하고, 교차검증 토론을 통해 상호 반박·검증한 뒤, 검증을 통과한 근거만을 정량 확률로 종합한다. 모든 단계는 예측 시점에 박제되어 사후 검증이 가능하다. 본 문서는 이 구조가 단일 모델 기반 '딥리서치'와 구조적으로 구별되는 근거와, 그 차이를 뒷받침하는 학술적·방법론적 장치를 기술한다.

§ 01단일 모델의 한계와 예측 과학의 합의

단일 대형 언어모델에 사건 확률을 질의하면 그럴듯한 응답을 얻을 수 있다. 그러나 이는 단일 관점에 불과하다. 한 모델은 자신의 사전 편향을 스스로 검증할 수 없으며, 탐색의 양과 무관하게 결론을 산출하는 추론기는 하나다.

예측 정확도에 관한 과학적 연구는 일관된 방향을 가리킨다.

  • 분해·기저율·베이지안 갱신·보정. Tetlock의 Good Judgment Project가 규명한 우수 예측가(superforecaster)의 공통점은 천재성이 아니라 방법이었다 — 질문을 분해하고, 기저율(base rate)에서 출발하여, 새로운 증거로 점진적으로 갱신하며, 자신의 확신을 결과와 대조해 보정한다 (Tetlock & Gardner, Superforecasting, 2015).
  • 다관점의 우위. 단일한 거대 이론(고슴도치형)보다 복수의 관점을 종합하는 사고(여우형)가 더 정확하다 (Tetlock, Expert Political Judgment, 2005).
  • 다양성의 수리적 근거. 서로 약하게 상관된(weakly-correlated) 독립 추정을 집계하면 개별 오차가 상쇄된다 — 군중의 평균이 전문가를 능가한 Galton의 실험 (Vox Populi, Nature 1907), 집단지능 (Surowiecki, 2004), 그리고 "집단 오차 = 평균 개별 오차 − 다양성"으로 정식화된 다양성 예측 정리 (Page, 2007).
  • 언어모델 예측 연구. 언어모델에 독립 예측 → 토론 → 수정 절차를 적용하면 정확도가 향상된다 (Halawi et al., NeurIPS 2024; Brier 0.179→0.149). 다중 에이전트 토론은 사실성과 추론을 개선한다 (Du et al., ICML 2024). 서로 다른 언어모델 4종을 가중 앙상블한 상용 서비스가 Metaculus Cup에서 549명 중 8위를 기록하였다 (Mantic, 2025).

동시에 본 플랫폼은 한계를 명시한다. 현재 벤치마크에서 언어모델 단독 예측은 인간 슈퍼예측가에 미치지 못한다 (Karger et al., ForecastBench, ICLR 2025; 언어모델 Brier 0.111 대 슈퍼예측가 0.093). 따라서 APNALYST의 주장은 '인공지능이 인간보다 정확하다'가 아니다. 본 플랫폼의 차별점은 다관점의 구조화된 충돌, 실행된 방법론, 완전한 검증 가능성, 그리고 한국 도메인 특화에 있다. 정확도는 이 설계의 결과로서 추구되며, 과장된 약속의 대상이 아니다.

§ 02자율 분석가와 역량 샌드박스

APNALYST의 예측 단위는 단일 모델이 아니라 네 명의 자율 분석가이다. 각 분석가는 서로 다른 기반 모델(Anthropic·OpenAI·Google·xAI) 위에서 작동한다. 기반 모델의 상이성은 오차의 약한 상관(weak correlation)을 의미하며, 이는 앙상블 이득의 출발점이 된다.

특히, 방법론은 분석가에게 사전 배정되지 않는다. 각 분석가는 주어진 질문에 대해 다음을 스스로 결정한다 (ADR-0012).

  • 적용할 방법론(§4의 도구상자에서 자율 선택)
  • 하위 에이전트 구조(단일 에이전트부터 다단계 ReAct 루프까지) — 사전 정의된 역할 분담보다 창발적 분업이 우월하다는 연구 결과에 근거한다 (AgentVerse, ICLR 2024).
  • 호출할 데이터·도구, 그리고 발표 준비 완료 시점에 대한 판단

플랫폼이 제공하는 것은 방법론이 아니라 역량 샌드박스(capability sandbox)이다.

제공 역량내용
언어모델 접근분석가별 기반 모델. 프롬프트·온도·반복은 자율
MCP 도구웹 검색, 순차 추론, 코드 실행(Python/Stan/PyMC), 파일 입출력, 임베딩·검색
Frozen corpus시점 박제된 한국 코퍼스(뉴스·한국은행 보도자료·KOSIS/ECOS/DART 스냅샷). 예측 시점 이전 데이터에 한정
외부 데이터 APIECOS·KOSIS·DART·KRX·기상청·차트 API 등(§8)
연산 환경Python/R, 베이지안 추론 라이브러리, 시계열 파운데이션 모델 API, 머신러닝 라이브러리
Brier 이력분석가별 과거 정확도(보정). 가중에 활용

자율성에는 경계(gate)가 존재한다. anti-goal 위반 차단(§10), frozen-corpus 시점 검증(§7), 연산 예산 상한, 도구 경계, 출력 스키마(예측 분포 + 추론 트레이스 + 방법 선언 + 출처)가 적용된다.

다양성은 강제되지 않으며, 상이한 기반 모델·자율 선택·실행 강제(§3)로부터 창발(emerge)한다. 네 분석가가 동일한 결론에 수렴하는 경우, 그것은 억지 합의가 아니라 독립적 판단의 일치이다.

§ 03방법론 실행 강제

본 절은 APNALYST 방법론의 근간이다.

"베이지안 추론을 적용하였다"고 선언하는 것과, 실제로 사전확률을 설정하고 우도를 갱신하는 연산을 실행하는 것은 다르다. 상당수의 인공지능 예측은 전자에 그친다 — 검색으로 자료를 수집하고, 확률을 어림한 뒤, 적절한 방법론 명칭을 사후에 부여한다. 이 경우 시스템 전체는 '딥리서치 4회 + 수사적 토론'에 가까우며, 잘 구성된 단일 딥리서치 1회보다 우월하다는 보장이 없다.

따라서 본 플랫폼은 방법론의 실행을 강제한다 (ADR-0017).

  • 예측 확률은 실행된 연산의 출력이어야 한다. 어림한 수치에 명칭을 부여한 것이어서는 안 된다.
  • Finalize 게이트. 분석가가 예측을 확정하려 할 때, 해당 라운드 트레이스에 수치를 산출한 연산(code execution)이 없으면 시스템은 확정을 거부하고 "방법론을 실제로 실행하여 산출하라"는 교정을 주입한다. 어떤 방법을 사용할지는 지정하지 않으며, 산출 여부만을 검증한다.
  • 투명 보고. 무엇을 실행하였는지, 어떤 중간 수치가 도출되었는지, 요인을 어떻게 결합하였는지가 검증 가능하게 기록된다.
  • 외부 조회 없는 예측의 출판 불가 (ADR-0021). 데이터를 한 차례도 조회하지 않은 예측은 분석이 아니라 추측이다.
이 강제는 "단순 딥리서치와 무엇이 다른가"라는 질문에 대한 구조적 답변이다. 본 플랫폼의 확률은 주장된 값이 아니라 산출된 값이다.

§ 04방법론 도구상자

분석가는 아래의 방법론 공간에서 질문에 적합한 도구를 직접 선택하며, 특정 방법에 고정되지 않고 흔히 복수의 방법을 결합한다. 다음 목록은 본 플랫폼이 동원하거나 동원을 예정한 방법론의 체계이다.

가.
베이지안 추론Bayesian Inference
사전확률(prior)을 기저율로 설정하고 우도(likelihood)로 갱신하여 사후분포를 도출하며, 불확실성을 점이 아닌 분포로 다룬다. 계층 베이지안(hierarchical), MCMC 표본추출(Stan, PyMC), 거시 예측의 표준인 베이지안 VAR(BVAR)(Minnesota prior, sum-of-coefficients, Giannone–Lenza–Primiceri 2015의 prior 선택), 베이지안 모델 평균(BMA)을 포함한다.
근거 Gelman et al., Bayesian Data Analysis; Carriero et al.
나.
시계열 계량경제Time-Series Econometrics
시계열의 추세·계절성·자기상관·변동성을 모델링한다. ARIMA/SARIMA(Box–Jenkins, 1970), VAR/VECM(공적분), GARCH 변동성 모델(Engle 1982; Bollerslev 1986), 상태공간·칼만 필터, 구조적 거시 모델인 DSGE(한국은행 BOKDSGE 계열)를 포함한다.
다.
머신러닝·시계열 파운데이션 모델ML & Foundation TS
LSTM(Hochreiter & Schmidhuber, 1997), Temporal Fusion Transformer, gradient boosting(XGBoost/LightGBM), 그리고 적은 데이터로 zero/few-shot 예측이 가능한 사전학습 시계열 파운데이션 모델 — TimeGPT(Nixtla), Chronos(Amazon), Moirai(Salesforce), TimesFM(Google).
라.
몬테카를로 시뮬레이션Monte-Carlo
경로를 수천 회 시뮬레이션하여 확률을 도출한다. 기하브라운운동(GBM), 점프-확산(Merton jump-diffusion), 부트스트랩, 시나리오 시뮬레이션을 포함한다.
마.
센티멘트·행동재무Sentiment & Behavioral
시장 심리·내러티브·검색 추세를 신호로 변환한다. NLP 심리지수 — 한국 자본시장 심리지수(KCMI CMSI) 등 한국 금융 sentiment — 내러티브 경제학(Shiller, Narrative Economics, 2019), 검색 nowcasting(Naver DataLab·Google Trends), 행동재무(전망이론, Kahneman & Tversky, 1979)를 포함한다.
바.
레이팅·대전 모델Rating
스포츠 영역에 적용되며 Elo, Glicko, Bradley–Terry(1952), Pythagorean expectation을 포함한다.
사.
인과·구조 추론Causal & Structural
인과 그래프(Pearl, Causality), 도구변수(IV), 합성통제(synthetic control), 이중차분(DiD), Granger 인과성을 포함한다.
아.
Nowcasting혼합주기·실시간
동적요인모형(Giannone–Reichlin–Small, 2008), MIDAS 혼합주기 회귀, bridge equation을 통해 저빈도 지표를 고빈도 데이터로 현재값 추정한다.
자.
언어모델 기반 예측LLM-native
검색증강생성(RAG; Lewis et al., NeurIPS 2020) 기반 추론, 사고사슬(chain-of-thought) 분해, self-consistency, 도구 사용 에이전트(Halawi et al. 파이프라인)를 포함한다.
차.
앙상블·결합Ensembling
선형/로그 의견 풀(opinion pool), 베이지안 모델 평균, stacking을 포함하며, 다양성–정확도 균형을 고려한다.
하나의 질문에 복수의 도구가 동원될 수 있다. 한 분석가가 BVAR을, 다른 분석가가 시계열 파운데이션 모델을, 또 다른 분석가가 sentiment를 선택하여 결론이 충돌하는 경우, 그 충돌이 §5 토론의 대상이 된다.

§ 05예측 파이프라인

질문 + 제약(anti-goal·예산) + 역량 샌드박스
R1
독립 예측 · 4 분석가 동시·비공개
각자 방법론·에이전트·데이터 자율 + 실행 강제
분석가 1Anthropic
분석가 2OpenAI
분석가 3Google
분석가 4xAI
상호 분석 비공개 — 진정한 독립이 앙상블 다양성을 보장한다 (Halawi et al.)
4개 R1 + 추론 트레이스 · 방법 선언 · 출처 전면 공개
심의
교차검증 토론 · 디렉터 주도 동적 공방
demand-answer · 끼어듦 · 토론 판정. 토론은 수사가 아니라 결론을 산출한다.
R2
자율 수정 · 수정 사유 선언
유지 가능. 판정을 통과한 근거만이 종합에 반영된다.
집계
Brier 가중 앙상블 + 한국팀 overlay + extremization(선택) + 신뢰구간
평균이 과소확신 경향을 보이므로 선택적 외삽으로 보정 (Satopää 2014; Baron et al. 2014)
종합
별도 합성 에이전트가 기관 보고서 작성
사후 결과(Resolution)는 별도 문서로 분리·비혼합
  • R1 독립성. R1 단계에서 분석가는 타 분석가의 결과를 열람하지 않는다 (ADR-0017). 진정한 독립이 보장되어야 앙상블 다양성이 유지된다 (Halawi et al.).
  • 교차검증 토론. 디렉터가 주도하는 동적 교차검증으로, 일방이 타방에 근거를 요구(demand-answer)하고 필요시 개입한다 (ADR-0016, 0020). 토론은 판정되며, 다툰 핵심 주장이 근거로 뒷받침되었는지가 가려지고 종합은 검증을 통과한 것만을 반영한다 (ADR-0017). 토론은 수사에 그치지 않고 결론을 산출한다.
  • 집계. 분석가별 과거 정확도에 따라 Brier 가중을 적용하고, 한국팀(인간 집단지능) overlay를 결합하며, 평균이 과소확신 경향을 보이므로 선택적 extremization(Satopää et al. 2014; Baron et al. 2014)으로 외삽한 뒤 신뢰구간을 산출한다.
  • 종합 보고서. 집계된 수치 그 자체는 보고서가 아니다. 별도의 합성 에이전트가 토론·R1·집계를 입력받아 이견 구조·시나리오 조건부 확률·핵심 리스크·종합 판단을 갖춘 기관급 문서로 합성한다 (ADR-0023). 사후 결과는 별도의 Resolution 문서로 분리한다(§7).

§ 06정확도와 보정의 과학

우수한 예측은 빈번히 적중하는 예측이 아니라 정직하게 보정된 예측이다. 70%로 제시된 사건은 실제로 약 70%의 빈도로 발생해야 한다.

00.51.000.51.0실제 빈도예측 확률
보정 곡선(reliability diagram). 잘 보정된 예측가는 대각선에 가깝다 — "70%라 말한 것의 약 70%가 맞았다"가 성립. 대각선 위쪽은 저신뢰(말한 것보다 많이 맞음), 아래쪽은 과신(말한 것보다 덜 맞음). 필요시 Platt scaling·isotonic regression으로 사후 재보정한다.
  • 적정 채점 규칙(proper scoring rules). Brier 점수(Brier, 1950)와 그 분해 — 신뢰도(reliability)·해상도(resolution)·불확실성(Murphy, 1973). 분포 예측에는 로그 점수와 CRPS(연속 순위 확률 점수)를 적용한다 (Gneiting & Raftery, 2007). 적정 채점 규칙은 정직한 보고가 최적 전략이 되도록 설계되어 과신을 벌점한다.
  • 보정 곡선(calibration plot). 예측 확률 대 실제 빈도로, 잘 보정된 분석가는 대각선에 근접한다. 필요시 Platt scaling·isotonic regression으로 재보정한다.
  • 외삽(extremization). 복수 예측의 단순 평균은 과소확신 경향을 보이므로, 적정 범위에서 외삽하면 정확도가 향상된다 (Satopää 2014; Baron, Mellers, Tetlock, Ungar 2014).
  • 백테스트. walk-forward 검증과 시점 고정(point-in-time) 데이터를 통해 미래참조(look-ahead) 편향을 제거한다(§7).

§ 07누수 방지와 검증

예측 플랫폼의 신뢰는 적중 주장 그 자체가 아니라 그 주장의 검증 가능성에서 비롯된다.

  • 시점 고정 코퍼스(point-in-time corpus). 분석가는 예측 시점 이전 데이터에만 접근하며, 시점 이후 데이터에 대한 접근 시도는 timestamp 검증으로 차단된다. 예측 시점 이후의 정보를 사후에 활용하는 데이터 누수(leakage)를 구조적으로 차단한다.
  • 순수 예측 시점 문서. 종합 보고서에 사후 결과를 혼합하지 않는다. 예측은 예측 시점에 박제되고, 결과(Resolution)는 별도 문서로 사후 대조된다 (ADR-0023·0024). 사후 수정을 통한 적중 위장이 불가능하다.
  • 전적의 정직한 공개 (ADR-0024). 모든 예측은 결과와 자동 대조되어 공개되며, 데이터가 부족한 초기에는 누적 진행 중임을 정직하게 표시한다. 전적을 수기로 조작하지 않는다.
  • 분쟁 기록·출처 공개. 판정 분쟁 이력과 데이터 출처는 영구 공개된다(§8, /disputes·/data-sources).

§ 08데이터 출처 (현재 및 예정)

데이터 거버넌스는 법적 최소요건이 아니라 B2B 신뢰의 자산이다. 모든 소스는 3색 체계로 분류·운영된다 (PRD M6).

안전영역공공 API·공개 라이선스, 자동 수집(Phase 0 즉시)회색영역ToS 명시 부재·학술/비상업 한정, 수동·동의 기반(Phase 0–1)위험영역상업 라이선스 필요, 정식 계약 후 진입(Phase 2)
도메인주요 출처분류·단계
경제ECOS(한국은행)·KOSIS(통계청)·KRX·DART(금융감독원)·기획재정부·관세청·FRED·IMF·OECD🟢 Phase 0
경제(보강)증권사 리서치(인용), Bloomberg Terminal🟡 / 🔴 Phase 2
스포츠KBO·K리그·KLPGA·KBL 공식 통계·ESPN·FiveThirtyEight🟢🟡 Phase 0 / SportRadar 🔴 Phase 2
K-엔터음원 차트·검색 추세(Naver DataLab) / 멜론 등 라이선스 차트🟡 / 🔴 Phase 2
기상기상청(KMA) 공공 데이터 / 외부 특화 모델(GraphCast 계열) 위탁🟢 Phase 0
사회시점 고정 뉴스 코퍼스(주요 언론)·한국은행/정부 보도자료🟢🟡
공통AI Hub(NIA) 데이터셋, 시계열 파운데이션 모델 API🟢🟡
거버넌스 5원칙: ① 모든 출처·timestamp 영구 기록 ② ToS 준수 및 위반 시 즉시 중단 ③ 개인정보 미수집 ④ 가공(derivation) 정확 기록 ⑤ /data-sources 영구 공개. 데이터의 대상·출처·시점을 공개한다.

§ 09한국 도메인 특화와 학술 기반

범용 글로벌 모델은 한국 시장의 고유한 맥락을 충분히 반영하지 못한다. APNALYST는 한국 예측에 특화된다.

  • 한국 금융 sentiment. 한국 자본시장 심리지수(KCMI CMSI)를 직접 참조·baseline으로 활용한다 (노성호·김민기 외, KCMI 보고서).
  • 한국 거시 구조 모델. 한국은행 BOKDSGE 계열, KDI·KAIST FELab 등 국내 학술 라인을 인용한다.
  • 시점 고정 한국 코퍼스. 주요 언론·정부 보도자료의 시점 고정(point-in-time) 스냅샷을 활용한다.
  • 인간–인공지능 하이브리드. 한국 사용자 집단지능(한국팀)을 인공지능 4팀과 동일 기준으로 평가·결합한다 (Benjamin et al. 2023, INFER/SAGE 하이브리드 예측의 학술 선례).

한국의 인공지능 네이티브 예측 서비스는 사실상 공백 상태이며, 본 플랫폼은 그 공백을 학술적 기반 위에서 메운다.

§ 10본 플랫폼이 주장하지 않는 것 — 정직성과 한계

신뢰는 과장이 아니라 한계의 정직한 명시에서 비롯된다.

  • 분석이며 베팅이 아니다. 확정적 예언을 제시하지 않으며, 매매 권유 형태의 투자 추천을 하지 않는다. 금전 베팅·정치/선거 예측·의료 진단·주식 정확치 예측(구간 추정은 허용)·가상자산 가격 예측은 시스템이 차단한다(anti-goal).
  • 불확실성을 분포로 인정한다. 데이터가 부족한 사건은 엄밀히 분석하여도 결론이 "52:48, 높은 불확실성"에 수렴할 수 있다. 서사적 긴장은 대담한 단언이 아니라 방법의 투명성과 판정되는 토론에서 발생한다.
  • 모델의 한계를 인정한다. 구조 변화·외생 충격(블랙스완)·데이터 한계 앞에서 완전한 모델은 존재하지 않으며, 본 플랫폼은 그 한계를 보고서에 명시한다.
  • 정확도를 과장하지 않는다. 현 시점에서 언어모델 예측이 슈퍼예측가를 능가한다고 주장하지 않는다 (ForecastBench). 본 플랫폼의 약속은 정확도의 과장이 아니라 과정의 정직성과 검증 가능성이다.

이러한 정직성이야말로, 역설적으로, 예측을 위임할 근거가 된다.

§ 참고문헌
Tetlock, P. & Gardner, D. (2015). Superforecasting: The Art and Science of Prediction.·Tetlock, P. (2005). Expert Political Judgment.·Galton, F. (1907). "Vox Populi." Nature.·Surowiecki, J. (2004). The Wisdom of Crowds.·Page, S. (2007). The Difference.·Halawi, D. et al. (2024). "Approaching Human-Level Forecasting with Language Models." NeurIPS. (arXiv:2402.18563)·Du, Y. et al. (2024). "Improving Factuality and Reasoning … through Multiagent Debate." ICML. (arXiv:2305.14325)·Chen, W. et al. (2024). "AgentVerse." ICLR. (arXiv:2308.10848)·Karger, E. et al. (2025). "ForecastBench." ICLR.·Lewis, P. et al. (2020). "Retrieval-Augmented Generation." NeurIPS. (arXiv:2005.11401)·Box, G. & Jenkins, G. (1970). Time Series Analysis.·Hochreiter, S. & Schmidhuber, J. (1997). "Long Short-Term Memory." Neural Computation.·Engle, R. (1982); Bollerslev, T. (1986). ARCH/GARCH.·Giannone, Lenza & Primiceri (2015). "Prior Selection for VARs."·Shiller, R. (2019). Narrative Economics.·Kahneman, D. & Tversky, A. (1979). "Prospect Theory." Econometrica.·Pearl, J. (2000). Causality.·Giannone, Reichlin & Small (2008). nowcasting / dynamic factor models.·Brier, G. (1950). ·Murphy, A. (1973). Brier decomposition. ·Gneiting, T. & Raftery, A. (2007). "Strictly Proper Scoring Rules." JASA.·Satopää, V. et al. (2014); Baron, Mellers, Tetlock, Ungar (2014). aggregation / extremization.·Benjamin, D. et al. (2023). hybrid human+AI forecasting. AI Magazine (INFER/SAGE).·노성호·김민기 외. 자본시장 심리지수(CMSI). KCMI 보고서 2227·2228.·Foundation TS: TimeGPT(Nixtla), Chronos(Amazon, 2024), Moirai(Salesforce, 2024), TimesFM(Google, 2024).
(서지 정보는 출판 전 최종 검증 대상)