03 하네스 Markdown

Evidence Dashboard

빌드, 브라우저 QA, hook, eval 결과를 공개 가능한 판단 증거로 바꾸는 트랙

Source: src/content/docs/evidence.md
Order: 10

한눈에 보기

Evidence Dashboard는 “완료했다”는 말을 검증 가능한 판단 단위로 바꾸는 문서입니다. 빌드, 브라우저 QA, hook, eval, audit 결과를 한곳에 모아 공개 가능한 수준의 증거로 요약합니다.

핵심 질문: 결과가 실제로 동작한다는 것을 어떤 증거로 판단할 것인가?
읽는 대상: AI 작업 결과를 신뢰 가능한 형태로 보고 싶은 사람
연결 문서: Harness — Hooks & Gates, Policy to Harness Lifecycle, Result Portfolio

이 문서에서 확인할 것

build, browser QA, hook, eval, audit evidence의 역할
검증/추론/모름/결정/다음 라벨 계약
PROMOTE, RETRY, ROLLBACK, HUMAN_REVIEW 판정 흐름

왜 Evidence가 필요한가

AI 작업은 “완료했다”는 말만으로는 부족합니다. Evidence Dashboard는 빌드, 브라우저, hook, eval, audit 결과를 공개 가능한 판단 단위로 요약합니다.

flowchart TD
  A["작업 결과"] --> B["Build<br/>정적 생성 / 타입 / 번들"]
  A --> C["Browser QA<br/>route / viewport / console"]
  A --> D["Hooks<br/>safety / evidence / quality"]
  A --> E["Eval<br/>golden / replay / regression"]
  B --> F["Evidence Summary"]
  C --> F
  D --> F
  E --> F
  F --> G["Public 판단<br/>통과 / 주의 / 보류"]

Evidence 카테고리

카테고리	확인하는 것	공개 방식
Build	정적 페이지 생성, 타입, 번들 경고	성공 여부와 주요 경고만 요약
Browser QA	화면 렌더링, 콘솔, 네트워크, 라우팅	확인한 라우트와 결과
Hook	금지 패턴, 증거 누락, 위험 명령	어떤 범주의 gate가 작동했는지
Eval	golden set, replay fixture, regression	verdict와 다음 조치
Audit	의존성, 공개 경계, 민감정보	위험 없음/검토 필요로 요약

Evidence Label Contract

라벨	의미
검증	명령 출력, 파일, 화면, git 상태로 확인한 사실
추론됨	확인된 사실에서 나온 판단
모름	아직 확인하지 않았거나 사람 판단이 필요한 것
결정	사용자가 정했거나 에이전트가 선택한 방향
다음	바로 이어서 실행할 행동

Runtime Verdict 연결

flowchart LR
  A["Evidence 수집"] --> B{"판정"}
  B -->|검증 통과| C["PROMOTE"]
  B -->|수정 가능| D["RETRY"]
  B -->|회귀 증가| E["ROLLBACK"]
  B -->|증거 부족 / 위험 초과| F["HUMAN_REVIEW"]

HUMAN_REVIEW는 실패가 아닙니다. 증거가 부족한 상태에서 자동화를 멈추는 것은 하네스의 정상 동작입니다.

공개하지 않는 것

raw terminal log 전체
토큰, webhook, 로컬 경로
보안 우회 절차
고객명이나 회사 내부 시스템명
검증되지 않은 성능 수치

체크리스트

완료 보고에 실행한 검증 명령이 있는가?
화면 작업이면 브라우저 라우트와 뷰포트를 확인했는가?
hook이나 eval 실패가 있으면 실패 원인과 다음 조치가 분리되어 있는가?
공개 문서에 원문 로그 대신 판단 가능한 요약만 남겼는가?