03 하네스 Markdown
Evidence Dashboard
빌드, 브라우저 QA, hook, eval 결과를 공개 가능한 판단 증거로 바꾸는 트랙
한눈에 보기
Evidence Dashboard는 “완료했다”는 말을 검증 가능한 판단 단위로 바꾸는 문서입니다. 빌드, 브라우저 QA, hook, eval, audit 결과를 한곳에 모아 공개 가능한 수준의 증거로 요약합니다.
- 핵심 질문: 결과가 실제로 동작한다는 것을 어떤 증거로 판단할 것인가?
- 읽는 대상: AI 작업 결과를 신뢰 가능한 형태로 보고 싶은 사람
- 연결 문서: Harness — Hooks & Gates, Policy to Harness Lifecycle, Result Portfolio
이 문서에서 확인할 것
- build, browser QA, hook, eval, audit evidence의 역할
- 검증/추론/모름/결정/다음 라벨 계약
- PROMOTE, RETRY, ROLLBACK, HUMAN_REVIEW 판정 흐름
왜 Evidence가 필요한가
AI 작업은 “완료했다”는 말만으로는 부족합니다. Evidence Dashboard는 빌드, 브라우저, hook, eval, audit 결과를 공개 가능한 판단 단위로 요약합니다.
flowchart TD
A["작업 결과"] --> B["Build<br/>정적 생성 / 타입 / 번들"]
A --> C["Browser QA<br/>route / viewport / console"]
A --> D["Hooks<br/>safety / evidence / quality"]
A --> E["Eval<br/>golden / replay / regression"]
B --> F["Evidence Summary"]
C --> F
D --> F
E --> F
F --> G["Public 판단<br/>통과 / 주의 / 보류"]
Evidence 카테고리
| 카테고리 | 확인하는 것 | 공개 방식 |
|---|---|---|
| Build | 정적 페이지 생성, 타입, 번들 경고 | 성공 여부와 주요 경고만 요약 |
| Browser QA | 화면 렌더링, 콘솔, 네트워크, 라우팅 | 확인한 라우트와 결과 |
| Hook | 금지 패턴, 증거 누락, 위험 명령 | 어떤 범주의 gate가 작동했는지 |
| Eval | golden set, replay fixture, regression | verdict와 다음 조치 |
| Audit | 의존성, 공개 경계, 민감정보 | 위험 없음/검토 필요로 요약 |
Evidence Label Contract
| 라벨 | 의미 |
|---|---|
| 검증 | 명령 출력, 파일, 화면, git 상태로 확인한 사실 |
| 추론됨 | 확인된 사실에서 나온 판단 |
| 모름 | 아직 확인하지 않았거나 사람 판단이 필요한 것 |
| 결정 | 사용자가 정했거나 에이전트가 선택한 방향 |
| 다음 | 바로 이어서 실행할 행동 |
Runtime Verdict 연결
flowchart LR
A["Evidence 수집"] --> B{"판정"}
B -->|검증 통과| C["PROMOTE"]
B -->|수정 가능| D["RETRY"]
B -->|회귀 증가| E["ROLLBACK"]
B -->|증거 부족 / 위험 초과| F["HUMAN_REVIEW"]
HUMAN_REVIEW는 실패가 아닙니다.
증거가 부족한 상태에서 자동화를 멈추는 것은 하네스의 정상 동작입니다.
공개하지 않는 것
- raw terminal log 전체
- 토큰, webhook, 로컬 경로
- 보안 우회 절차
- 고객명이나 회사 내부 시스템명
- 검증되지 않은 성능 수치
체크리스트
- 완료 보고에 실행한 검증 명령이 있는가?
- 화면 작업이면 브라우저 라우트와 뷰포트를 확인했는가?
- hook이나 eval 실패가 있으면 실패 원인과 다음 조치가 분리되어 있는가?
- 공개 문서에 원문 로그 대신 판단 가능한 요약만 남겼는가?