Keystone Evidence Dashboard
03 하네스 Markdown

Evidence Dashboard

빌드, 브라우저 QA, hook, eval 결과를 공개 가능한 판단 증거로 바꾸는 트랙

Source
src/content/docs/evidence.md
Order
10

한눈에 보기

Evidence Dashboard는 “완료했다”는 말을 검증 가능한 판단 단위로 바꾸는 문서입니다. 빌드, 브라우저 QA, hook, eval, audit 결과를 한곳에 모아 공개 가능한 수준의 증거로 요약합니다.

이 문서에서 확인할 것

  • build, browser QA, hook, eval, audit evidence의 역할
  • 검증/추론/모름/결정/다음 라벨 계약
  • PROMOTE, RETRY, ROLLBACK, HUMAN_REVIEW 판정 흐름

왜 Evidence가 필요한가

AI 작업은 “완료했다”는 말만으로는 부족합니다. Evidence Dashboard는 빌드, 브라우저, hook, eval, audit 결과를 공개 가능한 판단 단위로 요약합니다.

flowchart TD
  A["작업 결과"] --> B["Build<br/>정적 생성 / 타입 / 번들"]
  A --> C["Browser QA<br/>route / viewport / console"]
  A --> D["Hooks<br/>safety / evidence / quality"]
  A --> E["Eval<br/>golden / replay / regression"]
  B --> F["Evidence Summary"]
  C --> F
  D --> F
  E --> F
  F --> G["Public 판단<br/>통과 / 주의 / 보류"]

Evidence 카테고리

카테고리확인하는 것공개 방식
Build정적 페이지 생성, 타입, 번들 경고성공 여부와 주요 경고만 요약
Browser QA화면 렌더링, 콘솔, 네트워크, 라우팅확인한 라우트와 결과
Hook금지 패턴, 증거 누락, 위험 명령어떤 범주의 gate가 작동했는지
Evalgolden set, replay fixture, regressionverdict와 다음 조치
Audit의존성, 공개 경계, 민감정보위험 없음/검토 필요로 요약

Evidence Label Contract

라벨의미
검증명령 출력, 파일, 화면, git 상태로 확인한 사실
추론됨확인된 사실에서 나온 판단
모름아직 확인하지 않았거나 사람 판단이 필요한 것
결정사용자가 정했거나 에이전트가 선택한 방향
다음바로 이어서 실행할 행동

Runtime Verdict 연결

flowchart LR
  A["Evidence 수집"] --> B{"판정"}
  B -->|검증 통과| C["PROMOTE"]
  B -->|수정 가능| D["RETRY"]
  B -->|회귀 증가| E["ROLLBACK"]
  B -->|증거 부족 / 위험 초과| F["HUMAN_REVIEW"]

HUMAN_REVIEW는 실패가 아닙니다. 증거가 부족한 상태에서 자동화를 멈추는 것은 하네스의 정상 동작입니다.

공개하지 않는 것

  • raw terminal log 전체
  • 토큰, webhook, 로컬 경로
  • 보안 우회 절차
  • 고객명이나 회사 내부 시스템명
  • 검증되지 않은 성능 수치

체크리스트

  • 완료 보고에 실행한 검증 명령이 있는가?
  • 화면 작업이면 브라우저 라우트와 뷰포트를 확인했는가?
  • hook이나 eval 실패가 있으면 실패 원인과 다음 조치가 분리되어 있는가?
  • 공개 문서에 원문 로그 대신 판단 가능한 요약만 남겼는가?