03 하네스 자동 갱신 · 2026. 6. 8. 오후 8:36
하네스 정직성 측정 — 구조·효과·자율 3층위
AI 코딩 하네스가 '진짜 작동하는가'를 측정하는 세 가지 층위. Keystone 내부 도구와 외부 사례(harness-autonomy-eval)를 출처와 함께 비교한 공개 분석
요약
AI 코딩 하네스의 품질은 단일 점수가 아니라 세 개의 다른 층위로 측정해야 한다. “장치가 있다”와 “장치가 작동한다”, “자동이라고 부른다”와 “진짜 자율이다”는 전부 다른 질문이기 때문이다.
| 층위 | 질문 | 본질 |
|---|---|---|
| 구조 | 막을 장치가 갖춰졌나? | 형식 — 존재 여부 린트 |
| 효과 | 그 장치가 실제로 작동하나? | 결과 — ground truth |
| 자율 | 자동 루프가 진짜 자율인가? | 행동 — 사람 개입률 |
핵심 통찰: “존재”는 “동작”이 아니다
구조 체크가 “36/36 100%“를 가리켜도, 그것은 모든 항목의 키워드가 존재한다는 뜻일 뿐 시스템이 동작한다는 증거가 아니다. 그래서 구조 위에 효과 층위(과거 실수를 지금도 잡는가 · 사람이 손본 흔적이 얼마인가 · 안 쓰이는 장치 비율)를 ground truth로 둔다.
같은 논리가 자동화에도 적용된다: *“작업이 디스패치됨”*은 *“자율 작동”*이 아니다. 작업을 가져와 상태만 바꿔놓고 사람이 매번 반려·재작업시키면 그건 자율이 아니라 흉내다. 이 자율 층위는 재디스패치·반려·에스컬레이션 같은 실제 기록으로만 증명된다.
비교한 자료
- harness-autonomy-eval — 출처: Hue reference upstream (2026-06 신규). 자율 코딩 하네스를 5가지 구조적 실패 원인(재디스패치·반려·스펙 명확화·에스컬레이션·기계 실패)과 자율운영률로 측정. 결정: reference-only — 우리는 이미 같은 문제의식의 효과-측정 도구를 보유하고 있어, 도입은 중복·보완 지도를 그린 뒤에 판단한다.
- ai-harness-scorecard — 출처:
markmishaev76/ai-harness-scorecard. 31개 구조 체크. Keystone은 이를 운영 구조에 맞게 번역해 구조 층위 도구로 사용한다. 결정: reference-only(원본 repo 설치 아님).
Keystone 적용
- 구조 층위와 효과 층위는 Keystone 내부 도구로 이미 운영 중이다 (구조 스코어카드 + ground-truth 무결성 메트릭).
- 자율 층위는 외부 사례(harness-autonomy-eval)와 같은 DNA이며, 도입 전 기존 측정 도구와의 중복·보완 관계를 먼저 정리한다.
- 내부 기획 검증 파이프라인은 이미 “근거 없는 항목은 100점을 주지 않는다”는 anti-Goodhart 게이트를 구현하고 있어, 5원인 측정 패턴을 흡수할 후보로 pilot 검토 중이다.
상태: draft / needs_review. “reference-only”와 “pilot”은 검토 단계이며 도입(adopted)을 의미하지 않는다.