03 하네스 자동 갱신 · 2026. 6. 8. 오후 8:36

하네스 정직성 측정 — 구조·효과·자율 3층위

AI 코딩 하네스가 '진짜 작동하는가'를 측정하는 세 가지 층위. Keystone 내부 도구와 외부 사례(harness-autonomy-eval)를 출처와 함께 비교한 공개 분석

Source: src/content/docs/reference-intake-harness-honesty-3layers.md
Order: 6.71

요약

AI 코딩 하네스의 품질은 단일 점수가 아니라 세 개의 다른 층위로 측정해야 한다. “장치가 있다”와 “장치가 작동한다”, “자동이라고 부른다”와 “진짜 자율이다”는 전부 다른 질문이기 때문이다.

층위	질문	본질
구조	막을 장치가 갖춰졌나?	형식 — 존재 여부 린트
효과	그 장치가 실제로 작동하나?	결과 — ground truth
자율	자동 루프가 진짜 자율인가?	행동 — 사람 개입률

핵심 통찰: “존재”는 “동작”이 아니다

구조 체크가 “36/36 100%“를 가리켜도, 그것은 모든 항목의 키워드가 존재한다는 뜻일 뿐 시스템이 동작한다는 증거가 아니다. 그래서 구조 위에 효과 층위(과거 실수를 지금도 잡는가 · 사람이 손본 흔적이 얼마인가 · 안 쓰이는 장치 비율)를 ground truth로 둔다.

같은 논리가 자동화에도 적용된다: *“작업이 디스패치됨”*은 *“자율 작동”*이 아니다. 작업을 가져와 상태만 바꿔놓고 사람이 매번 반려·재작업시키면 그건 자율이 아니라 흉내다. 이 자율 층위는 재디스패치·반려·에스컬레이션 같은 실제 기록으로만 증명된다.

비교한 자료

harness-autonomy-eval — 출처: Hue reference upstream (2026-06 신규). 자율 코딩 하네스를 5가지 구조적 실패 원인(재디스패치·반려·스펙 명확화·에스컬레이션·기계 실패)과 자율운영률로 측정. 결정: reference-only — 우리는 이미 같은 문제의식의 효과-측정 도구를 보유하고 있어, 도입은 중복·보완 지도를 그린 뒤에 판단한다.
ai-harness-scorecard — 출처: markmishaev76/ai-harness-scorecard. 31개 구조 체크. Keystone은 이를 운영 구조에 맞게 번역해 구조 층위 도구로 사용한다. 결정: reference-only(원본 repo 설치 아님).

Keystone 적용

구조 층위와 효과 층위는 Keystone 내부 도구로 이미 운영 중이다 (구조 스코어카드 + ground-truth 무결성 메트릭).
자율 층위는 외부 사례(harness-autonomy-eval)와 같은 DNA이며, 도입 전 기존 측정 도구와의 중복·보완 관계를 먼저 정리한다.
내부 기획 검증 파이프라인은 이미 “근거 없는 항목은 100점을 주지 않는다”는 anti-Goodhart 게이트를 구현하고 있어, 5원인 측정 패턴을 흡수할 후보로 pilot 검토 중이다.

상태: draft / needs_review. “reference-only”와 “pilot”은 검토 단계이며 도입(adopted)을 의미하지 않는다.