08 레퍼런스 비교 Markdown

Loopy Era 평가 도구 조사

자가개선 루프 시스템을 정량 평가할 수 있는 외부 도구 비교 — SAFLA, EvoAgentX, autoresearch

Source: src/content/docs/loopy-era-evaluation-tools.md
Order: 64

한눈에 보기

자가개선 루프(Loopy Era) 시스템의 효과를 “느낌”이 아니라 수치로 평가할 수 있는 외부 도구를 조사한 기록입니다.

핵심 질문: self-improve 루프의 개선 효과를 어떤 도구와 지표로 정량화할 수 있는가?
읽는 대상: 자가개선 시스템의 평가 체계를 찾는 운영자
연결 문서: Loopy Era 한계 점검 요약, Self-Improving Knowledge Loop, Reference Comparison

2026-04-04 조사. Karpathy의 Loopy Era(자가개선 루프) 개념을 평가할 수 있는 GitHub 도구 정리.

직접 관련 도구

1. SAFLA (Self-Aware Feedback Loop Algorithm)

GitHub: ruvnet/SAFLA
핵심: DeltaEvaluator로 자가개선 효과를 정량 측정
평가 항목: reward, throughput, stability, capability
특징:
- Hybrid Memory Architecture (vector, episodic, semantic, working memory)
- Meta-Cognitive Engine (자기인식 + 적응 학습)
- Safety Framework (제약 조건 검증)
- Claude Code 호환
적합도: ★★★ — self-improve 시스템에 가장 직접적으로 적용 가능

2. EvoAgentX

GitHub: EvoAgentX/EvoAgentX
핵심: 에이전트 워크플로우를 자동 진화시키는 프레임워크
최적화 알고리즘: TextGrad, AFlow, MIPRO
벤치마크 결과:
- HotPotQA F1: +7.44%
- MBPP pass@1: +10.00%
- MATH accuracy: +10.00%
- GAIA overall: +20.00%
적합도: ★★★ — 프롬프트/도구 최적화에 강점

3. karpathy/autoresearch

GitHub: karpathy/autoresearch
핵심: Loopy Era 원조. keep/discard 단일 메트릭 루프
성과: 700실험/2일, 20개 개선 누적, 11% 속도 향상
구조: train.py (수정 대상) + program.md (에이전트 지시) + prepare.py (고정)
적합도: ★★☆ — ML 학습 특화, 범용 평가 프레임워크는 아님

서베이 / 큐레이션

프로젝트	GitHub	설명
Awesome-Self-Evolving-Agents	EvoAgentX/Awesome-Self-Evolving-Agents	자가진화 에이전트 논문/도구 종합 서베이
awesome-autoresearch	alvinreal/awesome-autoresearch	autoresearch 스타일 시스템 큐레이션
Self-Evolving-Agents	CharlesQ9/Self-Evolving-Agents	자가진화 에이전트 논문 모음
awesome-ai-agent-papers	VoltAgent/awesome-ai-agent-papers	2026년 AI 에이전트 논문 큐레이션

우리 시스템(self-improve)과의 비교

항목	우리 (self-improve)	SAFLA	EvoAgentX	autoresearch
개선 대상	skill/rule/hook 설정	메모리+메타인지	프롬프트+워크플로우	ML 학습 코드
평가 방법	fix: 커밋 재발 여부	DeltaEvaluator (수치)	벤치마크 점수	단일 메트릭
루프	세션 간 자동	실시간 피드백	반복 최적화	keep/discard
정량 측정	재발 유무만	reward/throughput	F1/accuracy	val_bpb
Claude Code 호환	네이티브	호환	별도 통합 필요	별도 통합 필요

통합 가능성

SAFLA DeltaEvaluator → self-improve 통합

당시 self-improve는 “fix: 커밋이 재발하는가”만으로 규칙 효과를 판단했습니다. SAFLA의 DeltaEvaluator를 통합하면:

performance: 빌드 시간, 테스트 통과율 추이
efficiency: 토큰 사용량, 에이전트 호출 횟수
stability: 동일 작업의 결과 일관성
capability: 자동 해결 가능한 이슈 범위

이 4가지를 정량 추적하여 “규칙 추가 전후” 비교가 가능해집니다.

EvoAgentX → skill/agent 최적화

EvoAgentX의 프롬프트 진화 알고리즘을 SKILL.md 최적화에 적용:

TextGrad로 스킬 프롬프트 자동 개선
벤치마크(빌드 성공률, QA 통과율)로 효과 측정

Source Notes

이 문서는 Hue reference upstream 시기의 self-improve 시스템 평가 도구 조사(2026-04-04)를 공개용으로 정리한 것입니다. 비교 기준이 된 self-improve 시스템은 현재 KeystoneHub 자가개선 루프의 전신입니다. Provenance: reference-only (외부 공개 저장소 비교 조사).