08 레퍼런스 비교 Markdown
Loopy Era 평가 도구 조사
자가개선 루프 시스템을 정량 평가할 수 있는 외부 도구 비교 — SAFLA, EvoAgentX, autoresearch
한눈에 보기
자가개선 루프(Loopy Era) 시스템의 효과를 “느낌”이 아니라 수치로 평가할 수 있는 외부 도구를 조사한 기록입니다.
- 핵심 질문: self-improve 루프의 개선 효과를 어떤 도구와 지표로 정량화할 수 있는가?
- 읽는 대상: 자가개선 시스템의 평가 체계를 찾는 운영자
- 연결 문서: Loopy Era 한계 점검 요약, Self-Improving Knowledge Loop, Reference Comparison
2026-04-04 조사. Karpathy의 Loopy Era(자가개선 루프) 개념을 평가할 수 있는 GitHub 도구 정리.
직접 관련 도구
1. SAFLA (Self-Aware Feedback Loop Algorithm)
- GitHub: ruvnet/SAFLA
- 핵심: DeltaEvaluator로 자가개선 효과를 정량 측정
- 평가 항목: reward, throughput, stability, capability
- 특징:
- Hybrid Memory Architecture (vector, episodic, semantic, working memory)
- Meta-Cognitive Engine (자기인식 + 적응 학습)
- Safety Framework (제약 조건 검증)
- Claude Code 호환
- 적합도: ★★★ — self-improve 시스템에 가장 직접적으로 적용 가능
2. EvoAgentX
- GitHub: EvoAgentX/EvoAgentX
- 핵심: 에이전트 워크플로우를 자동 진화시키는 프레임워크
- 최적화 알고리즘: TextGrad, AFlow, MIPRO
- 벤치마크 결과:
- HotPotQA F1: +7.44%
- MBPP pass@1: +10.00%
- MATH accuracy: +10.00%
- GAIA overall: +20.00%
- 적합도: ★★★ — 프롬프트/도구 최적화에 강점
3. karpathy/autoresearch
- GitHub: karpathy/autoresearch
- 핵심: Loopy Era 원조. keep/discard 단일 메트릭 루프
- 성과: 700실험/2일, 20개 개선 누적, 11% 속도 향상
- 구조: train.py (수정 대상) + program.md (에이전트 지시) + prepare.py (고정)
- 적합도: ★★☆ — ML 학습 특화, 범용 평가 프레임워크는 아님
서베이 / 큐레이션
| 프로젝트 | GitHub | 설명 |
|---|---|---|
| Awesome-Self-Evolving-Agents | EvoAgentX/Awesome-Self-Evolving-Agents | 자가진화 에이전트 논문/도구 종합 서베이 |
| awesome-autoresearch | alvinreal/awesome-autoresearch | autoresearch 스타일 시스템 큐레이션 |
| Self-Evolving-Agents | CharlesQ9/Self-Evolving-Agents | 자가진화 에이전트 논문 모음 |
| awesome-ai-agent-papers | VoltAgent/awesome-ai-agent-papers | 2026년 AI 에이전트 논문 큐레이션 |
우리 시스템(self-improve)과의 비교
| 항목 | 우리 (self-improve) | SAFLA | EvoAgentX | autoresearch |
|---|---|---|---|---|
| 개선 대상 | skill/rule/hook 설정 | 메모리+메타인지 | 프롬프트+워크플로우 | ML 학습 코드 |
| 평가 방법 | fix: 커밋 재발 여부 | DeltaEvaluator (수치) | 벤치마크 점수 | 단일 메트릭 |
| 루프 | 세션 간 자동 | 실시간 피드백 | 반복 최적화 | keep/discard |
| 정량 측정 | 재발 유무만 | reward/throughput | F1/accuracy | val_bpb |
| Claude Code 호환 | 네이티브 | 호환 | 별도 통합 필요 | 별도 통합 필요 |
통합 가능성
SAFLA DeltaEvaluator → self-improve 통합
당시 self-improve는 “fix: 커밋이 재발하는가”만으로 규칙 효과를 판단했습니다. SAFLA의 DeltaEvaluator를 통합하면:
- performance: 빌드 시간, 테스트 통과율 추이
- efficiency: 토큰 사용량, 에이전트 호출 횟수
- stability: 동일 작업의 결과 일관성
- capability: 자동 해결 가능한 이슈 범위
이 4가지를 정량 추적하여 “규칙 추가 전후” 비교가 가능해집니다.
EvoAgentX → skill/agent 최적화
EvoAgentX의 프롬프트 진화 알고리즘을 SKILL.md 최적화에 적용:
- TextGrad로 스킬 프롬프트 자동 개선
- 벤치마크(빌드 성공률, QA 통과율)로 효과 측정
Source Notes
이 문서는 Hue reference upstream 시기의 self-improve 시스템 평가 도구 조사(2026-04-04)를 공개용으로 정리한 것입니다. 비교 기준이 된 self-improve 시스템은 현재 KeystoneHub 자가개선 루프의 전신입니다. Provenance: reference-only (외부 공개 저장소 비교 조사).