Keystone Loopy Era 평가 도구 조사
08 레퍼런스 비교 Markdown

Loopy Era 평가 도구 조사

자가개선 루프 시스템을 정량 평가할 수 있는 외부 도구 비교 — SAFLA, EvoAgentX, autoresearch

Source
src/content/docs/loopy-era-evaluation-tools.md
Order
64

한눈에 보기

자가개선 루프(Loopy Era) 시스템의 효과를 “느낌”이 아니라 수치로 평가할 수 있는 외부 도구를 조사한 기록입니다.

2026-04-04 조사. Karpathy의 Loopy Era(자가개선 루프) 개념을 평가할 수 있는 GitHub 도구 정리.

직접 관련 도구

1. SAFLA (Self-Aware Feedback Loop Algorithm)

  • GitHub: ruvnet/SAFLA
  • 핵심: DeltaEvaluator로 자가개선 효과를 정량 측정
  • 평가 항목: reward, throughput, stability, capability
  • 특징:
    • Hybrid Memory Architecture (vector, episodic, semantic, working memory)
    • Meta-Cognitive Engine (자기인식 + 적응 학습)
    • Safety Framework (제약 조건 검증)
    • Claude Code 호환
  • 적합도: ★★★ — self-improve 시스템에 가장 직접적으로 적용 가능

2. EvoAgentX

  • GitHub: EvoAgentX/EvoAgentX
  • 핵심: 에이전트 워크플로우를 자동 진화시키는 프레임워크
  • 최적화 알고리즘: TextGrad, AFlow, MIPRO
  • 벤치마크 결과:
    • HotPotQA F1: +7.44%
    • MBPP pass@1: +10.00%
    • MATH accuracy: +10.00%
    • GAIA overall: +20.00%
  • 적합도: ★★★ — 프롬프트/도구 최적화에 강점

3. karpathy/autoresearch

  • GitHub: karpathy/autoresearch
  • 핵심: Loopy Era 원조. keep/discard 단일 메트릭 루프
  • 성과: 700실험/2일, 20개 개선 누적, 11% 속도 향상
  • 구조: train.py (수정 대상) + program.md (에이전트 지시) + prepare.py (고정)
  • 적합도: ★★☆ — ML 학습 특화, 범용 평가 프레임워크는 아님

서베이 / 큐레이션

프로젝트GitHub설명
Awesome-Self-Evolving-AgentsEvoAgentX/Awesome-Self-Evolving-Agents자가진화 에이전트 논문/도구 종합 서베이
awesome-autoresearchalvinreal/awesome-autoresearchautoresearch 스타일 시스템 큐레이션
Self-Evolving-AgentsCharlesQ9/Self-Evolving-Agents자가진화 에이전트 논문 모음
awesome-ai-agent-papersVoltAgent/awesome-ai-agent-papers2026년 AI 에이전트 논문 큐레이션

우리 시스템(self-improve)과의 비교

항목우리 (self-improve)SAFLAEvoAgentXautoresearch
개선 대상skill/rule/hook 설정메모리+메타인지프롬프트+워크플로우ML 학습 코드
평가 방법fix: 커밋 재발 여부DeltaEvaluator (수치)벤치마크 점수단일 메트릭
루프세션 간 자동실시간 피드백반복 최적화keep/discard
정량 측정재발 유무만reward/throughputF1/accuracyval_bpb
Claude Code 호환네이티브호환별도 통합 필요별도 통합 필요

통합 가능성

SAFLA DeltaEvaluator → self-improve 통합

당시 self-improve는 “fix: 커밋이 재발하는가”만으로 규칙 효과를 판단했습니다. SAFLA의 DeltaEvaluator를 통합하면:

  1. performance: 빌드 시간, 테스트 통과율 추이
  2. efficiency: 토큰 사용량, 에이전트 호출 횟수
  3. stability: 동일 작업의 결과 일관성
  4. capability: 자동 해결 가능한 이슈 범위

이 4가지를 정량 추적하여 “규칙 추가 전후” 비교가 가능해집니다.

EvoAgentX → skill/agent 최적화

EvoAgentX의 프롬프트 진화 알고리즘을 SKILL.md 최적화에 적용:

  • TextGrad로 스킬 프롬프트 자동 개선
  • 벤치마크(빌드 성공률, QA 통과율)로 효과 측정

Source Notes

이 문서는 Hue reference upstream 시기의 self-improve 시스템 평가 도구 조사(2026-04-04)를 공개용으로 정리한 것입니다. 비교 기준이 된 self-improve 시스템은 현재 KeystoneHub 자가개선 루프의 전신입니다. Provenance: reference-only (외부 공개 저장소 비교 조사).