benchflow-ai/awesome-evals

AI 에이전트 평가와 벤치마크에 관한 엄선된 자료 모음집

모음집확인 필요 · NOASSERTIONLLM 도구·RAG난이도

613+168이번 주0 찜

43포크0이슈

중간맛 분석

스택: 에이전트 평가 프레임워크, 벤치마크, RL 환경 설계 · 난이도: 개념 이해도와 실무 깊이가 모두 필요함 · 바로 쓸 수 있는가: PATTERNS.md에 실행 가능한 코드 예제 포함 (LLM-as-judge, pass@k 계산, 오류 분석) · 데모: 47개 강연·팟캐스트 전사본 + 146개 심화 노트 제공

이런 레포예요

이럴 때 쓰면 좋아요

AI 에이전트 시스템 성능을 객관적으로 측정하고 개선 방향 결정
LLM 기반 애플리케이션의 평가 인프라와 프로세스 설계
강화학습으로 추론 능력이나 도구 사용 능력을 학습시킬 때 보상 설계

핵심 기능

443개 이상의 검증된 자료 + 146개 심화 노트실행 가능한 코드 예제와 패턴(PATTERNS.md)47개 강연·팟캐스트 전사본

대안 대비 차별점

단순 링크 모음이 아니라 모든 자료를 검증하고 각각 왜 포함되었는지 설명하며, 깊이 있는 논문·블로그·강연을 아카데믹 인용도 크롤링과 실무가 결합한 정제된 선집으로 제공합니다.

별 추이 · 7일

613+168 / 7일

활용성 · 따라 만들기 좋은가

샘플 점수 14/100

관대한 라이선스
테스트 있음
예제 디렉토리
최근 활동
AGENTS.md
llms.txt
템플릿

🟢 최근 활동 있음 · 2026년 생성

이 레포에 깃밥 배지 달기

[![깃밥](https://www.gitbap.com/badge/benchflow-ai/awesome-evals.svg)](https://www.gitbap.com/r/benchflow-ai/awesome-evals)

🔌 클로드에서 바로 써보기

깃밥을 클로드에 연결하면 이런 레포를 클로드·커서·Codex에서 바로 찾고 체험할 수 있어요.

방법 ① 커넥터 URL

클로드 설정 → 커넥터에 이 주소를 붙여넣기.

https://www.gitbap.com/api/mcp

방법 ② 플러그인 (체험까지)

플러그인을 설치하면 /gitbap-trending·/gitbap-try 슬래시 커맨드로 레포를 그 자리에서 체험. Claude Code에서 아래 두 줄을 차례로 실행하세요.

/plugin marketplace add jakeparkcolde/gitbap-cowork

/plugin install gitbap-cowork@gitbap

연결 방법 자세히 →

AI가 README 기반으로 요약했습니다 · 원문 보기