SantanderAI/autoguardrails
LLM 안전 정책을 자동으로 최적화하는 연구용 평가 프레임워크
114+14이번 주0 찜
29포크1이슈
중간맛 분석
Python 3.10+, 표준 라이브러리만 사용하는 의존성 0의 연구 도구입니다. 로컬 스텁으로 오프라인에서 즉시 시작하거나, 환경변수로 OpenAI 호환 를 연결해 실제 모델로 실험할 수 있습니다. 기본 흐름은 (1) 베이스라인 기록 → (2) policy.md 수정 → (3) 후보 평가 → (4) 개선 여부 자동 판정 → (5) 결과 로그 기록이며, 거절된 후보는 자동 복원되므로 안전합니다. 한 세션에 수분 내 완료되도록 벽시계 예산이 고정되어 있어서 빠른 피드백 루프를 보장합니다.
이런 레포예요
이럴 때 쓰면 좋아요
- LLM 기반 챗봇의 프롬프트 인젝션 및 역할극 공격에 대한 안전 정책을 반복해서 강화할 때
- Content moderation 규칙을 고정된 공격 사례 세트 앞에서 점진적으로 개선할 때
- AI 안전 연구팀이 정책 변경의 영향을 재현 가능하게 측정하고 이력을 추적할 때
핵심 기능
마크다운 기반 정책 편집 인터페이스로 비코더도 참여 가능공격 성공률과 선량 통과율의 이중 메트릭으로 균형잡힌 평가고정된 평가 예산 내에서의 자동 변경 수용/거절 판정 및 자동 복원
대안 대비 차별점
Karpathy의 autoresearch 패러다임을 LLM guardrail 최적화에 처음 적용하여, 고정 평가기와 가변 정책이 명확히 분리되고 마크다운만 편집해 점진적 개선을 할 수 있는 유일한 프레임워크입니다.
준비물
- Python 3.10 이상
- 텍스트 에디터 (policy.md 편집용)
- 선택사항: OpenAI 호환 API 엔드포인트 (실제 모델 실험용)
바로 시작하기
- 저장소 루트에서 베이스라인을 기록합니다.
python -m autoguardrails baseline --reset --repeat 2 --notes "initial baseline"
-
policy.md파일만 편집합니다 (텍스트 에디터로 직접 수정). -
새로운 정책 후보를 평가합니다.
python -m autoguardrails candidate --repeat 2 --notes "cover jailbreak and obfuscation"
- 현재 채택된 결과를 확인합니다.
python -m autoguardrails status
- 전체 실행 로그를 조회합니다.
cat results.tsv
별 추이 · 7일
114+14 / 7일
활용성 · 따라 만들기 좋은가
따라 하기 좋음샘플 점수 52/100
- 관대한 라이선스
- 테스트 있음
- 예제 디렉토리
- 최근 활동
- AGENTS.md
- llms.txt
- 템플릿
🟢 최근 활동 있음 · 2026년 생성
이 레포에 깃밥 배지 달기
[](https://www.gitbap.com/r/SantanderAI/autoguardrails)🔌 클로드에서 바로 써보기
깃밥을 클로드에 연결하면 이런 레포를 클로드·커서·Codex에서 바로 찾고 체험할 수 있어요.
방법 ① 커넥터 URL
클로드 설정 → 커넥터에 이 주소를 붙여넣기.
https://www.gitbap.com/api/mcp방법 ② 플러그인 (체험까지)
플러그인을 설치하면 /gitbap-trending·/gitbap-try 슬래시 커맨드로 레포를 그 자리에서 체험. Claude Code에서 아래 두 줄을 차례로 실행하세요.
/plugin marketplace add jakeparkcolde/gitbap-cowork/plugin install gitbap-cowork@gitbapAI가 README 기반으로 요약했습니다 · 원문 보기