SantanderAI/autoguardrails

LLM 안전 정책을 자동으로 최적화하는 연구용 평가 프레임워크

개발 재료맘대로 써도 됨 · Apache-2.0보안Python난이도

114+14이번 주0 찜

29포크1이슈

중간맛 분석

Python 3.10+, 표준 라이브러리만 사용하는 의존성 0의 연구 도구입니다. 로컬 스텁으로 오프라인에서 즉시 시작하거나, 환경변수로 OpenAI 호환 를 연결해 실제 모델로 실험할 수 있습니다. 기본 흐름은 (1) 베이스라인 기록 → (2) policy.md 수정 → (3) 후보 평가 → (4) 개선 여부 자동 판정 → (5) 결과 로그 기록이며, 거절된 후보는 자동 복원되므로 안전합니다. 한 세션에 수분 내 완료되도록 벽시계 예산이 고정되어 있어서 빠른 피드백 루프를 보장합니다.

이런 레포예요

이럴 때 쓰면 좋아요

LLM 기반 챗봇의 프롬프트 인젝션 및 역할극 공격에 대한 안전 정책을 반복해서 강화할 때
Content moderation 규칙을 고정된 공격 사례 세트 앞에서 점진적으로 개선할 때
AI 안전 연구팀이 정책 변경의 영향을 재현 가능하게 측정하고 이력을 추적할 때

핵심 기능

마크다운 기반 정책 편집 인터페이스로 비코더도 참여 가능공격 성공률과 선량 통과율의 이중 메트릭으로 균형잡힌 평가고정된 평가 예산 내에서의 자동 변경 수용/거절 판정 및 자동 복원

대안 대비 차별점

Karpathy의 autoresearch 패러다임을 LLM guardrail 최적화에 처음 적용하여, 고정 평가기와 가변 정책이 명확히 분리되고 마크다운만 편집해 점진적 개선을 할 수 있는 유일한 프레임워크입니다.

준비물

Python 3.10 이상
텍스트 에디터 (policy.md 편집용)
선택사항: OpenAI 호환 API 엔드포인트 (실제 모델 실험용)

바로 시작하기

저장소 루트에서 베이스라인을 기록합니다.

python -m autoguardrails baseline --reset --repeat 2 --notes "initial baseline"

policy.md 파일만 편집합니다 (텍스트 에디터로 직접 수정).
새로운 정책 후보를 평가합니다.

python -m autoguardrails candidate --repeat 2 --notes "cover jailbreak and obfuscation"

현재 채택된 결과를 확인합니다.

python -m autoguardrails status

전체 실행 로그를 조회합니다.

cat results.tsv

별 추이 · 7일

114+14 / 7일

활용성 · 따라 만들기 좋은가

따라 하기 좋음샘플 점수 52/100

관대한 라이선스
테스트 있음
예제 디렉토리
최근 활동
AGENTS.md
llms.txt
템플릿

🟢 최근 활동 있음 · 2026년 생성

이 레포에 깃밥 배지 달기

[![깃밥](https://www.gitbap.com/badge/SantanderAI/autoguardrails.svg)](https://www.gitbap.com/r/SantanderAI/autoguardrails)

🔌 클로드에서 바로 써보기

깃밥을 클로드에 연결하면 이런 레포를 클로드·커서·Codex에서 바로 찾고 체험할 수 있어요.

방법 ① 커넥터 URL

클로드 설정 → 커넥터에 이 주소를 붙여넣기.

https://www.gitbap.com/api/mcp

방법 ② 플러그인 (체험까지)

플러그인을 설치하면 /gitbap-trending·/gitbap-try 슬래시 커맨드로 레포를 그 자리에서 체험. Claude Code에서 아래 두 줄을 차례로 실행하세요.

/plugin marketplace add jakeparkcolde/gitbap-cowork

/plugin install gitbap-cowork@gitbap

연결 방법 자세히 →

AI가 README 기반으로 요약했습니다 · 원문 보기