kakao/FunctionChat-Bench
한국어 기반 언어 모델의 도구 사용(함수 호출) 능력을 평가하는 벤치마크 데이터셋
118+0이번 주0 찜
15포크0이슈
중간맛 분석
Python 기반의 벤치마크 데이터셋으로, SingleCall(500개 단일 턴), Dialog(45개 다중 턴 시나리오), CallDecision 등으로 구성됩니다. 단일 함수 선택(1_exact), 간섭 함수 섞임(4_random, 4_close, 8_random, 8_close) 등 5가지 도구 제시 방식을 포함합니다. OpenAI GPT-4 기반 자동 평가(LLM-as-Judge)를 지원하며, OpenAI , Azure, 로컬 서버, Gemini, Claude 등 다양한 백엔드에서 실행 가능합니다. 바로 실행 가능한 evaluate.py 스크립트와 설정 파일이 포함되어 있습니다.
이런 레포예요
이럴 때 쓰면 좋아요
- 한국어 대화형 AI 모델의 함수 호출 정확도 평가
- 새로운 언어 모델이 실제 도구 통합 환경에서 얼마나 잘 작동하는지 검증
- 다양한 LLM(GPT, Gemini, Claude 등) 간의 도구 사용 능력 비교 연구
핵심 기능
한국어 기반 다중 시나리오(SingleCall, Dialog, CallDecision)함수 선택 난이도 5단계(1_exact ~ 8_close)GPT-4 자동 평가(LLM-as-Judge) 지원
대안 대비 차별점
한국어 자연 대화 데이터를 기반으로 단일 및 다중 턴 도구 호출을 체계적으로 평가하며, OpenAI, Azure, 로컬 서버, Gemini, Claude 등 다양한 API 백엔드를 통합 지원합니다.
준비물
- Python 3.7 이상
- OpenAI API 키(또는 대체 API 제공자)
- pip
바로 시작하기
- 저장소를 복제합니다.
git clone https://github.com/kakao/FunctionChat-Bench.git
cd FunctionChat-Bench
- 필수 패키지를 설치합니다.
pip3 install -r requirements.txt
- OpenAI 설정을 config/openai.cfg에 추가합니다(또는 다른 API 제공자 선택).
{
"api_type": "openai",
"api_key": "__YOUR_OPENAI_KEY__",
"api_version": "gpt-4-1106-preview",
"temperature": 0.1,
"max_tokens": 4096,
"n": 3
}
- 대화 평가를 실행합니다.
python3 evaluate.py dialog \
--input_path data/FunctionChat-Dialog.jsonl \
--system_prompt_path data/system_prompt.txt \
--temperature 0.1 \
--model gpt-4-1106-preview \
--api_key {api_key}
- 단일 호출 평가를 실행합니다.
python3 evaluate.py singlecall \
--input_path data/FunctionChat-Singlecall.jsonl \
--tools_type all \
--system_prompt_path data/system_prompt.txt \
--temperature 0.1 \
--model gpt-4-1106-preview \
--api_key {api_key}
- 호출 결정 평가를 실행합니다.
python3 evaluate.py common \
--input_path data/FunctionChat-CallDecision.jsonl \
--temperature 0.1 \
--model gpt-4-1106-preview \
--api_key {api_key}
별 추이 · 7일
118+0 / 7일
활용성 · 따라 만들기 좋은가
샘플 점수 20/100
- 관대한 라이선스
- 테스트 있음
- 예제 디렉토리
- 최근 활동
- AGENTS.md
- llms.txt
- 템플릿
⚪ 최근 활동 정보 없음 · 2024년 생성
이 레포에 깃밥 배지 달기
[](https://www.gitbap.com/r/kakao/FunctionChat-Bench)🔌 클로드에서 바로 써보기
깃밥을 클로드에 연결하면 이런 레포를 클로드·커서·Codex에서 바로 찾고 체험할 수 있어요.
방법 ① 커넥터 URL
클로드 설정 → 커넥터에 이 주소를 붙여넣기.
https://www.gitbap.com/api/mcp방법 ② 플러그인 (체험까지)
플러그인을 설치하면 /gitbap-trending·/gitbap-try 슬래시 커맨드로 레포를 그 자리에서 체험. Claude Code에서 아래 두 줄을 차례로 실행하세요.
/plugin marketplace add jakeparkcolde/gitbap-cowork/plugin install gitbap-cowork@gitbapAI가 README 기반으로 요약했습니다 · 원문 보기