kakao/FunctionChat-Bench

한국어 기반 언어 모델의 도구 사용(함수 호출) 능력을 평가하는 벤치마크 데이터셋

개발 재료맘대로 써도 됨 · Apache-2.0LLM 도구·RAGPython난이도

118+0이번 주0 찜

15포크0이슈

중간맛 분석

Python 기반의 벤치마크 데이터셋으로, SingleCall(500개 단일 턴), Dialog(45개 다중 턴 시나리오), CallDecision 등으로 구성됩니다. 단일 함수 선택(1_exact), 간섭 함수 섞임(4_random, 4_close, 8_random, 8_close) 등 5가지 도구 제시 방식을 포함합니다. OpenAI GPT-4 기반 자동 평가(LLM-as-Judge)를 지원하며, OpenAI , Azure, 로컬 서버, Gemini, Claude 등 다양한 백엔드에서 실행 가능합니다. 바로 실행 가능한 evaluate.py 스크립트와 설정 파일이 포함되어 있습니다.

이런 레포예요

이럴 때 쓰면 좋아요

한국어 대화형 AI 모델의 함수 호출 정확도 평가
새로운 언어 모델이 실제 도구 통합 환경에서 얼마나 잘 작동하는지 검증
다양한 LLM(GPT, Gemini, Claude 등) 간의 도구 사용 능력 비교 연구

핵심 기능

한국어 기반 다중 시나리오(SingleCall, Dialog, CallDecision)함수 선택 난이도 5단계(1_exact ~ 8_close)GPT-4 자동 평가(LLM-as-Judge) 지원

대안 대비 차별점

한국어 자연 대화 데이터를 기반으로 단일 및 다중 턴 도구 호출을 체계적으로 평가하며, OpenAI, Azure, 로컬 서버, Gemini, Claude 등 다양한 API 백엔드를 통합 지원합니다.

준비물

Python 3.7 이상
OpenAI API 키(또는 대체 API 제공자)
pip

바로 시작하기

저장소를 복제합니다.

git clone https://github.com/kakao/FunctionChat-Bench.git
cd FunctionChat-Bench

필수 패키지를 설치합니다.

pip3 install -r requirements.txt

OpenAI 설정을 config/openai.cfg에 추가합니다(또는 다른 API 제공자 선택).

{
  "api_type": "openai",
  "api_key": "__YOUR_OPENAI_KEY__",
  "api_version": "gpt-4-1106-preview",
  "temperature": 0.1,
  "max_tokens": 4096,
  "n": 3
}

대화 평가를 실행합니다.

python3 evaluate.py dialog \
--input_path data/FunctionChat-Dialog.jsonl \
--system_prompt_path data/system_prompt.txt \
--temperature 0.1 \
--model gpt-4-1106-preview \
--api_key {api_key}

단일 호출 평가를 실행합니다.

python3 evaluate.py singlecall \
--input_path data/FunctionChat-Singlecall.jsonl \
--tools_type all \
--system_prompt_path data/system_prompt.txt \
--temperature 0.1 \
--model gpt-4-1106-preview \
--api_key {api_key}

호출 결정 평가를 실행합니다.

python3 evaluate.py common \
--input_path data/FunctionChat-CallDecision.jsonl \
--temperature 0.1 \
--model gpt-4-1106-preview \
--api_key {api_key}

별 추이 · 7일

118+0 / 7일

활용성 · 따라 만들기 좋은가

샘플 점수 20/100

관대한 라이선스
테스트 있음
예제 디렉토리
최근 활동
AGENTS.md
llms.txt
템플릿

⚪ 최근 활동 정보 없음 · 2024년 생성

이 레포에 깃밥 배지 달기

[![깃밥](https://www.gitbap.com/badge/kakao/FunctionChat-Bench.svg)](https://www.gitbap.com/r/kakao/FunctionChat-Bench)

🔌 클로드에서 바로 써보기

깃밥을 클로드에 연결하면 이런 레포를 클로드·커서·Codex에서 바로 찾고 체험할 수 있어요.

방법 ① 커넥터 URL

클로드 설정 → 커넥터에 이 주소를 붙여넣기.

https://www.gitbap.com/api/mcp

방법 ② 플러그인 (체험까지)

플러그인을 설치하면 /gitbap-trending·/gitbap-try 슬래시 커맨드로 레포를 그 자리에서 체험. Claude Code에서 아래 두 줄을 차례로 실행하세요.

/plugin marketplace add jakeparkcolde/gitbap-cowork

/plugin install gitbap-cowork@gitbap

연결 방법 자세히 →

AI가 README 기반으로 요약했습니다 · 원문 보기