AI 연구자를 위해 논문 텍스트로부터 출판 품질의 학술 다이어그램과 통계 그래프를 자동 생성하는 멀티에이전트 프레임워크
중간맛 분석
스택: Python 3.10+, Pydantic v2, Typer / VLM(GPT-4.5, Gemini, DeepSeek 등) + 이미지생성(DALL-E 3, Gemini 3, Flux 등) / 로컬 Gradio Studio 웹UI
난이도: 3~4단계 ( 키 설정 후 /Python 한 줄이면 충분하지만, 배치 작업·커스텀 스타일 정의는 심화)
바로 쓸 수 있나: 네. Google Gemini 무료 티어나 OpenAI 만으로도 즉시 시작 가능. Colab 노트북으로 로컬 설정 없이 브라우저에서 직접 실행 가능
핵심 흐름: 입력 텍스트 → (선택) 최적화 → 참고 다이어그램 검색 → 상세 계획 → 스타일 정제 → 이미지 생성 → 비평·반복 개선(3회 또는 자동 종료) → 최종 PNG/JPEG/WebP
데모: HuggingFace Spaces, Colab Quickstart, 로컬 Studio (pip install paperbanana[studio] 후 paperbanana studio)
이런 레포예요
이럴 때 쓰면 좋아요
- 논문의 복잡한 방법론 아키텍처를 출판 품질 다이어그램으로 자동 생성
- 실험 데이터를 학술지 스타일 통계 그래프로 시각화
- Overleaf 레포지토리와 동기화하여 논문 갱신 시 자동으로 그림 최신화
핵심 기능
대안 대비 차별점
학술 다이어그램에 특화된 VLM 기반 반복 개선 파이프라인과 13개 큐레이션 참고 세트로 text-to-image 한 번 생성보다 정확도를 높였으며, 다양한 LLM/이미지 제공자 지원으로 비용과 품질의 선택지를 제공합니다.
준비물
- Python 3.10 이상
- OpenAI API 키 (또는 Google Gemini/Azure OpenAI/Atlas Cloud 중 하나)
바로 시작하기
- pip로 설치하기
pip install paperbanana
- 환경변수 설정 파일 생성
cp .env.example .env
-
텍스트 편집기로
.env파일을 열어 API 키 추가하기 (예:GOOGLE_API_KEY=your-key-here또는OPENAI_API_KEY=your-key-here) -
메서드 텍스트 파일 준비하기 (또는 예제 사용)
cat > method.txt << 'EOF'
Our framework consists of an encoder-decoder architecture...
EOF
- 다이어그램 생성하기
paperbanana generate --input method.txt --caption "Overview of our framework"
- 출력 확인하기 (자동으로
outputs/run_<timestamp>/final_output.png에 저장됨)
별 추이 · 7일
활용성 · 따라 만들기 좋은가
- 관대한 라이선스
- 테스트 있음
- 예제 디렉토리
- 최근 활동
- AGENTS.md
- llms.txt
- 템플릿
🟢 최근 활동 있음 · 2026년 생성
이 레포에 깃밥 배지 달기
[](https://www.gitbap.com/r/llmsresearch/paperbanana)🔌 클로드에서 바로 써보기
깃밥을 클로드에 연결하면 이런 레포를 클로드·커서·Codex에서 바로 찾고 체험할 수 있어요.
클로드 설정 → 커넥터에 이 주소를 붙여넣기.
https://www.gitbap.com/api/mcp플러그인을 설치하면 /gitbap-trending·/gitbap-try 슬래시 커맨드로 레포를 그 자리에서 체험. Claude Code에서 아래 두 줄을 차례로 실행하세요.
/plugin marketplace add jakeparkcolde/gitbap-cowork/plugin install gitbap-cowork@gitbapAI가 README 기반으로 요약했습니다 · 원문 보기