llmsresearch/paperbanana

AI 연구자를 위해 논문 텍스트로부터 출판 품질의 학술 다이어그램과 통계 그래프를 자동 생성하는 멀티에이전트 프레임워크

설치형 도구맘대로 써도 됨 · MITAI 미디어 생성Python난이도

2,044+21이번 주0 찜

301포크0이슈

중간맛 분석

스택: Python 3.10+, Pydantic v2, Typer / VLM(GPT-4.5, Gemini, DeepSeek 등) + 이미지생성(DALL-E 3, Gemini 3, Flux 등) / 로컬 Gradio Studio 웹UI

난이도: 3~4단계 ( 키 설정 후 /Python 한 줄이면 충분하지만, 배치 작업·커스텀 스타일 정의는 심화)

바로 쓸 수 있나: 네. Google Gemini 무료 티어나 OpenAI 만으로도 즉시 시작 가능. Colab 노트북으로 로컬 설정 없이 브라우저에서 직접 실행 가능

핵심 흐름: 입력 텍스트 → (선택) 최적화 → 참고 다이어그램 검색 → 상세 계획 → 스타일 정제 → 이미지 생성 → 비평·반복 개선(3회 또는 자동 종료) → 최종 PNG/JPEG/WebP

데모: HuggingFace Spaces, Colab Quickstart, 로컬 Studio (pip install paperbanana[studio] 후 paperbanana studio)

이럴 때 쓰면 좋아요

핵심 기능

멀티에이전트 파이프라인(입력 최적화→계획→반복 개선)9가지 VLM/이미지생성 제공자 지원학술지 커스텀 스타일 팩(NeurIPS/ICML/ACL/IEEE)

대안 대비 차별점

학술 다이어그램에 특화된 VLM 기반 반복 개선 파이프라인과 13개 큐레이션 참고 세트로 text-to-image 한 번 생성보다 정확도를 높였으며, 다양한 LLM/이미지 제공자 지원으로 비용과 품질의 선택지를 제공합니다.

pip install paperbanana

cp .env.example .env

텍스트 편집기로 .env 파일을 열어 API 키 추가하기 (예: GOOGLE_API_KEY=your-key-here 또는 OPENAI_API_KEY=your-key-here)
메서드 텍스트 파일 준비하기 (또는 예제 사용)

cat > method.txt << 'EOF'
Our framework consists of an encoder-decoder architecture...
EOF

paperbanana generate --input method.txt --caption "Overview of our framework"

2,044+21 / 7일

베스트 샘플샘플 점수 68/100

🟢 최근 활동 있음 · 2026년 생성

[![깃밥](https://www.gitbap.com/badge/llmsresearch/paperbanana.svg)](https://www.gitbap.com/r/llmsresearch/paperbanana)

깃밥을 클로드에 연결하면 이런 레포를 클로드·커서·Codex에서 바로 찾고 체험할 수 있어요.

방법 ① 커넥터 URL

클로드 설정 → 커넥터에 이 주소를 붙여넣기.

https://www.gitbap.com/api/mcp

방법 ② 플러그인 (체험까지)

플러그인을 설치하면 /gitbap-trending·/gitbap-try 슬래시 커맨드로 레포를 그 자리에서 체험. Claude Code에서 아래 두 줄을 차례로 실행하세요.

/plugin marketplace add jakeparkcolde/gitbap-cowork

/plugin install gitbap-cowork@gitbap

AI가 README 기반으로 요약했습니다 · 원문 보기