vllm-project/vllm
PagedAttention 기반 고속 LLM 추론·서빙 라이브러리로 처리량 최적화와 유연한 분산 배포를 지원
82,981+4이번 주18,0942,013Python
데모·홈페이지 열기vllm.ai중간맛 분석
Python 기반이며 NVIDIA/AMD GPU, TPU, CPU 등 다양한 하드웨어를 지원합니다. 핵심은 PagedAttention 메모리 관리로 높은 처리량을 달성하며, FP8·INT4·GPTQ 등 양자화 기법을 통해 모델 크기를 줄일 수 있습니다. OpenAI 호환 API 서버로 바로 배포 가능하고, Llama·Qwen·DeepSeek·GPT 계열 모델을 즉시 지원합니다. 난이도는 설치 후 기본 추론은 쉽지만 분산 배포와 커스텀 최적화는 고급입니다.
이런 레포예요
이럴 때 쓰면 좋아요
- 고처리량 LLM API 서버를 OpenAI 호환 인터페이스로 빠르게 배포하기
- 파인튜닝된 Llama·Qwen 모델을 프로덕션 환경에서 효율적으로 서빙하기
- 양자화(INT4, FP8)와 멀티 GPU 분산처리로 대규모 모델 추론 비용 절감하기
핵심 기능
PagedAttention 기반 메모리 효율화200+ Hugging Face 모델 아키텍처 지원다중 양자화 기법(INT4, FP8, GPTQ, AWQ 등)과 추측 디코딩
대안 대비 차별점
PagedAttention 메모리 관리로 TensorRT-LLM 대비 유연성을, Ray Serve·Triton 대비 모델 호환성을 제공하며, UC Berkeley 발원의 활발한 오픈소스 커뮤니티로 신규 모델과 기법을 빠르게 지원합니다.
준비물
- Python 3.9+
- NVIDIA/AMD GPU 또는 CPU (GPU 권장)
바로 시작하기
- uv 또는 pip으로 vLLM 설치
uv pip install vllm
- (선택) 소스에서 빌드
git clone https://github.com/vllm-project/vllm.git
cd vllm
python setup.py develop
- 공식 문서의 Quickstart 가이드 참고
별 추이 · 7일
82,981+4 / 7일
활용성 · 따라 만들기 좋은가
베스트 샘플샘플 점수 80/100
- 관대한 라이선스
- 테스트 있음
- 예제 디렉토리
- 최근 활동
- AGENTS.md
- llms.txt
- 템플릿
🟢 최근 활동 있음 · 2023년 생성
AI가 README 기반으로 요약했습니다 · 원문 보기