vllm-project/vllm

PagedAttention 기반 고속 LLM 추론·서빙 라이브러리로 처리량 최적화와 유연한 분산 배포를 지원

개발 재료맘대로 써도 됨 · Apache-2.0LLM 도구·RAG난이도
82,981+4이번 주18,0942,013Python
데모·홈페이지 열기vllm.ai
중간맛 분석

Python 기반이며 NVIDIA/AMD GPU, TPU, CPU 등 다양한 하드웨어를 지원합니다. 핵심은 PagedAttention 메모리 관리로 높은 처리량을 달성하며, FP8·INT4·GPTQ 등 양자화 기법을 통해 모델 크기를 줄일 수 있습니다. OpenAI 호환 API 서버로 바로 배포 가능하고, Llama·Qwen·DeepSeek·GPT 계열 모델을 즉시 지원합니다. 난이도는 설치 후 기본 추론은 쉽지만 분산 배포와 커스텀 최적화는 고급입니다.

이런 레포예요

이럴 때 쓰면 좋아요

  • 고처리량 LLM API 서버를 OpenAI 호환 인터페이스로 빠르게 배포하기
  • 파인튜닝된 Llama·Qwen 모델을 프로덕션 환경에서 효율적으로 서빙하기
  • 양자화(INT4, FP8)와 멀티 GPU 분산처리로 대규모 모델 추론 비용 절감하기

핵심 기능

PagedAttention 기반 메모리 효율화200+ Hugging Face 모델 아키텍처 지원다중 양자화 기법(INT4, FP8, GPTQ, AWQ 등)과 추측 디코딩

대안 대비 차별점

PagedAttention 메모리 관리로 TensorRT-LLM 대비 유연성을, Ray Serve·Triton 대비 모델 호환성을 제공하며, UC Berkeley 발원의 활발한 오픈소스 커뮤니티로 신규 모델과 기법을 빠르게 지원합니다.

준비물
  • Python 3.9+
  • NVIDIA/AMD GPU 또는 CPU (GPU 권장)
바로 시작하기
  1. uv 또는 pip으로 vLLM 설치
uv pip install vllm
  1. (선택) 소스에서 빌드
git clone https://github.com/vllm-project/vllm.git
cd vllm
python setup.py develop
  1. 공식 문서의 Quickstart 가이드 참고
별 추이 · 7일
82,981+4 / 7일
활용성 · 따라 만들기 좋은가
베스트 샘플샘플 점수 80/100
  • 관대한 라이선스
  • 테스트 있음
  • 예제 디렉토리
  • 최근 활동
  • AGENTS.md
  • llms.txt
  • 템플릿

🟢 최근 활동 있음 · 2023년 생성

AI가 README 기반으로 요약했습니다 · 원문 보기