lyogavin/airllm
70B 대형 언어모델을 4GB GPU 한 장에서 양자화 없이 실행하는 메모리 최적화 추론 엔진
22,026+603이번 주0 찜
2,527포크85이슈
중간맛 분석
스택: Python + PyTorch, Transformers (Llama, ChatGLM, QWen, Baichuan, Mistral 등 다중 모델 지원) | 난이도: 중상급 | 바로 쓸 수 있나: 예, pip install과 3줄 코드로 추론 가능 | 핵심 기법: 레이어별 샤딩 + 블록 단위 양자화(4bit/8bit) 압축으로 3배 속도 향상 | 데모: Colab 노트북 제공, MacOS/Linux/CPU 모두 지원
이런 레포예요
이럴 때 쓰면 좋아요
- 4GB GPU 한 장에서 70B 모델 실행해 로컬 AI 서비스 구축
- 클라우드 비용 없이 개인 컴퓨터에서 ChatGLM·QWen 등 중국 대형 모델 테스트
- 405B 모델을 8GB VRAM으로 제한된 환경에서 파인튜닝·추론
핵심 기능
레이어별 샤딩으로 메모리 효율 극대화4bit/8bit 블록 양자화로 3배 속도 향상Llama/QWen/ChatGLM 등 다중 모델 자동 지원 (AutoModel)
대안 대비 차별점
양자화 시 가중치만 압축해 다양한 입력에서 안정성을 유지하고, 프리페칭으로 로딩과 연산을 겹쳐 처리해 기존 방식 대비 접근성과 속도를 모두 확보했습니다.
준비물
- CUDA 호환 GPU (또는 MacOS Apple Silicon/CPU)
- Python 3.8+
- PyTorch
- Hugging Face Transformers
바로 시작하기
- airllm 패키지 설치
pip install airllm
- 모델 로드 및 토크나이징
from airllm import AutoModel
model = AutoModel.from_pretrained("garage-bAInd/Platypus2-70B-instruct")
input_text = ['What is the capital of United States?']
input_tokens = model.tokenizer(input_text,
return_tensors="pt",
return_attention_mask=False,
truncation=True,
max_length=128,
padding=False)
- 텍스트 생성
generation_output = model.generate(
input_tokens['input_ids'].cuda(),
max_new_tokens=20,
use_cache=True,
return_dict_in_generate=True)
output = model.tokenizer.decode(generation_output.sequences[0])
print(output)
- (선택) 모델 압축 활성화 (bitsandbytes 필요:
pip install -U bitsandbytes)
model = AutoModel.from_pretrained("garage-bAInd/Platypus2-70B-instruct",
compression='4bit')
별 추이 · 7일
22,026+603 / 7일
활용성 · 따라 만들기 좋은가
따라 하기 좋음샘플 점수 50/100
- 관대한 라이선스
- 테스트 있음
- 예제 디렉토리
- 최근 활동
- AGENTS.md
- llms.txt
- 템플릿
🟢 최근 활동 있음 · 2023년 생성
이 레포에 깃밥 배지 달기
[](https://www.gitbap.com/r/lyogavin/airllm)🔌 클로드에서 바로 써보기
깃밥을 클로드에 연결하면 이런 레포를 클로드·커서·Codex에서 바로 찾고 체험할 수 있어요.
방법 ① 커넥터 URL
클로드 설정 → 커넥터에 이 주소를 붙여넣기.
https://www.gitbap.com/api/mcp방법 ② 플러그인 (체험까지)
플러그인을 설치하면 /gitbap-trending·/gitbap-try 슬래시 커맨드로 레포를 그 자리에서 체험. Claude Code에서 아래 두 줄을 차례로 실행하세요.
/plugin marketplace add jakeparkcolde/gitbap-cowork/plugin install gitbap-cowork@gitbapAI가 README 기반으로 요약했습니다 · 원문 보기