lyogavin/airllm

70B 대형 언어모델을 4GB GPU 한 장에서 양자화 없이 실행하는 메모리 최적화 추론 엔진

개발 재료맘대로 써도 됨 · Apache-2.0LLM 도구·RAGJupyter Notebook난이도
22,026+603이번 주0
2,527포크85이슈

중간맛 분석

스택: Python + PyTorch, Transformers (Llama, ChatGLM, QWen, Baichuan, Mistral 등 다중 모델 지원) | 난이도: 중상급 | 바로 쓸 수 있나: 예, pip install과 3줄 코드로 추론 가능 | 핵심 기법: 레이어별 샤딩 + 블록 단위 양자화(4bit/8bit) 압축으로 3배 속도 향상 | 데모: Colab 노트북 제공, MacOS/Linux/CPU 모두 지원

이런 레포예요

이럴 때 쓰면 좋아요

  • 4GB GPU 한 장에서 70B 모델 실행해 로컬 AI 서비스 구축
  • 클라우드 비용 없이 개인 컴퓨터에서 ChatGLM·QWen 등 중국 대형 모델 테스트
  • 405B 모델을 8GB VRAM으로 제한된 환경에서 파인튜닝·추론

핵심 기능

레이어별 샤딩으로 메모리 효율 극대화4bit/8bit 블록 양자화로 3배 속도 향상Llama/QWen/ChatGLM 등 다중 모델 자동 지원 (AutoModel)

대안 대비 차별점

양자화 시 가중치만 압축해 다양한 입력에서 안정성을 유지하고, 프리페칭으로 로딩과 연산을 겹쳐 처리해 기존 방식 대비 접근성과 속도를 모두 확보했습니다.

준비물

  • CUDA 호환 GPU (또는 MacOS Apple Silicon/CPU)
  • Python 3.8+
  • PyTorch
  • Hugging Face Transformers

바로 시작하기

  1. airllm 패키지 설치
pip install airllm
  1. 모델 로드 및 토크나이징
from airllm import AutoModel

model = AutoModel.from_pretrained("garage-bAInd/Platypus2-70B-instruct")

input_text = ['What is the capital of United States?']
input_tokens = model.tokenizer(input_text,
    return_tensors="pt", 
    return_attention_mask=False, 
    truncation=True, 
    max_length=128, 
    padding=False)
  1. 텍스트 생성
generation_output = model.generate(
    input_tokens['input_ids'].cuda(), 
    max_new_tokens=20,
    use_cache=True,
    return_dict_in_generate=True)

output = model.tokenizer.decode(generation_output.sequences[0])
print(output)
  1. (선택) 모델 압축 활성화 (bitsandbytes 필요: pip install -U bitsandbytes)
model = AutoModel.from_pretrained("garage-bAInd/Platypus2-70B-instruct",
                     compression='4bit')

별 추이 · 7일

22,026+603 / 7일

활용성 · 따라 만들기 좋은가

따라 하기 좋음샘플 점수 50/100
  • 관대한 라이선스
  • 테스트 있음
  • 예제 디렉토리
  • 최근 활동
  • AGENTS.md
  • llms.txt
  • 템플릿

🟢 최근 활동 있음 · 2023년 생성

이 레포에 깃밥 배지 달기

[![깃밥](https://www.gitbap.com/badge/lyogavin/airllm.svg)](https://www.gitbap.com/r/lyogavin/airllm)

🔌 클로드에서 바로 써보기

깃밥을 클로드에 연결하면 이런 레포를 클로드·커서·Codex에서 바로 찾고 체험할 수 있어요.

방법 ① 커넥터 URL

클로드 설정 → 커넥터에 이 주소를 붙여넣기.

https://www.gitbap.com/api/mcp
방법 ② 플러그인 (체험까지)

플러그인을 설치하면 /gitbap-trending·/gitbap-try 슬래시 커맨드로 레포를 그 자리에서 체험. Claude Code에서 아래 두 줄을 차례로 실행하세요.

/plugin marketplace add jakeparkcolde/gitbap-cowork
/plugin install gitbap-cowork@gitbap
연결 방법 자세히 →

AI가 README 기반으로 요약했습니다 · 원문 보기