Mac에서 LLM을 최적화하여 실행하는 로컬 추론 서버 - 메뉴바에서 관리하세요
중간맛 분석
Python 기반 FastAPI 서버로, Apple Silicon(M1~M4) Mac용으로 설계되었습니다. mlx-lm을 통한 연속 배칭(continuous batching)과 2단계 KV 캐시(RAM 핫 티어 + SSD 콜드 티어)가 핵심입니다. 텍스트 LLM, 비전 모델(VLM), 임베딩, 리랭커를 한 서버에서 관리하며 OpenAI 와 호환되어 기존 클라이언트와 바로 연결 가능합니다. 웹 대시보드에서 모델 다운로드, 채팅, 벤치마크까지 모두 처리할 수 있고, macOS 앱이나 Homebrew로 간단히 설치할 수 있습니다.
이런 레포예요
이럴 때 쓰면 좋아요
- 로컬에서 Claude Code나 코딩 도구와 함께 LLM을 구동하되, 문맥이 변해도 이전 캐시를 재사용해야 할 때
- 여러 크기의 모델을 한 Mac에서 메모리 효율적으로 관리하면서, 자주 쓰는 모델은 메모리에 고정하고 가끔 쓰는 모델은 필요시만 로드할 때
- OpenAI 호환 API가 필요한 IDE나 에이전트 프레임워크(LangChain, CrewAI 등)를 로컬 LLM과 연결하고 싶을 때
핵심 기능
대안 대비 차별점
SSD 콜드 티어에 KV 캐시를 저장했다가 서버 재시작 후에도 복원하고, 대화 중 컨텍스트 변경 시에도 과거 캐시를 재사용할 수 있는 점이 기존 로컬 추론 서버와 다릅니다.
준비물
- macOS 15.0 이상 (Sequoia)
- Python 3.10+
- Apple Silicon (M1, M2, M3, M4) Mac
바로 시작하기
- Homebrew를 통해 설치합니다.
brew tap jundot/omlx https://github.com/jundot/omlx
brew install omlx
- 배경 서비스로 시작합니다.
omlx start
-
웹 대시보드에 접속하여 모델을 다운로드합니다. 웹 브라우저에서 http://localhost:8000/admin 을 열고 모델을 검색·다운로드하세요.
-
대시보드에서 모델을 로드합니다. 다운로드한 모델을 클릭하여 활성화합니다.
-
OpenAI 호환 클라이언트로 연결합니다.
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "your-model-name", "messages": [{"role": "user", "content": "Hello"}]}'
- (선택) 터미널에서 직접 서버를 실행하려면:
omlx serve --model-dir ~/models
별 추이 · 7일
활용성 · 따라 만들기 좋은가
- 관대한 라이선스
- 테스트 있음
- 예제 디렉토리
- 최근 활동
- AGENTS.md
- llms.txt
- 템플릿
🟢 최근 활동 있음 · 2026년 생성
이 레포에 깃밥 배지 달기
[](https://www.gitbap.com/r/jundot/omlx)🔌 클로드에서 바로 써보기
깃밥을 클로드에 연결하면 이런 레포를 클로드·커서·Codex에서 바로 찾고 체험할 수 있어요.
클로드 설정 → 커넥터에 이 주소를 붙여넣기.
https://www.gitbap.com/api/mcp플러그인을 설치하면 /gitbap-trending·/gitbap-try 슬래시 커맨드로 레포를 그 자리에서 체험. Claude Code에서 아래 두 줄을 차례로 실행하세요.
/plugin marketplace add jakeparkcolde/gitbap-cowork/plugin install gitbap-cowork@gitbapAI가 README 기반으로 요약했습니다 · 원문 보기