로컬 LLM, 내 PC에서 돌릴 수 있을까?
LLM을 로컬에서 실행하려면 **모델 크기에 맞는 VRAM(GPU 메모리)**이 핵심입니다. 같은 모델이라도 양자화(Quantization) 수준에 따라 필요한 메모리가 크게 달라집니다. 이 글에서는 주요 오픈소스 LLM의 시스템 요구사항을 크기별로 정리하고, API 전용 모델의 비용까지 비교합니다.
양자화란?
모델 가중치의 정밀도를 낮추어 메모리와 디스크 사용량을 줄이는 기법입니다. 품질 손실은 있지만, Q4 양자화(4bit)는 FP16(16bit) 대비 약 1/4 메모리로 비슷한 성능을 유지합니다.
| 양자화 | 비트 수 | 메모리 비율 | 품질 | 사용 시점 |
|---|---|---|---|---|
| FP16 | 16bit | 100% (기준) | 최고 | GPU 여유 있을 때 |
| Q8_0 | 8bit | ~50% | 매우 좋음 | 고품질 + 메모리 절약 |
| Q4_K_M | 4bit | ~25% | 좋음 | 로컬 실행 표준 |
| Q2_K | 2bit | ~12.5% | 눈에 띄는 저하 | 극한 메모리 제한 |
대부분의 로컬 사용자는 Q4_K_M이 품질과 메모리의 최적 균형점입니다.
소형 모델 (1B~3B): 가벼운 작업용
노트북이나 저사양 PC에서도 실행 가능한 모델입니다. 간단한 요약, 번역, 챗봇에 적합합니다.
| 모델 | 파라미터 | Q4 VRAM | FP16 VRAM | Q4 디스크 | 추천 GPU |
|---|---|---|---|---|---|
| Llama 3.2 1B | 1B | ~1GB | ~3GB | ~0.7GB | 4GB GPU 이상 |
| Llama 3.2 3B | 3B | ~2.5GB | ~6GB | ~2GB | RTX 3060 8GB |
| Gemma 4 E2B | 2.3B | ~2GB | ~5GB | ~1.5GB | 4GB GPU 이상 |
| Gemma 4 E4B | 4.5B | ~4GB | ~15GB | ~3GB | 8GB GPU 이상 |
| Phi-4 Mini | 3.8B | ~2.1GB | ~7.5GB | ~2.1GB | 8GB GPU 이상 |
# Ollama로 소형 모델 바로 실행
ollama pull gemma4:e4b
ollama run gemma4:e4b "Python의 리스트와 튜플 차이를 설명해줘"
# Q4 양자화 기본 적용, VRAM ~4GB 사용
Gemma 4 E2B/E4B는 PLE(Per-Layer Embeddings) 기법으로 파라미터 효율을 극대화한 모델입니다. 128K 컨텍스트와 멀티모달(비전+오디오)을 지원하면서도 모바일·엣지 기기에서 실행 가능합니다.
중형 모델 (7B~14B): 범용 로컬 LLM
가장 인기 있는 크기대입니다. RTX 4060 Ti(16GB) ~ RTX 4090(24GB)으로 실행 가능하며, GPT-3.5급 성능을 로컬에서 얻을 수 있습니다.
| 모델 | 파라미터 | Q4 VRAM | FP16 VRAM | Q4 디스크 | 추천 GPU |
|---|---|---|---|---|---|
| Llama 3.1 8B | 8B | ~5GB | ~16GB | ~4.5GB | RTX 4060 Ti 16GB |
| Mistral 7B v0.3 | 7.3B | ~4.5GB | ~14.5GB | ~4GB | RTX 3060 12GB |
| Gemma 2 9B | 9.2B | ~5.5GB | ~18GB | ~5GB | RTX 4060 Ti 16GB |
| Qwen 2.5 7B | 7.6B | ~5GB | ~17GB | ~4.5GB | RTX 4060 Ti 16GB |
| Qwen 2.5 14B | 14.8B | ~9GB | ~30GB | ~8GB | RTX 4090 24GB |
| Phi-4 | 14B | ~8GB | ~28GB | ~8GB | RTX 4090 24GB |
# 중형 모델 실행 예시
ollama pull qwen2.5:14b
ollama run qwen2.5:14b "다음 코드의 시간복잡도를 분석해줘: def fib(n): ..."
# Q4 양자화, VRAM ~9GB, RTX 4090에서 초당 ~40토큰 생성
모델별 강점: Llama 3.1 8B는 범용 올라운더, Qwen 2.5는 다국어(한중일) 특화, Phi-4는 추론·수학에 강합니다.
Gemma 4: 2026년 최신 모델
Google이 2026년 4월 출시한 Gemma 4는 이전 세대 대비 벤치마크 성능이 대폭 향상되었습니다. 특히 26B MoE 모델은 AIME 2026 수학 벤치마크에서 89.2%(Gemma 3 27B: 20.8%), LiveCodeBench 코딩에서 80.0%(Gemma 3: 29.1%)를 기록했습니다. Apache 2.0 라이선스로 상업적 사용이 자유롭습니다.
| 특징 | Gemma 4 |
|---|---|
| 멀티모달 | 비전 + 오디오 네이티브 지원 |
| 컨텍스트 | E2B/E4B: 128K, 26B/31B: 256K |
| 언어 | 140+ 언어 지원 |
| 도구 사용 | 네이티브 함수 호출(Function Calling) |
| 라이선스 | Apache 2.0 (완전 상업용) |
대형 모델 (27B~72B): 고성능 로컬
멀티 GPU 또는 고용량 단일 GPU가 필요합니다. GPT-4에 근접하는 성능을 로컬에서 실행할 수 있습니다.
| 모델 | 파라미터 | Q4 VRAM | FP16 VRAM | Q4 디스크 | 추천 GPU |
|---|---|---|---|---|---|
| Gemma 4 26B-A4B (MoE) | 26B (3.8B 활성) | ~18GB | ~28GB (int8) | ~16GB | RTX 4070 Ti 16GB |
| Gemma 4 31B | 30.7B | ~20GB | ~34GB (int8) | ~19GB | RTX 4090 24GB |
| Qwen 2.5 32B | 32.5B | ~20GB | ~65GB | ~19GB | RTX 4090 또는 A6000 48GB |
| Llama 3.3 70B | 70B | ~43GB | ~140GB | ~40GB | 2× RTX 4090 또는 A100 80GB |
| Qwen 2.5 72B | 72.7B | ~36GB | ~144GB | ~36GB | 2× RTX 4090 또는 A100 80GB |
| Mixtral 8×7B | 46.7B (12.9B 활성) | ~26GB | ~93GB | ~26GB | RTX 4090 (Q4) |
# 70B 모델 멀티 GPU 실행
ollama pull llama3.3:70b-instruct-q4_K_M
ollama run llama3.3:70b
# Q4 양자화, VRAM ~43GB → 2× RTX 4090(48GB)로 실행 가능
Mixtral 8×7B는 MoE(Mixture of Experts) 구조로 토큰당 12.9B 파라미터만 활성화됩니다. 그러나 전체 46.7B 파라미터가 메모리에 로드되어야 하므로 VRAM은 전체 크기 기준으로 필요합니다.
초대형 모델 (100B+): 데이터센터급
소비자 PC에서는 실행이 사실상 불가능하며, 서버 클러스터나 API를 통해 사용합니다.
| 모델 | 파라미터 | Q4 VRAM | 디스크 | 필요 장비 |
|---|---|---|---|---|
| Mistral Large 2 | 123B | ~58GB | ~58GB | 멀티 GPU 또는 API |
| Llama 3.1 405B | 405B | ~230GB | ~230GB | 8× A100/H100 |
| DeepSeek V3 | 671B (37B 활성) | ~386GB | ~350GB | 8× H100 80GB |
API 전용 모델: 하드웨어 없이 사용
로컬 실행이 불가능하거나 비효율적인 경우, API를 통해 최고 성능 모델을 사용할 수 있습니다.
| 모델 | 컨텍스트 | 입력 $/백만토큰 | 출력 $/백만토큰 | 특징 |
|---|---|---|---|---|
| GPT-4o | 128K | $2.50 | $10.00 | 멀티모달(텍스트+이미지+오디오) |
| GPT-4o Mini | 128K | $0.15 | $0.60 | 저비용, 비전 지원 |
| Claude Sonnet 4.6 | 1M | $3.00 | $15.00 | 코딩 특화, 가성비 우수 |
| Claude Opus 4.6 | 1M | $5.00 | $25.00 | 최고 성능, 확장 사고 |
| Claude Haiku 4.5 | 200K | $1.00 | $5.00 | 빠른 응답, 최저가 |
| DeepSeek V3 API | 128K | ~$0.27 | ~$1.10 | 오픈소스 최강, 초저가 |
비용 절감 팁: Claude의 프롬프트 캐싱(90% 절약), 배치 API(50% 할인)를 활용하면 비용을 크게 줄일 수 있습니다.
용도별 추천 모델
| 용도 | 추천 모델 | 이유 |
|---|---|---|
| 개인 챗봇/학습 | Gemma 4 E4B, Phi-4 Mini | 저사양 PC에서 실행, 멀티모달 지원 |
| 코딩 어시스턴트 | Gemma 4 26B MoE, Qwen 2.5 14B | LiveCodeBench 80%, 코드 분석 우수 |
| 한국어 특화 | Qwen 2.5 32B/72B | CJK 다국어 성능 최고 |
| 문서 분석/RAG | Claude Sonnet 4.6 | 1M 컨텍스트, 정확한 추출 |
| 비용 최소화 | DeepSeek V3 API | 오픈소스 최강 + 초저가 API |
| 최고 품질 필요 | Claude Opus 4.6, GPT-4o | 복잡한 추론, 창작 |
정리
LLM 선택의 핵심은 내 하드웨어에 맞는 모델 크기와 용도에 맞는 모델 특성입니다. 핵심 포인트를 정리하면 다음과 같습니다.
- Q4 양자화가 로컬 실행의 표준 — FP16 대비 1/4 메모리로 실용적 품질 유지
- 8B 모델(~5GB VRAM)은 RTX 4060 Ti로 충분, 70B 모델은 2× RTX 4090 필요
- Gemma 4가 MoE 26B로 코딩/수학 벤치마크 최고 성능, Apache 2.0 라이선스
- Qwen 2.5가 한국어 포함 다국어에서 가장 강력한 오픈소스 모델
- GPU가 없다면 API 사용이 현실적 — DeepSeek V3가 최고 가성비
- MoE 모델(Mixtral, DeepSeek)은 활성 파라미터가 적어도 전체 크기만큼 VRAM 필요