어떤 오픈소스 LLM이 HumanEval 코딩 점수가 가장 높나요?

DeepSeek Coder V2는 90.2%의 HumanEval 점수로 오픈 모델 중 선두를 달리며, 모든 오픈 모델을 통틀어 최고 수준입니다. Codestral과 CodeQwen도 강력한 코딩 옵션이지만, 폭넓은 언어 지원이 필요한 범용 코딩에는 DeepSeek Coder V2를 추천합니다.

Llama 3 70B를 실행하려면 VRAM이 얼마나 필요한가요?

Llama 3 70B는 FP16에서 약 140 GB의 VRAM(A100 80GB GPU 2개)이 필요합니다. 4비트 양자화를 적용하면 약 40 GB로 줄어들어 단일 A100 40GB 또는 RTX 4090 2개에서 실행할 수 있습니다. llama.cpp를 사용한 CPU 전용 추론의 경우, 양자화된 모델에 최소 40 GB의 시스템 RAM이 필요합니다.

가장 효율적인 오픈소스 LLM은 무엇이며, 어떻게 그렇게 저렴하게 학습되었나요?

DeepSeek V3는 가장 효율적인 모델 중 하나로, 총 671B 파라미터를 갖되 토큰당 37B만 활성화하는 Mixture of Experts 아키텍처를 사용합니다. 새로운 auxiliary-loss-free 부하 분산 전략 덕분에 MMLU에서 88.5점을 기록했으며, 보고된 학습 비용은 단 560만 달러로 서구 연구소들이 지출하는 비용의 극히 일부에 불과합니다.

엣지 및 모바일 배포에 가장 적합한 오픈소스 LLM은 무엇인가요?

Microsoft Phi-3 Mini(3.8B)는 온디바이스 AI를 위한 최고의 선택지 중 하나로, 스마트폰에서 무리 없이 실행되면서도 불과 18개월 전 GPT-3.5 수준의 품질을 달성합니다. Gemma 2 2B와 Llama 3.2 1B 역시 모바일 및 브라우저 기반 배포에 적합한 강력한 경량 옵션입니다.

오픈소스 LLM 순위 및 선택 가이드 2025: Llama, Mistral, Qwen, DeepSeek 비교

Q: 오픈소스 LLM을 상업적으로 사용할 수 있나요?

라이선스에 따라 다릅니다. Mistral 모델은 Apache 2.0을 사용해 제한 없는 상업적 이용을 허용하는 반면, Llama 3는 월간 활성 사용자 7억 명 미만의 애플리케이션에 한해서만 상업적 사용을 허용합니다. Qwen은 모델 증류(distillation)와 경쟁적 사용에 제한이 있고, Gemma는 유해한 용도를 제한하므로, 배포 전에 각 모델의 라이선스를 검토하세요.

{</* resource-info */>}

2025년 현재 오픈소스 LLM은 GPT-4와 Claude 같은 폐쇄형 모델과의 격차를 빠르게 좁히고 있습니다. Meta의 Llama 3.1 405B는 특정 벤치마크에서 GPT-4를 넘어서기도 했으며, 중국의 Qwen과 DeepSeek도 놀라운 속도로 발전하고 있습니다. 이번 글에서는 현재 사용 가능한 주요 오픈소스 LLM을 종합적으로 비교하고 선택 가이드를 제공합니다.

2025년 오픈소스 LLM 환경 #

오픈소스 모델이 주목받는 이유 #

데이터 주권: 기업 데이터가 외부 API로 유출되지 않음
비용 효율성: 장기적으로 API 호출 비용보다 저렴
맞춤화: 파인튜닝으로 자사 업무에 최적화 가능
라이선스 유연성: 상용 배포 가능한 모델 증가

핵심 벤치마크 지표 #

벤치마크	평가 내용
MMLU	57개 과목의 대학 수준 지식
HumanEval	Python 코드 생성 능력
MT-Bench	다중 턴 대화 품질
MATH	수학 문제 해결 능력
GPQA	전문가 수준 과학 질의응답

LLM 리더보드 읽는 법 #

Hugging Face Open LLM Leaderboard: 평균 벤치마크 순위
LMSYS Chatbot Arena: 인간 선호도 기반 ELO 점수
OpenCompass: 다중 벤치마크 종합 평가

Meta Llama 3/3.1/3.2: 오픈소스 표준 #

모델 변종 #

모델	파라미터	MMLU	VRAM 필요	용도
Llama 3.2	1B, 3B	49.3	2~6GB	모바일, 엣지
Llama 3.1	8B	69.4	16GB	일반 대화, 파인튜닝
Llama 3.1	70B	83.6	140GB	고성능 업무
Llama 3.1	405B	85.2	810GB	최고 성능

주요 기능과 개선점 #

확장된 컨텍스트: 8B/70B 모델 128K 토큰 컨텍스트 지원
다국어: 8개 언어로 사전 학습(영어, 스페인어, 힌디어, 중국어 등)
도구 사용: 함수 호출 네이티브 지원

라이선스 #

Llama 3.1 Community License로, 월간 사용자 7억 명 이하 기업은 상용 사용 가능합니다.

Mistral AI: 유럽의 자존심 #

Mistral 7B의 유산 #

2023년 9월 공개된 Mistral 7B는 당시 동급 모델 중 최고의 성능으로 오픈소스 LLM 시장에 큰 반향을 일으켰습니다.

Mixtral 8x7B, 8x22B (MoE) #

Mixture of Experts(MoE) 아키텍처로, 추론 시 필요한 전문가 레이어만 활성화합니다. 8x7B는 47B 파라미터 중 추론 시 약 13B만 사용해 고효율을 달성합니다.

Mistral Large와 Codestral #

Mistral Large 2: 123B 파라미터, GPT-4 수준의 성능
Codestral: 22B 파라미터 코드 전용 모델, 80+ 프로그래밍 언어 지원

Qwen (Alibaba): 중국이 낳은 라이징 스타 #

Qwen2.5 시리즈 #

2024년 9월 발표된 Qwen2.5는 0.5B부터 72B까지 총 10개 크기로 공개되었습니다.

모델	MMLU	특징
Qwen2.5-7B	70.6	동급 최고 성능
Qwen2.5-14B	77.4	중급 서버용 최적
Qwen2.5-72B	84.5	GPT-4 수준
QwQ-32B	90.6	추론 특화

다국어 능력 #

Qwen은 중국어, 영어, 일본어, 한국어, 프랑스어, 스페인어, 독일어, 아랍어 등 29개 언어를 지원합니다. 특히 중국어와 영어 코드 전환 능력이 뛰어납니다.

CodeQwen #

CodeQwen 1.5 7B는 HumanEval에서 83.5%를 기록해 동급 모델 중 최고의 코드 생성 능력을 보여줍니다.

라이선스 #

Qwen2.5는 Apache 2.0 라이선스로 완전한 상용 사용이 가능합니다.

DeepSeek: 효율과 성능의 조화 #

DeepSeek V3 #

2024년 12월 공개된 DeepSeek V3는 671B 파라미터 MoE 모델로, 추론 시 약 37B만 활성화됩니다. MMLU 87.1%로 GPT-4o에 근접하는 성능을 보여줍니다.

DeepSeek MoE 아키텍처 #

Fine-Grained MoE와 Shared Expert Isolation 기법으로 동급 MoE 대비 2배 이상의 효율을 달성했습니다.

DeepSeek Coder V2 #

Aider 코드 편집 벤치마크에서 73.6%를 기록, Claude 3.5 Sonnet과 동급의 코드 능력을 보여줍니다.

Google Gemma: 가볍고 접근성 높은 모델 #

Gemma 2 #

모델	파라미터	MMLU	용도
Gemma 2	2B	52.9	모바일, IoT
Gemma 2	9B	71.6	중급 태스크
Gemma 2	27B	78.3	고성능 로컬

Gemma는 동급 크기에서 최고 수준의 성능을 보여주며, 특히 소형 버전의 효율성이 돋보입니다.

Microsoft Phi: 작지만 강력한 모델 #

Phi-4 (2024년 12월) #

14B 파라미터로 MMLU 82.6%를 기록, 기존 70B급 모델에 버금가는 성능을 보여줍니다.

학습 데이터 품질: 합성 데이터와 필터링된 고품질 데이터로 학습
엣지 및 모바일 배포: 소형 크기로 엣지 디바이스에 최적
수학 및 추론: 특히 수학 벤치마크에서 뛰어난 능력

성능 종합 비교 매트릭스 #

모델	파라미터	MMLU	HumanEval	MT-Bench	VRAM
Llama 3.1	405B	85.2	89.0	9.2	810GB
DeepSeek V3	671B (MoE)	87.1	92.0	8.9	80GB
Qwen2.5	72B	84.5	86.0	8.8	144GB
Mistral Large 2	123B	84.0	84.5	8.9	240GB
Llama 3.1	70B	83.6	81.7	8.6	140GB
Phi-4	14B	82.6	82.0	8.4	28GB
Qwen2.5	14B	77.4	79.5	8.0	28GB
Llama 3.1	8B	69.4	72.6	7.4	16GB
Mistral 7B	7B	64.0	65.0	7.3	14GB
Qwen2.5	7B	70.6	78.0	7.8	14GB

VRAM은 4비트 양자화 기준이며, MoE 모델은 추론 시 활성화된 파라미터 기준입니다.

사용 사례별 최적 모델 선택 #

사용 사례	추천 모델	이유
코딩	DeepSeek Coder V2, Codestral	코드 벤치마크 최상위
챗봇/대화	Llama 3.1 70B, Qwen2.5 72B	MT-Bench 고득점
로컬 배포	Mistral 7B, Qwen2.5 7B, Phi-4	VRAM 대비 성능 우수
엔터프라이즈	Llama 3.1 70B, Mistral Large 2	라이선스 안정성, 지원
모바일/엣지	Gemma 2 2B, Llama 3.2 1B	초소형 크기
파인튜닝	Llama 3.1 8B, Qwen2.5 7B	생태계, 문서 풍부

모델 다운로드 및 실행 방법 #

Hugging Face Hub: transformers 라이브러리로 직접 로드
Ollama: ollama run llama3.1 명령으로 로컬 실행
GPT4All / LM Studio: GUI 기반 로컬 실행 도구
클우드: RunPod, Together AI에서 GPU 인스턴스로 배포

오픈소스 LLM의 미래 #

2025년 주요 트렌드 #

추론 모델 확산: o1처럼 사고 과정을 거치는 모델(QwQ, DeepSeek-R1) 증가
소형 모델 고성능화: 7B 모델이 과거 70B 수준으로 진화
MoE 아키텍처 대중화: Mixtral, DeepSeek의 성공으로 MoE가 표준화
다국어 지원 강화: 영어 중심에서 글로벌 언어 지원으로 확대

오픈과 폐쇄 모델의 격차 #

2024년 말 기준, 최상위 오픈소스 모델(Llama 3.1 405B, DeepSeek V3)은 GPT-4o 수준에 근접했습니다. 하지만 최신 폐쇄형 모델(GPT-4.5, Claude 3.5 Opus)과는 아직 5~10% 정도의 격차가 존재합니다.

자주 묻는 질문 #

2025년 최고의 오픈소스 LLM은 무엇인가요?

용도에 따라 다릅니다. 전반적인 성능은 DeepSeek V3와 Llama 3.1 405B가 선두입니다. 코딩에는 DeepSeek Coder V2, 로컬 실행에는 Qwen2.5 7B가 추천됩니다.

오픈소스 LLM을 상업적으로 사용할 수 있나요?

모델별로 다릅니다. Qwen2.5(Apache 2.0), Mistral(Apache 2.0), Gemma(Gemma License)는 상용 사용 가능합니다. Llama 3.1은 월 7억 사용자 이하 기업에게 상용 허가를 부여합니다.

코딩에 가장 적합한 오픈소스 LLM은 무엇인가요?

DeepSeek Coder V2와 Codestral이 HumanEval, Aider 벤치마크에서 최고 성능을 보여줍니다. Llama 3.1 70B도 우수한 범용 코드 능력을 갖추고 있습니다.

오픈소스 LLM은 GPT-4와 얼마나 차이가 나나요?

2025년 기준 최상위 오픈소스 모델은 GPT-4o의 90~95% 수준의 성능을 보여줍니다. 특정 벤치마크(MMLU, 코드 생성)에서는 오히려 더 나은 결과를 내기도 합니다.

Llama 3 70B를 실행하려면 어떤 하드웨어가 필요한가요?

FP16 기준으로 140GB VRAM이 필요합니다. 4비트 양자화 시 약 40GB로 단일 A100 40GB 또는 RTX 4090 2대로 실행 가능합니다. vLLM이나 TGI와 같은 서빙 엔진을 사용하면 효율이 더욱 향상됩니다.

오픈소스 LLM 순위 및 선택 가이드 2025: Llama, Mistral, Qwen, DeepSeek 비교

2025년 오픈소스 LLM 환경 #

오픈소스 모델이 주목받는 이유 #

핵심 벤치마크 지표 #

LLM 리더보드 읽는 법 #

Meta Llama 3/3.1/3.2: 오픈소스 표준 #

모델 변종 #

주요 기능과 개선점 #

라이선스 #

Mistral AI: 유럽의 자존심 #

Mistral 7B의 유산 #

Mixtral 8x7B, 8x22B (MoE) #

Mistral Large와 Codestral #

Qwen (Alibaba): 중국이 낳은 라이징 스타 #

Qwen2.5 시리즈 #

다국어 능력 #

CodeQwen #

라이선스 #

DeepSeek: 효율과 성능의 조화 #

DeepSeek V3 #

DeepSeek MoE 아키텍처 #

DeepSeek Coder V2 #

Google Gemma: 가볍고 접근성 높은 모델 #

Gemma 2 #

Microsoft Phi: 작지만 강력한 모델 #

Phi-4 (2024년 12월) #

성능 종합 비교 매트릭스 #

사용 사례별 최적 모델 선택 #

모델 다운로드 및 실행 방법 #

오픈소스 LLM의 미래 #

2025년 주요 트렌드 #

오픈과 폐쇄 모델의 격차 #

자주 묻는 질문 #

참고 자료 #

추천 인프라 #

📦 다음 컬렉션에 포함됨

💬 댓글 토론

2025년 오픈소스 LLM 환경 #

오픈소스 모델이 주목받는 이유 #

핵심 벤치마크 지표 #

LLM 리더보드 읽는 법 #

Meta Llama 3/3.1/3.2: 오픈소스 표준 #

모델 변종 #

주요 기능과 개선점 #

라이선스 #

Mistral AI: 유럽의 자존심 #

Mistral 7B의 유산 #

Mixtral 8x7B, 8x22B (MoE) #

Mistral Large와 Codestral #

Qwen (Alibaba): 중국이 낳은 라이징 스타 #

Qwen2.5 시리즈 #

다국어 능력 #

CodeQwen #

라이선스 #

DeepSeek: 효율과 성능의 조화 #

DeepSeek V3 #

DeepSeek MoE 아키텍처 #

DeepSeek Coder V2 #

Google Gemma: 가볍고 접근성 높은 모델 #

Gemma 2 #

Microsoft Phi: 작지만 강력한 모델 #

Phi-4 (2024년 12월) #

성능 종합 비교 매트릭스 #

사용 사례별 최적 모델 선택 #

모델 다운로드 및 실행 방법 #

오픈소스 LLM의 미래 #

2025년 주요 트렌드 #

오픈과 폐쇄 모델의 격차 #

자주 묻는 질문 #

참고 자료 #

추천 인프라 #

🔗 관련 리소스

📦 다음 컬렉션에 포함됨

💬 댓글 토론