哪款开源 LLM 的 HumanEval 编程得分最高？

DeepSeek Coder V2 以 90.2% 的 HumanEval 得分领跑开源模型，在所有开源模型中名列前茅。Codestral 和 CodeQwen 同样是出色的编程选择，但若追求支持多种编程语言的通用编程能力，DeepSeek Coder V2 是推荐之选。

运行 Llama 3 70B 需要多少显存（VRAM）？

Llama 3 70B 在 FP16 精度下约需 140 GB 显存（两块 A100 80GB GPU）。采用 4-bit 量化后可降至约 40 GB，可在单块 A100 40GB 或两块 RTX 4090 上运行。若用 llama.cpp 做纯 CPU 推理，量化模型至少需要 40 GB 系统内存。

我可以将开源 LLM 用于商业用途吗？

这取决于许可证。Mistral 模型采用 Apache 2.0，允许无限制的商业使用；而 Llama 3 仅允许月活跃用户低于 7 亿的应用进行商业使用。Qwen 对模型蒸馏和竞争性使用有限制，Gemma 则限制有害用途，因此在部署前请逐一审阅各模型的许可证。

哪款开源 LLM 最高效，它是如何以极低成本训练出来的？

DeepSeek V3 是最高效的模型之一，采用混合专家（Mixture of Experts）架构，总参数量为 671B，但每个 token 仅激活 37B。得益于一种新颖的无辅助损失（auxiliary-loss-free）负载均衡策略，它在 MMLU 上取得了 88.5 分，而据称训练成本仅为 560 万美元，只是西方实验室投入的零头。

哪款开源 LLM 最适合边缘与移动端部署？

Microsoft Phi-3 Mini（3.8B）是端侧 AI 的首选之一，能在智能手机上流畅运行，其质量已达到仅 18 个月前 GPT-3.5 的水平。Gemma 2 2B 和 Llama 3.2 1B 也是适用于移动端和浏览器部署的优秀轻量级选择。

开源LLM排行榜及选型指南2025：Llama、Mistral、Qwen、DeepSeek全面对比

{</* resource-info */>}

2025 年是开源大语言模型的爆发之年。从 Meta 的 Llama 3.3 到阿里巴巴的 Qwen2.5，开源模型的能力已逼近甚至在部分领域超越 GPT-4o。更重要的是，开源意味着你可以完全掌控模型——本地部署、私有微调、无 API 费用、无数据外传风险。

本文基于 LMSYS Chatbot Arena、MMLU、HumanEval 等权威 benchmark，结合社区反馈和实际部署经验，给出 2025 年最值得关注的开源模型排行与选型建议。

2025 年开源 LLM 格局概览 #

为什么开源模型正在赢得市场？ #

2025 年的开源 LLM 生态相比 2023 年发生了根本性变化：

性能逼近闭源：Llama 3.1 405B、DeepSeek V3 在多项 benchmark 上接近 GPT-4o 水平
小型模型能力飞跃：Phi-4（14B）和 Gemma 2 9B 在小参数下实现大模型级别的推理能力
多语言支持大幅提升：Qwen2.5、Llama 3.3 对中文等非英语语言的支持显著改善
推理成本大幅下降：通过 vLLM、TensorRT-LLM 等推理框架，部署成本降低 50-80%

关键 benchmark 说明 #

Benchmark	测试内容	分数范围
MMLU	57 个学科的多选题	0-100%
HumanEval	Python 编程题	0-100%
LMSYS Arena ELO	人类偏好对战评分	约 1200-1400
MT-Bench	多轮对话能力	0-10
BBH	复杂推理任务	0-100%
GPQA	研究生级科学问答	0-100%

数据来源：LMSYS Chatbot Arena、Hugging Face Open LLM Leaderboard

Meta Llama 3/3.1/3.2/3.3：开源界的标准 #

Meta 的 Llama 系列依然是 2025 年开源模型的事实标准。截至 2025 年 5 月，Llama 模型在全球的下载量已超过 7 亿次。

模型变体 #

版本	参数量	上下文长度	定位
Llama 3.2 1B/3B	1B/3B	128K	端侧/移动设备
Llama 3.1/3.3 8B	8B	128K	高效推理、消费级 GPU
Llama 3.1/3.3 70B	70B	128K	高性能、专业任务
Llama 3.1 405B	405B	128K	研究、对标 GPT-4o

关键改进（3.3 相比 3.1） #

多语言大幅提升：支持 8 种语言，其中中文理解和生成能力显著增强
工具调用增强：原生支持 function calling，JSON 输出更稳定
128K 长上下文：所有模型标配 128K 上下文窗口
推理效率优化：3B/8B 版本在边缘设备上的推理速度提升 25%

许可证 #

Llama 3 采用 Llama 3 License，允许商业使用，但月活用户超过 7 亿的公司需要申请特殊许可。绝大多数公司不受此限制。

Mistral AI：欧洲开源之光的创新之路 #

法国 Mistral AI 成立于 2023 年，凭借 Mistral 7B 的惊艳表现在开源社区迅速崛起，2025 年已成长为估值超过 60 亿美元的 AI 独角兽。

产品线概览 #

模型	参数量/架构	特点
Mistral 7B	7B	2023 年的突破之作，超越 Llama 2 13B
Mixtral 8x7B	8x7B MoE	专家混合架构，激活参数仅 13B
Mixtral 8x22B	8x22B MoE	141B 总参数，激活 39B
Mistral Large 2	123B	旗舰模型，对标 GPT-4o
Codestral 22B	22B	专注代码生成，支持 80+ 编程语言

MoE 架构的优势 #

Mixtral 采用的稀疏专家混合（Mixture of Experts）架构是其最大技术亮点：

8 个专家网络，每个 token 只激活 2 个专家
Mixtral 8x7B 总参数 47B，但激活参数仅 13B
推理速度与 13B 模型相当，但质量接近 70B 模型
显存需求大幅降低（仅需加载 2 个专家的参数）

Qwen（阿里巴巴）：中文开源模型的最强代表 #

Qwen（通义千问）是阿里巴巴达摩院开发的大模型系列，2025 年的 Qwen2.5 版本在开源社区引起了巨大反响，成为非英语开发者首选的开源模型之一。

Qwen2.5 系列 #

模型	参数量	上下文	定位
Qwen2.5 0.5B	0.5B	32K	端侧、嵌入式
Qwen2.5 1.5B	1.5B	32K	轻量级应用
Qwen2.5 7B	7.6B	128K	主力通用模型
Qwen2.5 14B	14B	128K	高级推理
Qwen2.5 32B	32.5B	128K	接近 70B 质量
Qwen2.5 72B	72B	128K	旗舰开源模型

Qwen 的核心优势 #

中文能力顶尖：在 C-Eval、CMMLU 等中文 benchmark 上持续领先
多语言覆盖：支持 29 种语言，包括中日韩阿等
代码能力突出：CodeQwen 系列在 HumanEval 上得分超过 GPT-4o mini
工具调用强大：原生支持 function calling，结构化输出稳定
长上下文：128K 标配，部分版本支持 1M 长文本

许可证 #

Qwen2.5 采用 Qwen License，允许商业使用（含 1 亿月活以下免费，以上需联系授权），比 Llama License 更宽松。

DeepSeek：性价比之王 #

DeepSeek（深度求索）是中国幻方量化旗下的 AI 公司，以极致的效率优化和开源策略在 2024-2025 年迅速崛起。

DeepSeek V3：现象级开源模型 #

参数量：671B 总参数，但每次推理仅激活 37B（MoE 架构）
训练成本：仅 557.6 万美元（使用 2048 块 H800 训练 2 个月）
性能：在 MMLU、HumanEval、MT-Bench 上接近 GPT-4o 和 Claude 3.5 Sonnet
开源：完全开源模型权重和训练细节

DeepSeek MoE 架构 #

DeepSeek 的 MoE 设计有几个独特之处：

共享专家 + 路由专家：部分参数所有 token 共享，确保基础能力
无辅助损失的负载均衡：通过偏差项动态调整专家选择概率
多 token 预测（MTP）：一次前向传播预测多个未来 token，加速推理

DeepSeek Coder V2 #

专为代码场景优化的版本，在 HumanEval 和 MultiPL-E 上表现优异：

支持 338 种编程语言
在 SWE-bench（真实软件工程任务）上得分超过 GPT-4o
16B 参数版本即可胜任大部分编程辅助任务

Google Gemma 2：轻量但强大 #

Gemma 是 Google 推出的开源模型系列，主打轻量级 + 高性能的组合。

模型	参数量	特点
Gemma 2 2B	2B	可在手机端运行，知识蒸馏自大模型
Gemma 2 9B	9B	性能接近 Llama 3 8B，但参数量更少
Gemma 2 27B	27B	性能超越 Llama 3 70B（部分任务）

Gemma 的独特价值 #

知识蒸馏：Google 用 Gemini 大模型作为教师模型训练 Gemma，小参数蕴含大智慧
Responsible AI：内置安全过滤，输出更可控
端侧部署：2B 版本可在 Pixel 手机本地运行

Microsoft Phi-4：小模型的大智慧 #

Phi 系列是微软研究的成果，核心理念是用高质量训练数据弥补参数量的不足。

Phi-4（14B）：在多项 benchmark 上超越 Llama 3 70B 和 Qwen2.5 72B
训练数据：使用"教科书级"高质量合成数据
长上下文：16K 原生上下文，可扩展到 128K
许可证：MIT 许可证——完全自由商用，无任何限制

Phi-4 证明了：数据质量比模型规模更重要。

2025 年开源 LLM 性能对比矩阵 #

综合 Benchmark 对比 #

模型	参数量	MMLU	HumanEval	MT-Bench	LMSYS ELO
GPT-4o（闭源参考）	-	88.7%	90.2%	9.20	1318
Llama 3.1 405B	405B	85.2%	89.0%	8.88	1290
DeepSeek V3	671B/37B	88.5%	92.0%	8.90	1298
Qwen2.5 72B	72B	86.1%	86.2%	8.84	1285
Mistral Large 2	123B	84.4%	84.7%	8.70	1270
Llama 3.3 70B	70B	83.5%	81.7%	8.60	1260
Phi-4	14B	84.8%	82.6%	8.40	1240
Gemma 2 27B	27B	79.6%	75.1%	8.20	1225
Llama 3.1 8B	8B	73.0%	72.6%	7.80	1180
Qwen2.5 7B	7.6B	74.2%	78.2%	8.00	1195

数据来源：各模型官方技术报告及 LMSYS Arena、Hugging Face Leaderboard。数据截至 2025 年 5 月。

显存需求与推理配置 #

模型	FP16 显存	4-bit 量化	推荐 GPU（4-bit）
Llama 3.2 3B	6GB	2GB	RTX 3060 12GB
Qwen2.5 7B	14GB	5GB	RTX 3060 12GB
Llama 3.1 8B	16GB	5GB	RTX 4060 Ti 16GB
Mistral 7B	14GB	5GB	RTX 3060 12GB
Gemma 2 9B	18GB	6GB	RTX 4060 Ti 16GB
DeepSeek V3	1342GB	380GB	8x A100 80GB
Llama 3.1 70B	140GB	40GB	A100 80GB × 1（vLLM）
Qwen2.5 72B	144GB	42GB	A100 80GB × 1（vLLM）
Llama 3.1 405B	810GB	230GB	8x A100 80GB

如何根据场景选择开源模型？ #

编程开发场景 #

推荐模型	理由
DeepSeek Coder V2	338 种语言，SWE-bench 超越 GPT-4o
CodeQwen 1.5 7B/14B	中文注释理解强，HumanEval 86%+
Codestral 22B	80+ 语言，填充补全（FIM）优秀

中文对话场景 #

推荐模型	理由
Qwen2.5 72B	中文 benchmark 持续领先，多语言 29 种
Llama 3.3 70B	多语言支持改善，社区生态最丰富
DeepSeek V3	综合能力最强，开源免费

本地部署场景 #

推荐模型	理由
Phi-4 14B	MIT 许可证，小参数高性能
Gemma 2 9B	Google 官方优化，端侧友好
Llama 3.2 3B	移动端可用，Meta 生态完善

企业级部署场景 #

推荐模型	理由
Llama 3.3 70B	生态最成熟，vLLM/TensorRT 优化完善
Qwen2.5 72B	中文场景首选，工具调用稳定
Mistral Large 2	欧洲数据合规，MoE 架构高效

模型下载与运行方式 #

Hugging Face Hub（最常用） #

h
o
n
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen2.5-7B-Instruct",
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-7B-Instruct")

Ollama（最简单的本地运行） #

a
s
h
ollama run llama3.3        # 运行 Llama 3.3
ollama run qwen2.5:7b      # 运行 Qwen2.5
ollama run deepseek-coder  # 运行 DeepSeek Coder
ollama run phi4            # 运行 Phi-4

GPT4All / LM Studio（带 UI 的本地运行） #

适合非开发者用户：

LM Studio：功能最完善的本地 LLM GUI，支持模型搜索、聊天、API 服务
GPT4All：开源免费，支持多种模型格式

云端部署（高性能推理） #

RunPod / Vast.ai：按小时租用 GPU，适合临时需求
Together AI：开源模型推理 API，按 token 计费
Fireworks AI：高速推理服务，延迟低于自托管

开源 LLM 的未来趋势 #

2025-2026 年值得关注的变化 #

开源与闭源差距继续缩小：DeepSeek V3 已证明开源模型可以达到 GPT-4o 水平
小模型能力持续提升：Phi-4、Gemma 2 证明了"小参数+高质量数据"的路径
多模态开源模型爆发：Llama 3.2 已支持视觉，更多开源多模态模型即将发布
推理优化成为焦点：量化、蒸馏、 speculative decoding 等技术让大模型更易部署
中国模型持续崛起：Qwen、DeepSeek 在国际社区的下载量和影响力快速增长

常见问题 FAQ #

2025 年最好的开源 LLM 是哪个？

没有绝对答案。综合能力最强的是 DeepSeek V3 和 Llama 3.1 405B；中文场景首选 Qwen2.5 72B；编程任务推荐 DeepSeek Coder V2；本地部署推荐 Phi-4 14B。建议根据具体任务测试后再做最终决策。

开源 LLM 可以用于商业用途吗？

大多数可以，但需注意许可证差异：

MIT 许可证（Phi-4）：完全自由，无任何限制
Apache 2.0（Qwen2.5、Gemma）：自由商用，需保留版权声明
Llama License（Llama 3）：允许商用，月活超 7 亿需特殊许可
DeepSeek License：允许商用，无用户数量限制

建议在使用前仔细阅读相应许可证条款。

编程任务选哪个开源 LLM？

推荐优先级：

DeepSeek Coder V2（16B 或 236B，根据硬件选择）
CodeQwen 1.5 7B/14B（中文代码场景特别强）
Codestral 22B（多语言代码补全优秀）

在 HumanEval 和实际 IDE 插件测试中，DeepSeek Coder V2 表现最为均衡。

开源 LLM 与 GPT-4o 的差距有多大？

2025 年的情况是：

405B/72B 级别开源模型：在 MMLU、HumanEval 等客观 benchmark 上与 GPT-4o 差距在 2-5% 以内
实际使用体验：GPT-4o 在指令遵循、多轮对话一致性上仍有优势
特定领域：DeepSeek Coder 在编程任务上已超越 GPT-4o，Qwen2.5 在中文任务上超越 GPT-4o

对于绝大多数企业应用场景，顶级开源模型已足够替代 GPT-4o。

运行 Llama 3 70B 需要什么硬件？

4-bit 量化推理：1 张 A100 80GB，或 2 张 RTX 4090（24GB×2）
vLLM 加速推理：1 张 A100 80GB 可支持约 500-1000 RPM
FP16 精度推理：2 张 A100 80GB
微调（QLoRA）：1 张 A100 40GB 或 RTX 4090 24GB

对于预算有限的团队，建议优先尝试 Qwen2.5 32B 或 DeepSeek V3 的 MoE 架构，用更少的硬件获得接近的质量。

更多模型详情可参考各模型官方页面：Meta Llama、Mistral AI、Qwen 系列、DeepSeek，以及 Hugging Face Open LLM Leaderboard 和 LMSYS Arena。

2025 年开源 LLM 格局概览 #

为什么开源模型正在赢得市场？ #

关键 benchmark 说明 #

Meta Llama 3/3.1/3.2/3.3：开源界的标准 #

模型变体 #

关键改进（3.3 相比 3.1） #

许可证 #

Mistral AI：欧洲开源之光的创新之路 #

产品线概览 #

MoE 架构的优势 #

Qwen（阿里巴巴）：中文开源模型的最强代表 #

Qwen2.5 系列 #

Qwen 的核心优势 #

许可证 #

DeepSeek：性价比之王 #

DeepSeek V3：现象级开源模型 #

DeepSeek MoE 架构 #

DeepSeek Coder V2 #

Google Gemma 2：轻量但强大 #

Gemma 的独特价值 #

Microsoft Phi-4：小模型的大智慧 #

2025 年开源 LLM 性能对比矩阵 #

综合 Benchmark 对比 #

显存需求与推理配置 #

如何根据场景选择开源模型？ #

编程开发场景 #

中文对话场景 #

本地部署场景 #

企业级部署场景 #

模型下载与运行方式 #

Hugging Face Hub（最常用） #

Ollama（最简单的本地运行） #

GPT4All / LM Studio（带 UI 的本地运行） #

云端部署（高性能推理） #

开源 LLM 的未来趋势 #

2025-2026 年值得关注的变化 #

常见问题 FAQ #

推荐基础设施 #

🔗 相关资源推荐

📦 出现在以下合集中

💬 留言讨论