lang: zh slug: ollama title: ‘Ollama:超过 137K 星 — 使用一个命令在本地运行法学硕士’ description: ‘Ollama 是在本地运行 Llama、DeepSeek、Mistral 和其他 LLM 的最简单方法。 兼容 LangChain、OpenWebUI、Continue.dev 和 Dify。 涵盖 Docker 设置、模型文件自定义、REST API、生产强化和性能基准测试。’ tags: [“guide”, “local”, “offline”, “open-source”, “privacy”, “reference”, “tutorial”] date: 2026-05-19 00:00:00+08:00 lastmod: 2026-05-19 00:00:00+08:00 tech_stack: [] application_domain: Llm Frameworks source_version: ’' licensing_model: Open Source license_type: MIT file_size: ’' file_md5: ’' download_url: ’' backup_url: ’' github_repo: ‘https://github.com/ollama/ollama' last_maintained: ‘2026-05-19’ draft: false categories: [’llm-frameworks’] aliases:- /帖子/ollama/ featureImage: /images/articles/3bb42f32-ollama-studio-which-local-llm.png

  • /resources/llm-frameworks/ollama-local-llm-guide/
  • /posts/ollama-local-llm-guide/ 常见问题解答:
  • q:“使用 Ollama 运行 7B 参数模型需要多少 VRAM?” a:“Q4_K_M 量化 7B 模型大约需要 4.5-5 GB VRAM,而 Q8 量化需要 7-8 GB。 仅 CPU 推理适用于 16 GB 系统 RAM,但运行速度慢约 3-5 倍。
  • q:“我可以在没有 GPU 的情况下运行 Ollama 吗?” ‘是的。 Ollama 通过 llama.cpp 自动回退到 CPU 推理。 Intel i7-13700K 在 7B Q4 型号上生成约 8-12 tok/s,Apple M3 Pro 使用 CPU/神经引擎可达到约 25 tok/s。
  • q: ‘Ollama 有内置 API 密钥身份验证吗?’ ’ ‘不。 Ollama 假设有一个受信任的本地网络,并且不提供内置身份验证。 对于面向互联网的部署,您必须添加一个身份验证层,例如反向代理、API 网关或 VPN。
  • 问:“我可以在 Ollama 中使用我自己的微调模型吗?” ‘是的。 将模型转换为 GGUF 格式,然后使用 FROM ./your-model.gguf 编写模型文件并运行 ollama create my-model -f Modelfile。 然后它就可以通过标准 REST API 来使用。
  • q:“在为许多并发用户提供服务方面,Ollama 与 vLLM 相比如何?” a:“Ollama 使用 FIFO 队列按顺序处理请求,因此在 50 个并发用户下,p99 延迟约为 25 秒,而 vLLM 约为 3 秒”。 vLLM 的连续批处理可提供约 6 倍的总吞吐量,因此,一旦您服务的并发用户超过 5 个以上,请选择 vLLM。 特征图片:/images/articles/llm-frameworks-ollama-137k-3afef6.jpg——{{< 资源信息 >}} Ollama vs LM Studio vs llama.cpp vs vLLM 2026实际:70,410 GitHub Stars过去,运行大型语言模型意味着要与 Python 环境、CUDA 驱动程序和数十亿字节的依赖项进行斗争。 In 2026, that friction is gone. Ollama 让您可以使用单个命令拉取、配置和提供生产级 LLM - 无需安装 PyTorch,无需手动 GPU 调整,无需强制使用 Docker。 Ollama 拥有超过 173,950 名 GitHub 明星和蓬勃发展的集成生态系统,已成为希望进行本地推理而无需遇到操作难题的开发人员的默认运行时。本指南将介绍完整的 Ollama 设置:安装、Docker 部署、模型文件自定义、与流行框架的 API 集成、生产强化以及针对替代方案的诚实基准测试。 无论您是构建编码助手、RAG 管道还是自托管 ChatGPT 替代方案,本教程都会为您提供命令和配置,让您在五分钟内从零开始运行模型。
    Ollama 在本地运行
    本 Ollama 教程在一个指南中涵盖了从安装到生产部署的完整设置。## 奥拉玛是什么?Ollama 是一个用于在本地运行大型语言模型的开源运行时。 它将推理引擎(用于 CPU/GPU 的 llama.cpp、Apple Silicon 上的 MLX、A​​MD 上的 ROCm)封装在简单的 CLI 和 REST API 后面,因此开发人员可以专注于构建应用程序,而不是管理模型权重、量化格式和硬件加速。 将其视为法学硕士的 Docker:提取模型,运行它,完成。该项目由 Jeffrey Morgan 和 Ollama 团队于 2023 年创建,到 2026 年中期在 GitHub 上的星数已超过 173,950 颗。 它支持数百种模型,包括 Llama 3、DeepSeek R1、Mistral、Qwen、Gemma 和 CodeLlama - 所有这些都可以通过 Ollama 模型库 获得。
    Ollama 官方标志
    ## 奥拉玛的工作原理Ollama 的体系结构遵循客户端-服务器模型。 后台守护进程(“ollamaserve”)管理模型下载、内存分配和推理。 CLI 和 REST API 是瘦客户端,通过端口 11434 上的 HTTP 与此守护程序进行通信。### 核心架构┌──────────────┐ ┐──────────────┐ ┌──────────────────┐ │ 客户端 │────▶│ ollama 服务 │────▶│ llama.cpp/MLX │ │ (CLI/API) │ │ (端口 │ │ (推理 │ │ │◄────│ 11434) │◄────│ 后台) │ └──────────────┘ └────────────┘ └──────────────────┘ │ ┌──────┴──────┐ │ ~/.llama/ │ │(型号,│ │ 斑点) │ └──────────────┘关键部件:- 模型中心:从 ollama.com 中提取的精选 GGUF 模型。 每个模型都由“name:tag”对标识(例如“llama3.2:8b”)。
  • Modelfile:声明性配置(如 Dockerfile),指定基本模型、系统提示、参数和聊天模板。
  • 推理后端:根据可用硬件自动选择 llama.cpp (CUDA/ROCm/CPU)、MLX (Apple Silicon) 或 Metal。
  • REST API:“/api/generate”、“/api/chat”、“/api/embed”和“/v1/chat/completions”处的 OpenAI 兼容端点。### 模型存储模型作为内容可寻址 blob(SHA-256 摘要)存储在“~/.ollama/models/”中。 清单文件跟踪哪些 blob 属于哪个模型标签。 这种重复数据删除意味着共享相同基本权重的两个模型仅在磁盘上存储一份副本。## 安装和设置### macOS```` bas h
使用自制程序(推荐) #

酿造安装奥拉马# 或者从 ollama.com/download 下载本机应用程序 ### Linux(单行安装程序) bas h 卷曲-fsSL https://ollama.com/install.sh | 嘘 ````这将安装二进制文件、注册 systemd 服务并自动检测 GPU 功能(NVIDIA CUDA、AMD ROCm 或仅 CPU)。### 窗口从 ollama.com/download 下载安装程序。 建议使用带有 WSL2 的 Windows 11/12 以实现完全兼容。### 验证安装``` bas h

使用自制程序(推荐) #

酿造安装奥拉马

或者从 ollama.com/download 下载本机应用程序 #

``拉动并运行你的第一个模型 llama 运行 llama3.2:8b ````第一次运行模型时,Ollama 会下载它。 量化8B参数模型li``` bas h 卷曲-fsSL https://ollama.com/install.sh | 嘘

ac
e
并且可以在 8 GB VRAM 上舒适地运行。### 通过硬件快速选型| 硬件| 推荐型号 | 命令 |
|----------|------------------|---------|
| 6–8 GB 显存 | Qwen3 8B | `ollama 运行 qwen3:8b` |
| 10–12 GB 显存 | 骆驼 3.1 8B Q4 | `ollama 运行 llama3.1:8b` |
| 16+ GB 显存 | DeepSeek-R1 14B | `ollama 运行 deepseek-r1:14b` |
| 仅 CPU,16 GB R```
bas
h
乌拉马——版本
# 乌拉玛版本 0.6.7

# 启动守护进程(如果尚未运行)
乌拉马服务

# 拉取并运行你的第一个模型
llama 运行 llama3.2:8b

UI (ChatGPT 风格的界面)Open WebUI 是 Ollama 最受欢迎的前端,提供类似 ChatGPT 的 Web 界面,具有 RAG、语音输入和多用户支持。```` bas h

使用 Docker 运行 Open WebUI #

docker运行-d -p 3000:8080
–add-host=host.docker.internal:主机网关
-v open-webui:/app/backend/data
–名称 open-webui
–始终重新启动
ghcr.io/open-webui/open-webui:main 通过“http://localhost:3000”访问。 打开 WebUI 自动发现位于“http://host.docker.internal:11434”的 Ollama 实例。### 浪链(Python)蟒蛇

安装 #

pip 安装 langchain-ollama# 聊天模型 从 langchain_ollama 导入 ChatOllamallm = ChatOllama( 模型=“llama3.2:8b”, 温度=0.7, base_url =“http://localhost:11434” )response = llm.invoke(“用一段话解释量子计算。”) 打印(响应.内容)# 嵌入 从 langchain_ollama 导入 OllamaEmbeddingsembeddings = OllamaEmbeddings(model=“nomic-embed-text”) vector = embeddings.embed_qu``` bas h

Run Open WebUI with Docker #

docker run -d -p 3000:8080
–add-host=host.docker.internal:host-gateway
-v open-webui:/app/backend/data
–name open-webui
–restart always
ghcr.io/open-webui/open-webui:main

m
a
",
      "model": "llama3.2:8b",
      "apiBase": "http://localhost:11434"
    }
  ],
  "tabAutocompleteModel": {
    "title": "CodeQwen",
    "provider": "ollama",
    "model": "codeqwen:7b-code"
  }
}
```### Dify(自托管人工智能工作流程平台)在 Dify 的 **设置 > 模型提供程序 > Ollama** 中,配置:````
 型号名称: llama3.2:8b
 基本 URL:http://host.docker.```
pytho
n
# 安装
 pip 安装 langchain-ollama

 # 聊天模型
 从 langchain_ollama 导入 ChatOllama

 llm = ChatOllama(
 模型=“llama3.2:8b”,
 温度=0.7,
 base_url =“http://localhost:11434”
 )

 response = llm.invoke("用一段话解释量子计算。")
 打印(响应.内容)

 # 嵌入
 从 langchain_ollama 导入 OllamaEmbeddings

 嵌入 = OllamaEmbeddings(model="nomic-embed-text")
 矢量 = embeddings.embed_query("你好世界")
 # 返回一个768维的浮点向量
 ``434/api/embed -d '{
 “模型”:“经济嵌入文本”,
 "input": ["天是蓝的", "草是绿的"]
 }'
 ````## 生产环境的 Docker 设置![Ollama Docker 部署](https://raw.githubusercontent.com/ollama/ollama/main/docs/images/logo.png)### 基本 Docker 组合````
yam
l
# docker-compose.yml
 版本:“3.8”服务:
 乌拉马:
 图片:ollama/ollama:0.6.7
 容器名称:ollama
 端口:
 - “11434:11434”
 卷:
 - ollama_data:/root/.ollama
 环境:
 - OLLAMA_KEEP_ALIVE=24小时
 - OLLAMA_NUM_PARALLEL=4
 - OLLAMA_MAX_LOADED_MODELS=2
 重新启动```
jso
n
{
 “模型”:[
 {
 "title": "骆驼 3.2",
 “提供者”:“奥拉马”,
 "型号": "llama3.2:8b",
 “apiBase”:“http://localhost:11434”
 }
 ],
 “tabAutocompleteModel”:{
 "title": "CodeQwen",
 “提供者”:“奥拉马”,
 “型号”:“codeqwen:7b-代码”
 }
 }
 ````布伊
端口:
 - “3000:8080”
 环境:
 - OLLAMA_BASE_URL=http://ollama:11434
 卷:
 - openwebui_data:/应用程序/后端/数据
 取决于:
 - 乌拉马
 重新启动:除非停止卷:
 ollama_数据:
 openwebui_data:
 ````从“docker compose up -d”开始。### NVIDIA GPU 设置````
bas
h
# 安装 NVIDIA 容器工具包
 卷曲-fsSL https://nvidia.github。```
 型号名称: llama3.2:8b
 基本网址:http://host.docker.internal:11434
 上下文窗口:8192

oolkit -keyring.gpg卷曲-s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list
| se``` bas h

生成文本 #

卷曲 http://localhost:11434/api/generate -d ‘{ “型号”: “llama3.2:8b”, “prompt”: “为什么天空是蓝色的?”, “流”:假 }’

聊天完成(兼容 OpenAI) #

卷曲 http://localhost:11434/v1/chat/completions -H“内容类型:application/json”-d ‘{ “型号”: “llama3.2:8b”, “messages”: [{“role”: “user”, “content”: “Hello!”}], “温度”:0.7 }’

生成嵌入 #

卷曲 http://localhost:11434/api/embed -d ‘{ “模型”:“经济嵌入文本”, “input”: [“天是蓝的”, “草是绿的”] }’

````### Multi-Model Concurrent Serving````
yam
l
服务:
乌拉马:
图片:ollama/ollama:0.6.7
环境:
- OLLAMA_NUM_PARALLEL=4 # 4 个并发请求
- OLLAMA_MAX_LOADED_MODELS=2 # 在 VRAM 中保留 2 个模型
- OLLAMA_KEEP_ALIVE=30m # 空闲30分钟后卸载
部署:
资源:
预订:
设备:
- 驱动程序:nvidia
计数:全部
能力:[GPU]
````## 模型文件:自定义模型模型文件是 Ollama 的声明性配置格式。 它定义了模型的行为方式:系统提示、采样参数、上下文窗口和聊天模板。### Ba```
yam
l
# docker-compose.yml
版本:“3.8”

服务:
乌拉马:
图片:ollama/ollama:0.6.7
容器名称:ollama
端口:
- “11434:11434”
卷:
- ollama_data:/root/.ollama
环境:
- OLLAMA_KEEP_ALIVE=24小时
- OLLAMA_NUM_PARALLEL=4
- OLLAMA_MAX_LOADED_MODELS=2
重新启动:除非停止
# NVIDIA GPU 支持
部署:
资源:
预订:
设备:
- 驱动程序:nvidia
计数:全部
能力:[GPU]

打开网络用户界面:
图片:ghcr.io/open-webui/open-webui:main
容器名称:open-webui
端口:
- “3000:8080”
环境:
- OLLAMA_BASE_URL=http://ollama:11434
卷:
- openwebui_data:/应用程序/后端/数据
取决于:
- 乌拉马
重新启动:除非停止

卷:
ollama_数据:
openwebui_data:

ior -dev –modelfile ````### 高级:代码审查助手``` dockerfil e

Modelfile.code-review #

来自 codellama:7b 代码系统“”“您是代码审查助理。分析所提供的代码: 1.错误和逻辑错误 2.安全漏洞(SQL注入、XSS、缓冲区溢出) 3.性能问题(N+1查询,不必要的分配) 4. 风格和可读性将您的回复格式设置为:

  • [严重] 错误/安全
  • [警告]性能
  • [INFO] 风格建议始终建议修复 [CRITICAL] 和 [WARN] 项目。“““参数温度0.1 参数 num_ctx 8192 参数 num_predict 2048
bas
h
ollama 创建代码审查器 -f Modelfile.code-review
````### 从本地 GGUF 文件创建```
dockerfil
e
# 模型文件.local
来自./my-fine-tuned-model-q4_k_m.gguf参数温度0.7
参数 num_ctx 4096系统“你是一个专门研究医学术语的有用助手``bash
# 安装 NVIDIA 容器工具包
卷曲-fsSL https://nvidia.github.io/libnvidia-container/gpgkey \
| sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg

卷曲-s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list \
| sed 's#deb https://#deb [签名者=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' \
| sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

sudo apt-get 更新
sudo apt-get install -y nvidia-container-toolkit
sudo nvidia-ctk 运行时配置 --runtime=docker
sudo systemctl 重新启动 docker
``最小 |
| llama.cpp (CLI) | Q4_K_M | ~65 托克/秒 | 约 5 分钟 |
| 本地人工智能 | Q4_K_M | ~38 托克/秒 | 约 15 分钟 |*来源:SitePoint 基准测试,2026 年 3 月。单流生成,256 个令牌输出。*### 并发负载(50 个用户,RTX 4090)| Tool | Aggregate tok/s | p99 Latency | Architecture |
|------|----------------|-------------|--------------|
| Ollama | ~155 tok/s | ~24.7s | FIFO queue |
| vLLM | ~920 tok/s | ~2.8s | Continuous batching |
| llama.cpp server | ~140 tok/s | ~26s | FIFO queue |
| LocalAI | ~130 tok/s | ~28s | FIFO queue |*Ollama 按顺序处理请求; vLLM 的连续批处理在并发负载下提供 6 倍的吞吐量。 对于单用户开发```
yam
l
服务:
乌拉马:
图片:ollama/ollama:rocm
设备:
- /dev/kfd
- /dev/dri
组添加:
- 视频
环境:
- HSA_OVERRIDE_GFX_VERSION=11.0.0
``2s |
| 法学硕士 | 400 MB | 5.5 GB | 5.5 GB 5秒|
| 本地人工智能 | 400 MB | 5.5 GB | 5.5 GB 8 秒 |
| LM工作室| 800 MB | 5.8GB| 5秒|### 现实世界的部署模式1. **个人开发者**:Ollama + Continue.dev 用于人工智能辅助编码。 纬度```
yam
l
服务:
乌拉马:
图片:ollama/ollama:0.6.7
环境:
- OLLAMA_NUM_PARALLEL=4 # 4 个并发请求
- OLLAMA_MAX_LOADED_MODELS=2 # 在 VRAM 中保留 2 个模型
- OLLAMA_KEEP_ALIVE=30m # 空闲30分钟后卸载
部署:
资源:
预订:
设备:
- 驱动程序:nvidia
计数:全部
能力:[GPU]
``n 硬化### 环境变量````
bas
h
# 核心设置
OLLAMA_HOST=0.0.0.0:11434 # 绑定到所有接口
OLLAMA_KEEP_ALIVE=24h # 保持模型加载 24 小时
OLLAMA_NUM_PARALLEL=4 # 最大并发请求数
OLLAMA_MAX_LOADED_MODELS=2 # VRAM 中同时存在的最大模型数
OLLAMA_FLASH_ATTENTION=1 # 启用 Flash Attention(更快的推理)# 性能调整
OLLAMA_GPU_OVERHEAD=200MB # 保留 VRAM 净空
OLLAMA_DEBUG=1 # 详细日志记录
````### 使用 Nginx 进行反向代理````
ngin
x
服务器{
监听 443 ssl http2;
server_na```
dockerfil
e
# 模型文件
来自 llama3.2:8b

# 系统提示定义个性
SYSTEM“”“你是一名高级软件工程师。简洁一点,
实用,并且始终包含工作代码示例。"""

# 参数调整
参数温度0.3
参数 num_ctx 16384
参数 top_p 0.9
参数repeat_penalty 1.1
参数停止“<|eot_id|>”

# 自定义模板(可选 - 如果省略则从基础继承)
模板 """{{ if .System }}<|start_header_id|>system<|end_header_id|>

{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>

{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>助理<|end_header_id|>

{{ .Response }}<|eot_id|>"""
`` 推论
proxy_read_timeout 600s;
proxy_send_timeout 600s;
}
}
````### API 密钥身份验证(无本机支持)Ollama 不包含内置 API 密钥身份验证。 通过反向代理添加它:````蟒蛇
#ollama-auth-proxy.py(Flask 示例)
从烧瓶进口烧瓶,请求,响应
导入请求应用程序=烧瓶(__名称__)
OLLAMA_URL = "http://localhost:11434"
VALID_KEYS = {“在此处询问您的 api 密钥”}@app.route('/', defaults={'path': ''},methods=['GET', 'POST', 'PUT', 'DELETE'])
@app.route('/<路径:路径>',methods=['GET', 'POST', 'PUT', 'DELETE'])
默认代理(路径):
api_key = request.headers.get('授权', '').replace('承载', '')
如果 api```
bas
h
# 创建自定义模型
ollama 创建高级开发-f 模型文件

# 运行它
ollama 运行高级开发人员

# 查看有效的Modelfile
ollama 显示高级开发 --modelfile
``` headers={k: v for k, v in request.headers if k != 'Host'},
数据=请求.get_data(),
流=真
)
返回响应(resp.iter_content(chunk_size = 1024),status = resp.status_code```
dockerfil
e
# Modelfile.code-review
来自 codellama:7b 代码

系统“”“您是代码审查助理。分析所提供的代码:
1.错误和逻辑错误
2.安全漏洞(SQL注入、XSS、缓冲区溢出)
3.性能问题(N+1查询,不必要的分配)
4. 风格和可读性

将您的回复格式设置为:
- [严重] 错误/安全
- [警告]性能
- [INFO] 风格建议

始终建议修复 [CRITICAL] 和 [WARN] 项目。"""

参数温度0.1
参数 num_ctx 8192
参数 num_predict 2048
```,使用 Prometheus 导出器包装 `api/ps` 端点,或者使用具有内置指标的 [ollamaMQ](https://github.com/Chleba/ollamaMQ) 代理。### 系统服务 (Linux)````
in
i
# /etc/systemd/system/ollama.service
[单位]
描述=Ollama LLM 服务
After=网络在线.target[服务]
ExecStart=/usr/local/bin/ollama 服务
用户=ollama
组=ollama
重新启动=始终
重启秒=3
环境=“OLLAMA_HOST=0.0.0.0:11434”
环境=“OLLAMA_NUM_PARALLEL=4”
环境=“OLLAMA_KEEP_ALIVE=24小时”[安装]
WantedBy=default.target

bas h sudo systemctlbas h ollama 创建代码审阅者 -of Modelfile.code-review ``t olama ````## 与替代方案的比较| 特色| 奥拉玛 | 骆驼.cpp | 法学硕士 | LocalAI dockerfil e

模型文件.local #

来自./my-fine-tuned-model-q4_k_m.gguf

参数温度0.7 参数 num_ctx 4096

系统“你是一位专门研究医学术语的有用助手。” ``~65 (Q4) | ~71 (FP16) | ~38(第四季度)| | 多用户批处理 | 先进先出队列 | 先进先出队列 | 连续 | 先进先出队列 | | 50 个用户聚合 | ~155 托克/秒 | ~140 托克/秒 | ~920 托克/秒 | ~130 tok/s |``` bas h ollama 创建 med-assistant -f Modelfile.local

| **模型文件/Dockerfile** | 是的 | 没有 | 没有 | 没有 |
| **兼容 OpenAI API**```
bas
h
# 显示模型详细信息和模型文件
llama 显示 llama3.2:8b --modelfile

# 仅显示参数
llama 显示 llama3.2:8b --参数

# 显示系统提示
llama 显示 llama3.2:8b --system

# 列出所有本地模型
乌拉马名单

# 显示正在运行的模型
乌拉马 PS
```
RT
X
4090 上的 3.1 8B,2026 年 3 月。来源:SitePoint、TowardsAI、LocalAI Master。*### 何时选择什么- **Ollama**:从这里开始。 最佳的开发人员体验、最快的设置、出色的单用户性能。 用于本地开发、小团队部署和边缘设备。 
- **llama.cpp**:选择是否需要对推理参数、自定义内核或低级优化进行最大程度的控制。 适合从源代码编译的嵌入式系统。 
- **vLLM**:在为具有 SLA 要求的 5 个以上并发用户提供服务时选择。 连续批处理和 PagedAttention 可提供 Ollama 无法在规模上匹敌的生产级吞吐量。 
- **LocalAI**:选择是否需要支持图像生成(稳定扩散)、语音转文本(Whisper)和容器中完整 API 奇偶校验的嵌入式 OpenAI 替代品。## 局限性/诚实评估**没有内置身份验证。** Ollama 假设有一个受信任的本地网络。 对于面向 Internet 的部署,您必须添加身份验证层(反向代理、API 网关或 VPN)。 这是最常见的生产监督。**没有连续批处理。** 在并发负载下,Ollama 按顺序处理请求。 在 50 个并发用户下,p99 延迟约为 25 秒,而 vLLM 约为 3 秒。 未经负载测试,请勿将 Ollama 用作多用户生产服务器。**仅限 GGUF 格式。** Ollama 仅支持 GGUF 量化模型。 如果您需要 FP16 推理、AWQ 或 GPTQ 格式,请直接使用 vLLM 或 Transformers。**没有内置模型量化。** 您无法在 Ollama 中量化模型。 从外部将模型转换为 GGUF(使用 `llama.cpp/convert_hf_to_gguf.py` 或类似工具),然后通过 `ollama create` 导入。**内存管理是静态的。** `OLLAMA_MAX_LOADED_MODELS` 控制有多少模型保持驻留,但没有动态 VRAM 平衡。 在 12 GB GPU 上,加载 70B 模型(甚至 Q4)将会 OOM——Ollama 不会自动将层卸载到 CPU。**有限的工具调用支持。** 虽然工具调用可用于兼容模型(Llama 3.1+、Mistral),但实现````
bas
h
# 核心设置
OLLAMA_HOST=0.0.0.0:11434 # 绑定到所有接口
OLLAMA_KEEP_ALIVE=24h # 保持模型加载 24 小时
OLLAMA_NUM_PARALLEL=4 # 最大并发请求数
OLLAMA_MAX_LOADED_MODELS=2 # VRAM 中同时存在的最大模型数
OLLAMA_FLASH_ATTENTION=1 # 启用 Flash Attention(更快的推理)

# 性能调整
OLLAMA_GPU_OVERHEAD=200MB # 保留 VRAM 净空
OLLAMA_DEBUG=1 # 详细日志记录
````自动地。 性能取决于您的 CPU:Intel i7-13700K 使用 7B Q4 型号生成约 8–12 tok/s。 Apple Silicon M3 Pro 在 CPU/神经引擎上达到约 25 tok/s。**问:如何将 Ollama 更新到最新版本?**
答:在 macOS 上,运行 `brew Upgrade ollama`。 在 Linux 上,重新运行安装脚本:`curl -fsSL https://ollama.com/install.sh | 嘘`。 该脚本将下载的模型保存在“~/.ollama/models/”中。**问:Ollama 适合生产使用吗?**
答:对于单一用途的部署(一个模型,一个用户,可预测````
ngin
x
服务器{
监听 443 ssl http2;
服务器名称 ollama.yourdomain.com;

ssl_certificate /etc/letsencrypt/live/ollama.yourdomain.com/fullchain.pem;
ssl_certificate_key /etc/letsencrypt/live/ollama.yourdomain.com/privkey.pem;

地点/{
proxy_pass http://localhost:11434;
proxy_http_版本 1.1;
proxy_set_header 主机 $host;
proxy_set_header X-真实IP $remote_addr;
proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
proxy_set_header X-Forwarded-Proto $scheme;

# WebSocket 对流式传输的支持
proxy_set_header 升级 $http_upgrade;
proxy_set_header 连接“升级”;

# 长时间运行推理的超时
proxy_read_timeout 600s;
proxy_send_timeout 600s;
}
}
```用于图像分析的视觉模型?**
答:是的。 支持 LLaVA 1.7、Qwen2-VL 和 InternVL2.5 等视觉模型。 在聊天 API 请求中以 base64 形式传递图像数据。 请注意,视觉模型需要更多的 VRAM(增加约 2-4 GB 开销)。### 自托管注意事项在您自己的 VPS 上运行这个吗? 尝试 DigitalOcean with $200 free Credit
 — 足以进行 2 个月的适度自托管,以无风险地测试设置。 最适合中低流量; 当你不再需要它时,就可以扩展为专用。## 结论Ollama 消除了本地法学硕士部署的摩擦。 一条命令安装它,一条命令拉取模型,一条命令运行它。 Modelfile 系统为您提供可重复的模型定制。 兼容 OpenAI 的 API 意味着您现有的 LangChain、Open WebUI 和 Continue.dev 集成只需更改一个 URL 即可工作。对于独立开发者和小型团队来说,Ollama 是务实的起始 poi```
pytho
n
#ollama-auth-proxy.py(Flask 示例)
从烧瓶进口烧瓶,请求,响应
导入请求

应用程序=烧瓶(__名称__)
OLLAMA_URL = "http://localhost:11434"
VALID_KEYS = {“在此处询问您的 api 密钥”}

@app.route('/', defaults={'path': ''},methods=['GET', 'POST', 'PUT', 'DELETE'])
@app.route('/<路径:路径>',methods=['GET', 'POST', 'PUT', 'DELETE'])
默认代理(路径):
api_key = request.headers.get('授权', '').replace('承载', '')
如果 api_key 不在 VALID_KEYS 中:
返回{“错误”:“无效的API密钥”},401

响应 = requests.request(
方法=请求.方法,
url=f"{OLLAMA_URL}/{path}",
headers={k: v for k, v in request.headers if k != 'Host'},
数据=请求.get_data(),
流=真
)
返回响应(resp.iter_content(chunk_size = 1024),状态= resp.status_code,
content_type=resp.headers.get('内容类型'))

如果 __name__ == '__main__':
app.run(主机='0.0.0.0',端口=11435)
``如果您通过这些链接购买服务,dibi8 可能会赚取佣金,而无需您支付额外费用。*







## 推荐的托管和基础设施在将上述任何工具部署到生产环境之前,您需要坚实的基础设施。 dibi8实际使用和推荐的两个选项:- **{< aff "digitalocean" "footer-cta-legacy" "DigitalOcean" >}}** — 200 美元免费赠金,为期 60 天,覆盖全球 14 个以上区域。 运行开源人工智能工具的独立开发者的默认选项。 
- **{< aff "htstack" "footer-cta-legacy" "HTStack" >}}** — 从中国大陆低延迟访问的香港 VPS。 这与托管 dibi8.com 的 IDC 是同一个 IDC——在生产中经过了实际考验。*附属链接 - 它们不会花费您额外的费用,并且有助于保持 dibi8.com 的运行。*## 资料来源和进一步阅读- Ollama 官方文档:https://docs.ollama.com
-Ollama GitHub 存储库:https://github.com/ollama/ollama
- Ollama 模型库:https://ollama.com/search
- Ollama REST API 参考:https://docs.ollama.com/api
- 模型文件参考:https://docs.```
bas
h
# 列出正在运行的模型以及内存使用情况
卷曲 http://localhost:11434/api/ps

# 预期输出:
#{
#“模型”:[
#{
# "名称": "llama3.2:8b",
# "模型": "llama3.2:8b",
#“尺寸”:5137025024,
#“大小_vram”:5137025024,
#“expires_at”:“2026-05-20T10:00:00Z”
# }
#]
# }
``Ollama 与 LocalAI:https://zenvanriel.com/ai-engineer-blog/ollama-vs-localai-comparison-local-model-deployment/
- 打开WebUI GitHub:https://github.com/open-webui/open-webui
- LangChain Ollama 集成:https://python.langchain.com/docs/integrations/chat/ollama
-Continue.dev 文档:https://docs.continue.dev<!--自动引用-->
## 参考文献和来源- [Ollama](https://github.com/ollama/ollama)
- [打开WebUI](https://github.com/open-webui/open-webui)
- [llama.cpp](https://github.com/ggml-org```
in
i
# /etc/systemd/system/ollama.service
[单位]
描述=Ollama LLM 服务
After=网络在线.target

[服务]
ExecStart=/usr/local/bin/ollama 服务
用户=ollama
组=ollama
重新启动=始终
重启秒=3
环境=“OLLAMA_HOST=0.0.0.0:11434”
环境=“OLLAMA_NUM_PARALLEL=4”
环境=“OLLAMA_KEEP_ALIVE=24小时”

[安装]
WantedBy=default.target
``````重击
sudo systemctl 守护进程重新加载
sudo systemctl 启用 ollama
sudo systemctl 启动 ollama

💬 留言讨论