模型管理 - Ollama 知识手册

📥 模型下载

Qwen3 系列 (阿里)

ollama pull qwen3           # 基础版
ollama pull qwen3:8b        # 8B 参数
ollama pull qwen3:32b       # 32B 参数
ollama pull qwen3-vl        # 视觉理解
ollama pull qwen3-coder-next # 代码专用
ollama pull qwen3-embedding # 向量嵌入

NVIDIA Nemotron

ollama pull nemotron-super  # 120B MoE
ollama pull nemotron-nano   # 30B 轻量

智谱 GLM 系列

ollama pull glm-4.7-flash   # 快速推理
ollama pull glm-5          # 40B 强推理
ollama pull glm-ocr        # OCR 识别

月之暗面 Kimi

ollama pull kimi-k2.5       # 多模态代理

MiniMax

ollama pull minimax-m2.5    # 中文优化

Mistral AI

ollama pull ministral-3     # 3B-14B
ollama pull lfm2           # 24B MoE
ollama pull lfm2.5-thinking # 思考模式

📊 主流模型对比

模型	参数量	下载量	特点	推荐配置
QWEN3-VL	2B - 235B	2.1M	视觉+推理	≥8GB VRAM
QWEN3.5	0.8B - 122B	1.8M	通用对话	≥16GB VRAM
Nemotron-Super	120B MoE	28.9K	工具调用	≥24GB VRAM
GLM-5	40B 活跃	109K	强推理	≥16GB VRAM
Kimi-K2.5	多模态	151K	原生代理	≥12GB VRAM
LFM2.5-Thinking	1.2B	971K	深度思考	≥4GB VRAM

📊 常见模型分类与优缺点

🗣️ 通用对话模型

模型	优点	缺点
Qwen3	中文优秀、开源免费、参数选择多	大参数需高显存
GLM-4.7-Flash	推理速度快、价格便宜	需要 API 调用
Llama 3.2	开源生态好、多语言支持	中文能力一般
Mistral	代码能力强、推理效率高	中文支持较弱

💻 代码专用模型

模型	优点	缺点
Qwen3-Coder-Next	代码理解强、支持多种语言	参数较大
Devstral-Small-2	轻量级、响应快	功能有限
DeepSeek-Coder	代码补全强、开源	生态较小
Granite-Code	企业级支持、稳定	体积较大

🖼️ 视觉理解模型

模型	优点	缺点
QWEN3-VL	视觉理解强、中文优化	显存要求高
GLM-OCR	文字识别准、免费	只能 OCR
DeepSeek-OCR	速度快、多语言	理解能力一般
Llama-Vision	开源生态好	中文理解弱

🧠 思考/推理模型

模型	优点	缺点
LFM2.5-Thinking	轻量高效、免费本地	参数小、能力有限
Nemotron-Nano	工具调用强、推理好	需要高显存
Qwen3 (思考模式)	中文强、可本地部署	首次加载慢
GLM-4.7-Flash	速度快、价格低	需 API

📐 向量嵌入模型

模型	优点	缺点
Qwen3-Embedding	中文优化、开源免费	维度较高
Nomic-Embed-Text	开源、轻量	中文一般
mxbai-Embed-Large	精度高	速度慢

⚡ MoE 混合专家模型

模型	优点	缺点
Nemotron-Super	120B 能力强、工具调用	需多卡
LFM2	24B 高效、免费	生态较小
DeepSeek-MoE	开源、能力接近大模型	配置复杂

🎯 选型建议

个人开发者

日常对话 → qwen3:8b
代码助手 → qwen3-coder-next
轻量推理 → lfm2.5-thinking

企业项目

知识库 → qwen3-embedding + qwen3
智能客服 → qwen3-vl (多模态)
代码审查 → devstral-small-2

追求最佳效果

通用 → qwen3:72b + 思考模式
视觉 → qwen3-vl:latest
综合 → nemotron-super

低资源配置

入门 → phi3, lfm2.5-thinking
4GB VRAM → 4B 参数模型
Mac 用户 → M 系列芯片优化

🏷️ 按功能分类模型

🖼️ 视觉理解

ollama pull qwen3-vl
ollama pull glm-ocr
ollama pull deepseek-ocr
ollama pull translategemma

🧠 思考/推理

ollama pull qwen3.5
ollama pull lfm2.5-thinking
ollama pull glm-4.7-flash

🔧 工具调用

ollama pull nemotron-super
ollama pull qwen3-coder-next
ollama pull glm-4.7-flash
ollama pull granite4

📐 向量嵌入

ollama pull qwen3-embedding

⚙️ Modelfile 详细介绍

📖 什么是 Modelfile

Modelfile 是 Ollama 的模型配置文件，它允许你自定义模型行为、调整推理参数、注入系统提示词，无需重新训练模型即可创建专属的 AI 助手。

🎯 为什么要引入 Modelfile

定制行为：让模型扮演特定角色（客服、代码助手、翻译官等）
调整输出：控制创造力、响应长度、格式等
知识注入：内置专业知识库，无需 RAG
可复用：一次配置，随时加载使用

⚡ 典型使用场景

企业内部知识库助手
代码审查 / 编写专家
特定领域顾问（医疗、法律、金融）
翻译、摘要、写作助手

📋 Modelfile 参数详解

参数	说明	取值范围	默认值
FROM	基础模型	模型名称	-
SYSTEM	系统提示词（模型角色设定）	任意文本	-
PARAMETER temperature	随机性：越高越有创意，越低越确定性	0.0 - 2.0	0.8
PARAMETER top_p	核采样：控制词汇选择范围	0.0 - 1.0	0.9
PARAMETER top_k	限制最高概率词数量	1 - 100	40
PARAMETER num_ctx	上下文窗口大小	128 - 8192	2048
PARAMETER num_gpu	GPU 层数（-1 自动）	-1 或正整数	-1
PARAMETER repeat_penalty	重复惩罚：减少重复输出	0.0 - 2.0	1.1
PARAMETER seed	随机种子：固定则输出确定	整数	随机
ADAPTER	LoRA 适配器（微调）	路径	-

🚀 最优化利用建议

💬 对话助手

FROM qwen3
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER num_ctx 4096
SYSTEM """
你是一个专业、友好的AI助手。
回答要简洁明了，不超过200字。
"""

💻 代码专家

FROM qwen3-coder-next
PARAMETER temperature 0.3
PARAMETER top_k 20
PARAMETER num_ctx 8192
SYSTEM """
你是资深程序员，精通多种语言。
代码要规范、注释清晰、考虑性能。
"""

📚 知识库问答

FROM qwen3
PARAMETER temperature 0.2
PARAMETER top_p 0.8
PARAMETER num_ctx 8192
SYSTEM """
基于以下知识库回答问题：
[这里可以内置常见问答]
只回答知识库相关的问题。
"""

🎨 创意写作

FROM qwen3
PARAMETER temperature 1.2
PARAMETER top_p 0.95
PARAMETER repeat_penalty 1.2
SYSTEM """
你是创意作家，擅长各种文体。
发挥你的想象力，创造精彩内容。
"""

🔧 常用命令

# 1. 创建 Modelfile
vim ./my-model

# 2. 从 Modelfile 创建模型
ollama create my-assistant -f ./my-model

# 3. 查看模型信息
ollama show my-assistant

# 4. 运行自定义模型
ollama run my-assistant

# 5. 导出模型文件
ollama show my-assistant --modelfile

# 6. 复制模型
ollama cp my-assistant my-backup

Modelfile 工作流程

编写 Modelfile

→

ollama create

→

模型实例化

→

参数固化

→

ollama run

🗂️ 模型管理命令

查看与运行

ollama list        # 已下载列表
ollama ps          # 运行中的模型
ollama run qwen3

删除与复制

ollama rm qwen3           # 删除
ollama cp qwen3 my-copy   # 复制

搜索模型

ollama search qwen      # 搜索可下载
ollama search glm        # 搜索 GLM 系列

📈 模型加载时序图

Client

ollama run qwen3

Ollama

检查模型文件

Ollama

加载 GGUF/权重

GPU

初始化推理引擎

Client

Ready! 可交互

🔄 Ollama 替代品

💻 LM Studio

功能最接近 Ollama 的桌面应用，图形界面友好

优点	缺点
图形界面直观	仅桌面端
模型管理方便	功能较封闭
内置 API 服务	定制性低

🌐 Text Generation WebUI

功能最强大的 Web UI，扩展性强

优点	缺点
功能最全	配置复杂
插件丰富	资源占用高
支持多种后端	对新手不友好

🤖 GPT4All

轻量级本地大模型运行工具

优点	缺点
安装简单	模型较少
资源占用低	功能有限
隐私友好	扩展性差

⚡ llama.cpp

底层推理库，性能最强

优点	缺点
性能最高	无图形界面
支持多种量化	需要命令行
轻量级	配置复杂

📊 对比选择

工具	适合人群	推荐场景
Ollama	开发者、程序员	API 开发、生产部署
LM Studio	普通用户	桌面端快速体验
Text Generation WebUI	高级用户	复杂实验、插件开发
GPT4All	初学者	轻量体验、隐私敏感
llama.cpp	极客、性能追求者	最高性能、本地推理

🧠 模型管理

📥 模型下载

Qwen3 系列 (阿里)

NVIDIA Nemotron

智谱 GLM 系列

月之暗面 Kimi

MiniMax

Mistral AI

📊 主流模型对比

📊 常见模型分类与优缺点

🗣️ 通用对话模型

💻 代码专用模型

🖼️ 视觉理解模型

🧠 思考/推理模型

📐 向量嵌入模型

⚡ MoE 混合专家模型

🎯 选型建议

个人开发者

企业项目

追求最佳效果

低资源配置

🏷️ 按功能分类模型

🖼️ 视觉理解

🧠 思考/推理

🔧 工具调用

📐 向量嵌入

⚙️ Modelfile 详细介绍

📖 什么是 Modelfile

🎯 为什么要引入 Modelfile

⚡ 典型使用场景

📋 Modelfile 参数详解

🚀 最优化利用建议

💬 对话助手

💻 代码专家

📚 知识库问答

🎨 创意写作

🔧 常用命令

🗂️ 模型管理命令

查看与运行

删除与复制

搜索模型

📈 模型加载时序图

🔄 Ollama 替代品

💻 LM Studio

🌐 Text Generation WebUI

🤖 GPT4All

⚡ llama.cpp

📊 对比选择