最新模型下载、列表、自定义与部署
ollama pull qwen3 # 基础版 ollama pull qwen3:8b # 8B 参数 ollama pull qwen3:32b # 32B 参数 ollama pull qwen3-vl # 视觉理解 ollama pull qwen3-coder-next # 代码专用 ollama pull qwen3-embedding # 向量嵌入
ollama pull nemotron-super # 120B MoE ollama pull nemotron-nano # 30B 轻量
ollama pull glm-4.7-flash # 快速推理 ollama pull glm-5 # 40B 强推理 ollama pull glm-ocr # OCR 识别
ollama pull kimi-k2.5 # 多模态代理
ollama pull minimax-m2.5 # 中文优化
ollama pull ministral-3 # 3B-14B ollama pull lfm2 # 24B MoE ollama pull lfm2.5-thinking # 思考模式
| 模型 | 参数量 | 下载量 | 特点 | 推荐配置 |
|---|---|---|---|---|
| QWEN3-VL | 2B - 235B | 2.1M | 视觉+推理 | ≥8GB VRAM |
| QWEN3.5 | 0.8B - 122B | 1.8M | 通用对话 | ≥16GB VRAM | Nemotron-Super | 120B MoE | 28.9K | 工具调用 | ≥24GB VRAM |
| GLM-5 | 40B 活跃 | 109K | 强推理 | ≥16GB VRAM |
| Kimi-K2.5 | 多模态 | 151K | 原生代理 | ≥12GB VRAM |
| LFM2.5-Thinking | 1.2B | 971K | 深度思考 | ≥4GB VRAM |
| 模型 | 优点 | 缺点 |
|---|---|---|
| Qwen3 | 中文优秀、开源免费、参数选择多 | 大参数需高显存 |
| GLM-4.7-Flash | 推理速度快、价格便宜 | 需要 API 调用 |
| Llama 3.2 | 开源生态好、多语言支持 | 中文能力一般 |
| Mistral | 代码能力强、推理效率高 | 中文支持较弱 |
| 模型 | 优点 | 缺点 |
|---|---|---|
| Qwen3-Coder-Next | 代码理解强、支持多种语言 | 参数较大 |
| Devstral-Small-2 | 轻量级、响应快 | 功能有限 |
| DeepSeek-Coder | 代码补全强、开源 | 生态较小 |
| Granite-Code | 企业级支持、稳定 | 体积较大 |
| 模型 | 优点 | 缺点 |
|---|---|---|
| QWEN3-VL | 视觉理解强、中文优化 | 显存要求高 |
| GLM-OCR | 文字识别准、免费 | 只能 OCR |
| DeepSeek-OCR | 速度快、多语言 | 理解能力一般 |
| Llama-Vision | 开源生态好 | 中文理解弱 |
| 模型 | 优点 | 缺点 |
|---|---|---|
| LFM2.5-Thinking | 轻量高效、免费本地 | 参数小、能力有限 |
| Nemotron-Nano | 工具调用强、推理好 | 需要高显存 |
| Qwen3 (思考模式) | 中文强、可本地部署 | 首次加载慢 |
| GLM-4.7-Flash | 速度快、价格低 | 需 API |
| 模型 | 优点 | 缺点 |
|---|---|---|
| Qwen3-Embedding | 中文优化、开源免费 | 维度较高 |
| Nomic-Embed-Text | 开源、轻量 | 中文一般 |
| mxbai-Embed-Large | 精度高 | 速度慢 |
| 模型 | 优点 | 缺点 |
|---|---|---|
| Nemotron-Super | 120B 能力强、工具调用 | 需多卡 |
| LFM2 | 24B 高效、免费 | 生态较小 |
| DeepSeek-MoE | 开源、能力接近大模型 | 配置复杂 |
ollama pull qwen3-vl ollama pull glm-ocr ollama pull deepseek-ocr ollama pull translategemma
ollama pull qwen3.5 ollama pull lfm2.5-thinking ollama pull glm-4.7-flash
ollama pull nemotron-super ollama pull qwen3-coder-next ollama pull glm-4.7-flash ollama pull granite4
ollama pull qwen3-embedding
Modelfile 是 Ollama 的模型配置文件,它允许你自定义模型行为、调整推理参数、注入系统提示词,无需重新训练模型即可创建专属的 AI 助手。
| 参数 | 说明 | 取值范围 | 默认值 |
|---|---|---|---|
| FROM | 基础模型 | 模型名称 | - |
| SYSTEM | 系统提示词(模型角色设定) | 任意文本 | - |
| PARAMETER temperature | 随机性:越高越有创意,越低越确定性 | 0.0 - 2.0 | 0.8 |
| PARAMETER top_p | 核采样:控制词汇选择范围 | 0.0 - 1.0 | 0.9 |
| PARAMETER top_k | 限制最高概率词数量 | 1 - 100 | 40 |
| PARAMETER num_ctx | 上下文窗口大小 | 128 - 8192 | 2048 |
| PARAMETER num_gpu | GPU 层数(-1 自动) | -1 或正整数 | -1 |
| PARAMETER repeat_penalty | 重复惩罚:减少重复输出 | 0.0 - 2.0 | 1.1 |
| PARAMETER seed | 随机种子:固定则输出确定 | 整数 | 随机 |
| ADAPTER | LoRA 适配器(微调) | 路径 | - |
FROM qwen3 PARAMETER temperature 0.7 PARAMETER top_p 0.9 PARAMETER num_ctx 4096 SYSTEM """ 你是一个专业、友好的AI助手。 回答要简洁明了,不超过200字。 """
FROM qwen3-coder-next PARAMETER temperature 0.3 PARAMETER top_k 20 PARAMETER num_ctx 8192 SYSTEM """ 你是资深程序员,精通多种语言。 代码要规范、注释清晰、考虑性能。 """
FROM qwen3 PARAMETER temperature 0.2 PARAMETER top_p 0.8 PARAMETER num_ctx 8192 SYSTEM """ 基于以下知识库回答问题: [这里可以内置常见问答] 只回答知识库相关的问题。 """
FROM qwen3 PARAMETER temperature 1.2 PARAMETER top_p 0.95 PARAMETER repeat_penalty 1.2 SYSTEM """ 你是创意作家,擅长各种文体。 发挥你的想象力,创造精彩内容。 """
# 1. 创建 Modelfile vim ./my-model # 2. 从 Modelfile 创建模型 ollama create my-assistant -f ./my-model # 3. 查看模型信息 ollama show my-assistant # 4. 运行自定义模型 ollama run my-assistant # 5. 导出模型文件 ollama show my-assistant --modelfile # 6. 复制模型 ollama cp my-assistant my-backup
ollama list # 已下载列表 ollama ps # 运行中的模型 ollama run qwen3
ollama rm qwen3 # 删除 ollama cp qwen3 my-copy # 复制
ollama search qwen # 搜索可下载 ollama search glm # 搜索 GLM 系列
功能最接近 Ollama 的桌面应用,图形界面友好
| 优点 | 缺点 |
|---|---|
| 图形界面直观 | 仅桌面端 |
| 模型管理方便 | 功能较封闭 |
| 内置 API 服务 | 定制性低 |
功能最强大的 Web UI,扩展性强
| 优点 | 缺点 |
|---|---|
| 功能最全 | 配置复杂 |
| 插件丰富 | 资源占用高 |
| 支持多种后端 | 对新手不友好 |
轻量级本地大模型运行工具
| 优点 | 缺点 |
|---|---|
| 安装简单 | 模型较少 |
| 资源占用低 | 功能有限 |
| 隐私友好 | 扩展性差 |
底层推理库,性能最强
| 优点 | 缺点 |
|---|---|
| 性能最高 | 无图形界面 |
| 支持多种量化 | 需要命令行 |
| 轻量级 | 配置复杂 |
| 工具 | 适合人群 | 推荐场景 |
|---|---|---|
| Ollama | 开发者、程序员 | API 开发、生产部署 |
| LM Studio | 普通用户 | 桌面端快速体验 |
| Text Generation WebUI | 高级用户 | 复杂实验、插件开发 |
| GPT4All | 初学者 | 轻量体验、隐私敏感 |
| llama.cpp | 极客、性能追求者 | 最高性能、本地推理 |