阿里最新开源,支持视觉、代码、嵌入,2.1M+ 下载量,领跑开源模型榜单。
QWEN3-VL、GLM-OCR、DeepSeek-OCR 等原生多模态模型,支持图片理解与 OCR。
LFM2.5-Thinking、Qwen3.5 等支持深度推理,适合复杂问题分析与代码生成。
Nemotron-3、GLM-4.7-FLASH 等支持 Function Calling,可集成外部 API。
Nemotron-3-Super (120B MoE)、LFM2 等专家混合模型,性能更强。
Qwen3、GLM-5、MiniMax-M2.5 等中文能力最强,适合国内开发者。
思考模式是新一代大语言模型的高级特性,让模型能够分步推理、自我纠错、深度思考复杂问题,而非直接给出答案。
| GPU 型号 | 显存 | 推荐运行模型 |
|---|---|---|
| RTX 4060 Ti | 8GB | qwen3:8b, phi3, lfm2.5 |
| RTX 4070 | 12GB | qwen3:14b, qwen3:32b |
| RTX 4080 | 16GB | qwen3:72b, nemotron-nano |
| RTX 4090 | 24GB | qwen3:72b (Q4), glm-5 |
| RTX 3090/4090 | 24GB x2 | 多模型并行, 大模型 |
| GPU 型号 | 显存 | 推荐运行模型 |
|---|---|---|
| A100 40GB | 40GB | qwen3:72b, nemotron |
| A100 80GB | 80GB | qwen3:235b, 多模型 |
| A6000 | 48GB | qwen3:72b, 大模型 |
| H100 80GB | 80GB | 最大模型, 高速推理 |
| 多卡集群 | 多卡 | 企业级部署 |
| 组件 | 最低要求 | 推荐配置 |
|---|---|---|
| 系统内存 | 16GB | 32GB+ |
| 模型存储 | 50GB | 200GB+ (SSD) |
| 推荐存储 | NVMe SSD | PCIe 4.0/5.0 |
| 芯片 | 统一内存 | 推荐运行模型 |
|---|---|---|
| M1 Pro | 16GB | qwen3:8b, phi3 |
| M1 Max | 32GB | qwen3:14b |
| M2 Max | 64GB | qwen3:32b |
| M3 Max | 64-128GB | qwen3:72b |
# 检查 Ollama GPU 支持 ollama list # 查看 GPU 是否工作 (Linux) nvidia-smi # macOS Metal 加速 (自动启用) # 无需额外配置 # Windows WSL2 + CUDA # 确保安装 NVIDIA 驱动
| 场景 | 推荐配置 | 模型 |
|---|---|---|
| 日常对话 | ≥8GB VRAM | qwen3:8b, phi3 |
| 代码开发 | ≥16GB VRAM | qwen3:32b, qwen3-coder |
| 专业推理 | ≥24GB VRAM | qwen3:72b, nemotron |
| 轻量部署 | ≥4GB VRAM | lfm2.5-thinking, phi3.5 |
# 检查 GPU 是否启用 ollama list # 强制使用 GPU OLLAMA_GPU_LAYERS=128 ollama run qwen3 # NVIDIA GPU 优化 nvidia-smi # 查看 GPU 状态
| 参数 | 场景 | 推荐值 | 说明 |
|---|---|---|---|
| temperature | 创意写作 | 0.8-1.2 | 越高越有创意 |
| temperature | 精确问答 | 0.1-0.3 | 越低越确定 |
| top_p | 平衡 | 0.9 | 核采样阈值 |
| num_ctx | 长文档 | 4096-8192 | 上下文长度 |
| repeat_penalty | 避免重复 | 1.1-1.3 | 重复惩罚 |
# 首次运行后模型会缓存 # 避免重复加载
# 使用 API 批量请求 # 减少网络开销
# stream: true # 减少等待时间
# 嵌入模型 + 对话模型 # OCR 模型 + 理解模型
# 用 Modelfile 固化 # 设定角色和行为
# 及时释放不需要的模型 ollama stop model-name
ollama pull qwen3 # 基础模型 ollama pull qwen3:8b # 8B 参数 ollama pull qwen3-vl # 视觉模型 ollama pull qwen3-embedding
ollama run qwen3 ollama run qwen3-vl ollama run nemotron-nano
ollama run qwen3:8b # 使用 /Think 开启深度思考
ollama run qwen3-vl # 上传图片进行理解
| 排名 | 模型 | 参数量 | 下载量 | 特点 |
|---|---|---|---|---|
| 1 | QWEN3-VL | 2B - 235B | 2.1M | 视觉+推理 |
| 2 | QWEN3.5 | 0.8B - 122B | 1.8M | 通用对话 |
| 3 | Qwen3-Embedding | 0.6B - 8B | 1.2M | 向量嵌入 |
| 4 | LFM2.5-Thinking | 1.2B | 971K | 深度推理 |
| 5 | LFM2 | 24B | 949K | MoE 架构 |