🤖 Ollama 知识手册

面向程序员的本地大模型部署与开发指南

开始学习 →

📚 新版内容

🔥

Qwen3 系列

阿里最新开源,支持视觉、代码、嵌入,2.1M+ 下载量,领跑开源模型榜单。

🖼️

视觉理解

QWEN3-VL、GLM-OCR、DeepSeek-OCR 等原生多模态模型,支持图片理解与 OCR。

🧠

思考模式

LFM2.5-Thinking、Qwen3.5 等支持深度推理,适合复杂问题分析与代码生成。

🔧

工具调用

Nemotron-3、GLM-4.7-FLASH 等支持 Function Calling,可集成外部 API。

MoE 架构

Nemotron-3-Super (120B MoE)、LFM2 等专家混合模型,性能更强。

🌏

中文优化

Qwen3、GLM-5、MiniMax-M2.5 等中文能力最强,适合国内开发者。

🔄 Ollama 工作流程

用户请求
Ollama Server
模型加载
GPU 推理
流式响应

🧠 什么是思考模式 (Thinking Mode)

💡 定义

思考模式是新一代大语言模型的高级特性,让模型能够分步推理自我纠错深度思考复杂问题,而非直接给出答案。

🎯 为什么要引入

  • 复杂问题:数学证明、逻辑推理需要多步思考
  • 自我纠错:模型可以回顾并修正错误
  • 可解释性:展示推理过程,增加可信度
  • 更准答案:思考后再回答,准确率显著提升

🔄 思考模式 vs 普通模式

普通模式
问题
直接回答
答案
思考模式
问题
理解问题
分解任务
逐步推理
验证结果
优质答案

⚡ 热门命令

📦 下载最新模型

ollama pull qwen3         # 基础模型
ollama pull qwen3:8b     # 8B 参数
ollama pull qwen3-vl     # 视觉模型
ollama pull qwen3-embedding

▶️ 运行模型

ollama run qwen3
ollama run qwen3-vl
ollama run nemotron-nano

🧠 思考模式

ollama run qwen3:8b
# 使用 /Think 开启深度思考

🖼️ 视觉理解

ollama run qwen3-vl
# 上传图片进行理解

🏆 最热门模型 TOP 5

排名 模型 参数量 下载量 特点
1 QWEN3-VL 2B - 235B 2.1M 视觉+推理
2 QWEN3.5 0.8B - 122B 1.8M 通用对话
3 Qwen3-Embedding 0.6B - 8B 1.2M 向量嵌入
4 LFM2.5-Thinking 1.2B 971K 深度推理
5 LFM2 24B 949K MoE 架构