EP00 - DeepSeek R1 本地部署实战 (Mac篇)
摘要: 别被几万块的显卡劝退。你的 MacBook Pro (Apple Silicon) 就是跑 DeepSeek R1 的神器。本文手把手教你用 Ollama 在本地跑起“满血版”推理模型,不仅免费,而且隐私绝对安全。
阅读时间: 5分钟 适用人群: 程序员、科研党、隐私敏感用户 硬件要求: M1/M2/M3/M4 Mac,推荐 16GB+ 内存

为什么要在本地跑 DeepSeek?
- 隐私安全: 你的代码、私有文档不需要上传到云端,断网也能用。
- 零延迟响应: 没有网络延迟,交互更丝滑(取决于模型大小)。
- 无审查: 你懂的。
- 免费: 不需要订阅费,只消耗电费。
核心工具:Ollama
Ollama 是目前 macOS 上体验最好的大模型运行工具,没有之一。它开源免费,支持非常多的大模型,GitHub仓库在 这里, 目前161K的 Star。
用程序员最能听懂的话解释:Ollama 就是大模型界的 Docker。
- Docker 让你可以一行命令跑 MySQL / Nginx。
- Ollama 让你可以一行命令跑 DeepSeek / Llama3。
它在后台默默做了三件事:驱动 GPU、管理模型文件、提供 API 服务。装了它,你的 Mac 就有了“大脑”。
安装 Ollama
有两种方式:
方式 A: 官网下载 (推荐小白) 访问 ollama.com 下载 macOS 版本并安装。
方式 B: Homebrew (推荐极客) 打开终端,运行:
1brew install ollama
安装界面:

选择适合你的 DeepSeek R1 版本
DeepSeek R1 蒸馏版有多个尺寸。对于 24GB 内存 的 Mac 用户(比如我这台 M3 Max),这里是我的实测建议:
| 模型版本 | 模型大小 | 内存占用 | 速度 (Tokens/s) | 推荐指数 | 适用场景 |
|---|---|---|---|---|---|
| 1.5B | 1.1GB | ~2GB | 飞快 | ⭐⭐ | 手机/极低配/测试 |
| 7B | 4.7GB | ~6GB | 很快 | ⭐⭐⭐ | M1 Air 8GB 标配 |
| 8B | 4.9GB | ~6GB | 很快 | ⭐⭐⭐⭐ | 日常代码补全/简单问答 |
| 14B | 9GB | ~11GB | 流畅 | ⭐⭐⭐⭐⭐ | 24GB 内存黄金之选 |
| 32B | 19GB | ~22GB | 勉强 | ⭐⭐ | 仅限 32GB+ 内存,24GB 会发生 Swap 导致卡顿 |
老墨结论:无脑选 14B。它是目前能跑在 24GB 内存上,且智商在线的最佳平衡点。
一行命令启动 (基础版)
如果你是直接运行的 Ollama App (Mac 状态栏有小羊驼图标),它已经自动帮你把 Server 跑在后台了。你只需要打开终端运行:
1ollama run deepseek-r1:14b
(如果你内存只有 8GB/16GB,请把 :14b 换成 :7b 或 :8b)
第一次运行会自动下载模型权重(约 9GB),下载速度取决于你的网速。

下载完成后,你即刻进入交互模式:
1>>> send a message (/? for help)
2>>> 解释一下为什么 Rust 的所有权机制能保证内存安全?
极客进阶:手动挡启动 (榨干性能)
如果你想用 24GB 内存跑更大的 Context,你需要先关掉状态栏的 Ollama App,然后手动用命令行启动 Server,这样才能注入环境变量。
Step 1: 启动 Server (手动挡) 关闭 Ollama App 后,在终端输入:
1# 开启 Flash Attention 和 KV Cache 量化
2OLLAMA_FLASH_ATTENTION="1" OLLAMA_KV_CACHE_TYPE="q8_0" ollama serve
注意:保持这个窗口不要关,这是你的发动机。
Step 2: 运行模型 新建一个终端窗口 (Cmd+T),运行:
1ollama run deepseek-r1:14b
此时它会连接到你刚才手动启动的那个优化过的 Server,你会发现速度更快,显存更省。
进阶玩法:给它穿上 GUI 外衣
在终端里聊天太硬核了?推荐两个 GUI 客户端,体验瞬间提升:
方案 A: Page Assist (Chrome 插件) - 强烈推荐
这是一款开源的浏览器插件,可以在侧边栏直接和本地 Ollama 对话,甚至能读取当前网页内容进行总结。
- 下载: Chrome Web Store 搜索 “Page Assist”
- 配置: 安装后无需配置,它会自动连接
http://127.0.0.1:11434。
无法访问 Google? 如果你无法访问 Chrome 商店,Page Assist 是开源的,你可以直接去 GitHub 下载离线包:
- 访问 n4ze3m/page-assist Releases
- 下载最新版本的
pageassist-[version]-chrome.zip。- 解压后,打开 Chrome 扩展程序页面 (
chrome://extensions/)。- 开启右上角的 “开发者模式” (Developer mode)。
- 点击 “加载已解压的扩展程序” (Load unpacked),选择刚才解压的文件夹即可。
当然,老墨已经给大家准备好了,公众号后台回复 “PA” 即可获取离线安装包。
方案 B: Chatbox AI (独立 App)
颜值很高的桌面客户端,但是需要付费(老墨不推荐,米多者随意),支持 Markdown 渲染、代码高亮。
- 下载: chatboxai.app
- 设置: 模型提供方选择 “Ollama API”,Host 填
http://127.0.0.1:11434。
终极生产力:接入 VS Code (免费的 GitHub Copilot)
如果在终端里自嗨只能算“玩票”,那接入 IDE 才是真正的“干活”。 我们可以使用开源插件 Continue,把本地的 DeepSeek R1 变成你的 AI 结对编程伙伴。

- 安装插件: 在 VS Code 插件市场搜索并安装
Continue。 - 配置模型:
- 点击左侧边栏的 Continue 图标。
- 点击顶部右侧的设置按钮。
- 左侧会出现一列设置的按钮,点击
Models开始配置模型. 选择Local配置本地模型, 会打开config.yaml文件,填入下边的配置内容:
1name: Local Config 2version: 1.0.0 3schema: v1 4models: 5 - name: DeepSeek R1 6 provider: ollama 7 model: deepseek-r1:14b 8 roles: 9 - chat 10 - edit 11 - apply 12 - autocomplete - 使用:
- Chat: 在左侧窗口直接问代码问题。
- Edit: 选中一段代码,按
Cmd+I,输入指令:“给这段代码加上详细的注释”,它会直接在编辑器里修改,Cmd+L开启聊天窗口。 - Autocomplete: (需在配置中开启
Autocomplete),体验类似 Copilot 的自动补全。

至此,你已经拥有了一套完全免费、隐私安全、且智商在线的本地 AI 开发环境。你可以打开一个工程,按 Cmd + L, 让它分析你的代码了。
本地模型的边界
可能你跑起来了,非常激动,结果去问它“现在几号?”,它会一脸茫然,给你一个错误的答案。所以,别被营销号忽悠了,DeepSeek 虽然强,但本地运行不是万能的,有着它自己的能力和局限,我们称之为“边界”。
它能做的(优势):
- 逻辑推理: 写代码、重构函数、分析算法复杂度,R1 14B 甚至比 GPT-4o 还要敏锐。
- 文本处理: 润色文章、总结会议纪要、提取 JSON 字段。
- 绝对隐私: 你的日记、商业计划书、核心代码,永远不出这台 Mac。
它不能做的(局限):
- 没有实时知识: 它的记忆停留在训练结束那天 (Discovery Cutoff)。如果你问 “当下最火的 OpenClaw 是什么?",它大概率会胡说八道 (Hallucination),因为它没见过。
- 无法联网: 默认状态下,它就是个断网的博学家。
- 无法操作电脑: 它只能给你建议,不能帮你点鼠标、敲键盘。
这就是为什么我们需要 OpenClaw。在后续教程中,我们会给这个“断网的大脑”装上“联网的手”,让它进化成完全体
下期预告: 环境搭好了,下一篇我们动真格的。OpenClaw (原Clawdbot) 登场——我们将不再满足于“和AI聊天”,而是要构建一个能操作文件、执行命令的 AI Agent。但在此之前,为了防止它把你的电脑炸了,我们需要先手写一个 Docker 安全沙盒…