EP00 - DeepSeek R1 本地部署实战 (Mac篇)

摘要: 别被几万块的显卡劝退。你的 MacBook Pro (Apple Silicon) 就是跑 DeepSeek R1 的神器。本文手把手教你用 Ollama 在本地跑起“满血版”推理模型，不仅免费，而且隐私绝对安全。
阅读时间: 5分钟 适用人群: 程序员、科研党、隐私敏感用户 硬件要求: M1/M2/M3/M4 Mac，推荐 16GB+ 内存

为什么要在本地跑 DeepSeek？

隐私安全: 你的代码、私有文档不需要上传到云端，断网也能用。
零延迟响应: 没有网络延迟，交互更丝滑（取决于模型大小）。
无审查: 你懂的。
免费: 不需要订阅费，只消耗电费。

核心工具：Ollama

Ollama 是目前 macOS 上体验最好的大模型运行工具，没有之一。它开源免费，支持非常多的大模型，GitHub仓库在这里，目前161K的 Star。

用程序员最能听懂的话解释：Ollama 就是大模型界的 Docker。

Docker 让你可以一行命令跑 MySQL / Nginx。
Ollama 让你可以一行命令跑 DeepSeek / Llama3。

它在后台默默做了三件事：驱动 GPU、管理模型文件、提供 API 服务。装了它，你的 Mac 就有了“大脑”。

安装 Ollama

有两种方式：

方式 A: 官网下载 (推荐小白) 访问 ollama.com 下载 macOS 版本并安装。

方式 B: Homebrew (推荐极客) 打开终端，运行：

1brew install ollama

安装界面:

选择适合你的 DeepSeek R1 版本

DeepSeek R1 蒸馏版有多个尺寸。对于 24GB 内存 的 Mac 用户（比如我这台 M3 Max），这里是我的实测建议：

模型版本	模型大小	内存占用	速度 (Tokens/s)	推荐指数	适用场景
1.5B	1.1GB	~2GB	飞快	⭐⭐	手机/极低配/测试
7B	4.7GB	~6GB	很快	⭐⭐⭐	M1 Air 8GB 标配
8B	4.9GB	~6GB	很快	⭐⭐⭐⭐	日常代码补全/简单问答
14B	9GB	~11GB	流畅	⭐⭐⭐⭐⭐	24GB 内存黄金之选
32B	19GB	~22GB	勉强	⭐⭐	仅限 32GB+ 内存，24GB 会发生 Swap 导致卡顿

老墨结论：无脑选 14B。它是目前能跑在 24GB 内存上，且智商在线的最佳平衡点。

一行命令启动 (基础版)

如果你是直接运行的 Ollama App (Mac 状态栏有小羊驼图标)，它已经自动帮你把 Server 跑在后台了。你只需要打开终端运行：

1ollama run deepseek-r1:14b

(如果你内存只有 8GB/16GB，请把 :14b 换成 :7b 或 :8b)

第一次运行会自动下载模型权重（约 9GB），下载速度取决于你的网速。

下载完成后，你即刻进入交互模式：

1>>> send a message (/? for help)
2>>> 解释一下为什么 Rust 的所有权机制能保证内存安全？

极客进阶：手动挡启动 (榨干性能)

如果你想用 24GB 内存跑更大的 Context，你需要先关掉状态栏的 Ollama App，然后手动用命令行启动 Server，这样才能注入环境变量。

Step 1: 启动 Server (手动挡) 关闭 Ollama App 后，在终端输入：

1# 开启 Flash Attention 和 KV Cache 量化
2OLLAMA_FLASH_ATTENTION="1" OLLAMA_KV_CACHE_TYPE="q8_0" ollama serve

注意：保持这个窗口不要关，这是你的发动机。

Step 2: 运行模型 新建一个终端窗口 (Cmd+T)，运行：

1ollama run deepseek-r1:14b

此时它会连接到你刚才手动启动的那个优化过的 Server，你会发现速度更快，显存更省。

进阶玩法：给它穿上 GUI 外衣

在终端里聊天太硬核了？推荐两个 GUI 客户端，体验瞬间提升：

方案 A: Page Assist (Chrome 插件) - 强烈推荐

这是一款开源的浏览器插件，可以在侧边栏直接和本地 Ollama 对话，甚至能读取当前网页内容进行总结。

下载: Chrome Web Store 搜索 “Page Assist”
配置: 安装后无需配置，它会自动连接 http://127.0.0.1:11434。

无法访问 Google？ 如果你无法访问 Chrome 商店，Page Assist 是开源的，你可以直接去 GitHub 下载离线包：
访问 n4ze3m/page-assist Releases
下载最新版本的 pageassist-[version]-chrome.zip。
解压后，打开 Chrome 扩展程序页面 (chrome://extensions/)。
开启右上角的 “开发者模式” (Developer mode)。
点击 “加载已解压的扩展程序” (Load unpacked)，选择刚才解压的文件夹即可。

当然，老墨已经给大家准备好了，公众号后台回复 “PA” 即可获取离线安装包。

方案 B: Chatbox AI (独立 App)

颜值很高的桌面客户端，但是需要付费(老墨不推荐，米多者随意)，支持 Markdown 渲染、代码高亮。

下载: chatboxai.app
设置: 模型提供方选择 “Ollama API”，Host 填 http://127.0.0.1:11434。

终极生产力：接入 VS Code (免费的 GitHub Copilot)

如果在终端里自嗨只能算“玩票”，那接入 IDE 才是真正的“干活”。我们可以使用开源插件 Continue，把本地的 DeepSeek R1 变成你的 AI 结对编程伙伴。

安装插件: 在 VS Code 插件市场搜索并安装 Continue。

配置模型:

点击左侧边栏的 Continue 图标。
点击顶部右侧的设置按钮。
左侧会出现一列设置的按钮，点击 Models 开始配置模型. 选择Local 配置本地模型，会打开config.yaml文件，填入下边的配置内容：

 1name: Local Config
 2version: 1.0.0
 3schema: v1
 4models:
 5  - name: DeepSeek R1
 6    provider: ollama
 7    model: deepseek-r1:14b
 8    roles:
 9      - chat
10      - edit
11      - apply
12      - autocomplete

使用:

Chat: 在左侧窗口直接问代码问题。
Edit: 选中一段代码，按 Cmd+I，输入指令：“给这段代码加上详细的注释”，它会直接在编辑器里修改, Cmd+L 开启聊天窗口。
Autocomplete: (需在配置中开启 Autocomplete)，体验类似 Copilot 的自动补全。

至此，你已经拥有了一套完全免费、隐私安全、且智商在线的本地 AI 开发环境。你可以打开一个工程，按 Cmd + L, 让它分析你的代码了。

本地模型的边界

可能你跑起来了，非常激动，结果去问它“现在几号？”，它会一脸茫然，给你一个错误的答案。所以，别被营销号忽悠了，DeepSeek 虽然强，但本地运行不是万能的，有着它自己的能力和局限，我们称之为“边界”。

它能做的（优势）:

逻辑推理: 写代码、重构函数、分析算法复杂度，R1 14B 甚至比 GPT-4o 还要敏锐。
文本处理: 润色文章、总结会议纪要、提取 JSON 字段。
绝对隐私: 你的日记、商业计划书、核心代码，永远不出这台 Mac。

它不能做的（局限）:

没有实时知识: 它的记忆停留在训练结束那天 (Discovery Cutoff)。如果你问 “当下最火的 OpenClaw 是什么？"，它大概率会胡说八道 (Hallucination)，因为它没见过。
无法联网: 默认状态下，它就是个断网的博学家。
无法操作电脑: 它只能给你建议，不能帮你点鼠标、敲键盘。

这就是为什么我们需要 OpenClaw。在后续教程中，我们会给这个“断网的大脑”装上“联网的手”，让它进化成完全体

下期预告: 环境搭好了，下一篇我们动真格的。OpenClaw (原Clawdbot) 登场——我们将不再满足于“和AI聊天”，而是要构建一个能操作文件、执行命令的 AI Agent。但在此之前，为了防止它把你的电脑炸了，我们需要先手写一个 Docker 安全沙盒…

EP00 - DeepSeek R1 本地部署实战 (Mac篇)#

为什么要在本地跑 DeepSeek？#

核心工具：Ollama#

安装 Ollama#

选择适合你的 DeepSeek R1 版本#

一行命令启动 (基础版)#

极客进阶：手动挡启动 (榨干性能)#

进阶玩法：给它穿上 GUI 外衣#

方案 A: Page Assist (Chrome 插件) - 强烈推荐#

方案 B: Chatbox AI (独立 App)#

终极生产力：接入 VS Code (免费的 GitHub Copilot)#

本地模型的边界#

相关阅读