EP00 - DeepSeek R1 本地部署实战 (Mac篇)

摘要: 别被几万块的显卡劝退。你的 MacBook Pro (Apple Silicon) 就是跑 DeepSeek R1 的神器。本文手把手教你用 Ollama 在本地跑起“满血版”推理模型,不仅免费,而且隐私绝对安全。

阅读时间: 5分钟 适用人群: 程序员、科研党、隐私敏感用户 硬件要求: M1/M2/M3/M4 Mac,推荐 16GB+ 内存


为什么要在本地跑 DeepSeek?

  1. 隐私安全: 你的代码、私有文档不需要上传到云端,断网也能用。
  2. 零延迟响应: 没有网络延迟,交互更丝滑(取决于模型大小)。
  3. 无审查: 你懂的。
  4. 免费: 不需要订阅费,只消耗电费。

核心工具:Ollama

Ollama 是目前 macOS 上体验最好的大模型运行工具,没有之一。它开源免费,支持非常多的大模型,GitHub仓库在 这里, 目前161K的 Star。

用程序员最能听懂的话解释:Ollama 就是大模型界的 Docker。

  • Docker 让你可以一行命令跑 MySQL / Nginx。
  • Ollama 让你可以一行命令跑 DeepSeek / Llama3。

它在后台默默做了三件事:驱动 GPU、管理模型文件、提供 API 服务。装了它,你的 Mac 就有了“大脑”。

安装 Ollama

有两种方式:

方式 A: 官网下载 (推荐小白) 访问 ollama.com 下载 macOS 版本并安装。

方式 B: Homebrew (推荐极客) 打开终端,运行:

1brew install ollama

安装界面:

选择适合你的 DeepSeek R1 版本

DeepSeek R1 蒸馏版有多个尺寸。对于 24GB 内存 的 Mac 用户(比如我这台 M3 Max),这里是我的实测建议:

模型版本模型大小内存占用速度 (Tokens/s)推荐指数适用场景
1.5B1.1GB~2GB飞快⭐⭐手机/极低配/测试
7B4.7GB~6GB很快⭐⭐⭐M1 Air 8GB 标配
8B4.9GB~6GB很快⭐⭐⭐⭐日常代码补全/简单问答
14B9GB~11GB流畅⭐⭐⭐⭐⭐24GB 内存黄金之选
32B19GB~22GB勉强⭐⭐仅限 32GB+ 内存,24GB 会发生 Swap 导致卡顿

老墨结论:无脑选 14B。它是目前能跑在 24GB 内存上,且智商在线的最佳平衡点。

一行命令启动 (基础版)

如果你是直接运行的 Ollama App (Mac 状态栏有小羊驼图标),它已经自动帮你把 Server 跑在后台了。你只需要打开终端运行:

1ollama run deepseek-r1:14b

(如果你内存只有 8GB/16GB,请把 :14b 换成 :7b:8b)

第一次运行会自动下载模型权重(约 9GB),下载速度取决于你的网速。

下载完成后,你即刻进入交互模式:

1>>> send a message (/? for help)
2>>> 解释一下为什么 Rust 的所有权机制能保证内存安全?

极客进阶:手动挡启动 (榨干性能)

如果你想用 24GB 内存跑更大的 Context,你需要先关掉状态栏的 Ollama App,然后手动用命令行启动 Server,这样才能注入环境变量。

Step 1: 启动 Server (手动挡) 关闭 Ollama App 后,在终端输入:

1# 开启 Flash Attention 和 KV Cache 量化
2OLLAMA_FLASH_ATTENTION="1" OLLAMA_KV_CACHE_TYPE="q8_0" ollama serve

注意:保持这个窗口不要关,这是你的发动机。

Step 2: 运行模型 新建一个终端窗口 (Cmd+T),运行:

1ollama run deepseek-r1:14b

此时它会连接到你刚才手动启动的那个优化过的 Server,你会发现速度更快,显存更省。

进阶玩法:给它穿上 GUI 外衣

在终端里聊天太硬核了?推荐两个 GUI 客户端,体验瞬间提升:

方案 A: Page Assist (Chrome 插件) - 强烈推荐

这是一款开源的浏览器插件,可以在侧边栏直接和本地 Ollama 对话,甚至能读取当前网页内容进行总结。

  • 下载: Chrome Web Store 搜索 “Page Assist”
  • 配置: 安装后无需配置,它会自动连接 http://127.0.0.1:11434

无法访问 Google? 如果你无法访问 Chrome 商店,Page Assist 是开源的,你可以直接去 GitHub 下载离线包:

  1. 访问 n4ze3m/page-assist Releases
  2. 下载最新版本的 pageassist-[version]-chrome.zip
  3. 解压后,打开 Chrome 扩展程序页面 (chrome://extensions/)。
  4. 开启右上角的 “开发者模式” (Developer mode)
  5. 点击 “加载已解压的扩展程序” (Load unpacked),选择刚才解压的文件夹即可。

当然,老墨已经给大家准备好了,公众号后台回复 “PA” 即可获取离线安装包。

方案 B: Chatbox AI (独立 App)

颜值很高的桌面客户端,但是需要付费(老墨不推荐,米多者随意),支持 Markdown 渲染、代码高亮。

  • 下载: chatboxai.app
  • 设置: 模型提供方选择 “Ollama API”,Host 填 http://127.0.0.1:11434

终极生产力:接入 VS Code (免费的 GitHub Copilot)

如果在终端里自嗨只能算“玩票”,那接入 IDE 才是真正的“干活”。 我们可以使用开源插件 Continue,把本地的 DeepSeek R1 变成你的 AI 结对编程伙伴。

  1. 安装插件: 在 VS Code 插件市场搜索并安装 Continue
  2. 配置模型:
    • 点击左侧边栏的 Continue 图标。
    • 点击顶部右侧的设置按钮。
    • 左侧会出现一列设置的按钮,点击 Models 开始配置模型. 选择Local 配置本地模型, 会打开config.yaml文件,填入下边的配置内容:
     1name: Local Config
     2version: 1.0.0
     3schema: v1
     4models:
     5  - name: DeepSeek R1
     6    provider: ollama
     7    model: deepseek-r1:14b
     8    roles:
     9      - chat
    10      - edit
    11      - apply
    12      - autocomplete
    
  3. 使用:
  • Chat: 在左侧窗口直接问代码问题。
  • Edit: 选中一段代码,按 Cmd+I,输入指令:“给这段代码加上详细的注释”,它会直接在编辑器里修改, Cmd+L 开启聊天窗口。
  • Autocomplete: (需在配置中开启 Autocomplete),体验类似 Copilot 的自动补全。

至此,你已经拥有了一套完全免费、隐私安全、且智商在线的本地 AI 开发环境。你可以打开一个工程,按 Cmd + L, 让它分析你的代码了。

本地模型的边界

可能你跑起来了,非常激动,结果去问它“现在几号?”,它会一脸茫然,给你一个错误的答案。所以,别被营销号忽悠了,DeepSeek 虽然强,但本地运行不是万能的,有着它自己的能力和局限,我们称之为“边界”。

它能做的(优势):

  1. 逻辑推理: 写代码、重构函数、分析算法复杂度,R1 14B 甚至比 GPT-4o 还要敏锐。
  2. 文本处理: 润色文章、总结会议纪要、提取 JSON 字段。
  3. 绝对隐私: 你的日记、商业计划书、核心代码,永远不出这台 Mac。

它不能做的(局限):

  1. 没有实时知识: 它的记忆停留在训练结束那天 (Discovery Cutoff)。如果你问 “当下最火的 OpenClaw 是什么?",它大概率会胡说八道 (Hallucination),因为它没见过。
  2. 无法联网: 默认状态下,它就是个断网的博学家。
  3. 无法操作电脑: 它只能给你建议,不能帮你点鼠标、敲键盘。

这就是为什么我们需要 OpenClaw。在后续教程中,我们会给这个“断网的大脑”装上“联网的手”,让它进化成完全体


下期预告: 环境搭好了,下一篇我们动真格的。OpenClaw (原Clawdbot) 登场——我们将不再满足于“和AI聊天”,而是要构建一个能操作文件、执行命令的 AI Agent。但在此之前,为了防止它把你的电脑炸了,我们需要先手写一个 Docker 安全沙盒…


相关阅读