一哥们做了个 Claude 中转站。不是随手套个壳那种,是他自己重度用 Claude Code 之后,干脆把 Max 号池、防封、分组、风控这一套都自己搭了。#AD 防封这块自研了挺久,目前内测跑下来,还算稳定。 价格也直接一点:100 元人民币到账 150 美金额度,也就是 1:1.5 的充值倍率。 现在还在内测,所以内测充值的额度,正式上线时还会返一部分。 比如你现在充 100 元,到账 150 美金额度。 正式上线时,按 150 / 2 = 75,再返还 75 额度。 分组这块也做了区分: 有直连Claude官方账号分组; 也有 AWS、逆向这类兜底分组。 不同分组成本和适用场景不一样,大家按自己的预算和服务要求选就行,别一上来乱冲。 他做这个东西最开始不是为了蹭热点,是因为他自己 Claude 消耗太大了,外面的中转站又总有几个问题:(具体情况点此推文查看) 要么贵; 要么不稳; 要么不知道对面是谁; 要么出问题找不到人。 所以干脆自己做一套。 现在还是内测期,肯定还有体验要磨。 但底层号池、稳定性、客服响应、分组规则,我会继续往死里优化。 需要 Claude 稳定额度的,可以先去试一下:ccode.dev 支持对公,支持开票,也支持采购、供应合作。承诺假一赔三。 有需要的兄弟自己去体验。
漏洞自查循环:压榨大模型深层推理能力的底层逻辑 | 帖子 通过强制模型进行“漏洞自查-修复-再验证”的循环,可以压榨出模型更深层的推理能力。这不仅是提示词技巧,更是利用模型训练中对“确定性”的不同权重,将对话从“讨好模式”切换到“解决问题模式”。 有一个很有意思的发现。如果你对 Codex 5.5 说:“你对这个策略有 100% 的信心吗?如果没有,请找出所有可能的漏洞,提出修复方案,并不断循环这个过程,直到你达到 100% 的事实信心。” 这个指令会产生一种奇妙的化学反应。 普通的模型,比如 Opus 4.7,面对这种质疑往往会陷入一种“过度讨好”的死循环。你越问,它越会说“你完全正确”,这种过度调优的 RLHF(人类反馈强化学习)让它像个缺乏安全感的社交达人,只会顺着你的话说,哪怕逻辑已经烂透了。 但 Codex 5.5 表现得像个古板、严谨甚至有点乏味的工程师。它把“不确定性”视作一种 Bug。当被推入这个逻辑循环时,它不会盲目点头,而是真的开始拆解自己的指令流水线,像编译器检查语法错误一样,去寻找逻辑缝隙。有网友提到,这种做法其实是在利用模型的“自我意识”——它在迭代中会真正修补漏洞,而不是仅仅在语气上显得自信。 当然,这种做法是有代价的。 有观点认为,这种“强迫症式”的循环可能会诱发幻觉,或者导致过度工程化,把一个简单的功能搞得像个复杂的微服务架构。甚至有人怀疑,这本质上只是在增加 Token 的消耗,换取一种心理上的“虚假确定性”。 但如果把这个过程看作是一个 Eval Harness(评估框架),它的价值就显现出来了。与其让模型直接输出结果,不如让它先在内部进行一次“事前验尸”(Pre-mortem)。 这让我想起,提示词的本质其实是在调整模型的运行层级。当你在要求它达到 100% 信心时,你实际上是在强迫它从“模式匹配”的浅层,跳进“逻辑验证”的深层。 只是不知道,当模型真的达到了那种所谓的“100% 信心”时,它看到的究竟是完美的逻辑,还是它自己编织的一个逻辑闭环?
网页爬虫和自动化测试经常被反爬虫系统检测到,Playwright/Puppeteer默认配置暴露navigator.webdriver、HeadlessChrome UA等明显bot特征,导致Cloudflare、reCAPTCHA直接封杀。 CloakBrowser 提供源代码级别的隐身Chromium浏览器,完美绕过所有bot检测。 49个C++源代码补丁修改canvas、WebGL、音频指纹、WebRTC、自动化信号,reCAPTCHA v3得分0.9(人类水平),通过Cloudflare Turnstile、FingerprintJS等30/30检测项目。 主要功能: - 源代码级指纹修改,49个C++补丁覆盖canvas、WebGL、音频、字体、GPU、屏幕、WebRTC等; - Drop-in Playwright/Puppeteer替换,3行代码无缝切换; - humanize=True一键启用人类行为模拟,鼠标贝塞尔曲线、逐字打字、真实滚动; - 支持HTTP/SOCKS5代理,自动从代理IP检测时区/语言环境; - 持久化浏览器配置文件,保持cookies/localStorage跨会话; - Docker一键部署,支持CDP多连接指纹轮换。 支持Python/JavaScript,pip install cloakbrowser 或 npm install cloakbrowser,首次运行自动下载隐身Chromium二进制。
开发人形机器人控制器需要多个独立模块,RL处理下肢运动、IK控制上肢动作、规划器生成路径、推理栈部署硬件,来回切换调试效率低下。 GR00T Whole-Body Control 把人形机器人全身控制所需的功能全部整合到一起,提供了统一的开发与部署平台。 不仅有解耦WBC模型(用于NVIDIA Isaac-GR00T N1.5/N1.6)、GEAR-SONIC通用行为基础模型,还支持VR全身遥操作、运动砖块实时生成、训练/推理/部署全流程。 主要功能: - GEAR-SONIC:基于大规模人类运动数据训练的全身控制器,支持行走、跑步、跪爬、跳跃、双臂操作等自然行为; - Decoupled WBC:下肢RL+上肢IK解耦控制器,用于GR00T N1.5/N1.6模型; - VR全身遥操作:通过PICO VR头显实现实时人机运动转移,支持数据采集; - MotionBricks:实时潜空间生成框架,15k FPS零样本运动合成; - 运动规划器:键盘/游戏手柄实时生成步态,支持多种风格(跑步、潜行、受伤等); - C++推理栈:硬件部署,支持ONNX导出、ZMQ协议、电机监控; - 训练管道:PPO训练、Bones-SEED数据集处理(142K+动作,288小时),支持从头训练/微调。 支持MuJoCo仿真、Isaac Lab训练、真实机器人部署(Unitree G1),通过Git LFS拉取模型快速本地运行,适合机器人研究者和开发者。
PPT Master 用AI一键将任意文档转为**原生可编辑PPTX**,生成真实PowerPoint形状、文本框和图表,不是图片!直接点击编辑。 支持PDF、DOCX、URL、Markdown输入,还能复制公司模板、添加动画过渡、生成旁白语音,甚至导出MP4视频。 主要功能: - AI自动生成**原生可编辑PPTX**,形状/图表/动画真实支持PowerPoint编辑; - 支持PDF/DOCX/Markdown/URL等多种文档格式一键转换; - 模板复制功能,可提取任意PPT作为私有模板库; - 页面过渡+元素入口动画,原生OOXML支持; - 语音旁白生成(支持克隆声线),直接嵌入PPTX并导出MP4; - 图片智能获取(AI生成+网络搜索),支持Pexels/Pixabay等; 只需安装Python + pip install -r requirements.txt,即可在Claude/Cursor/VS Code等AI IDE中聊天生成:「请从这个PDF制作PPT」即可。数据本地处理,无平台锁定。
传统TTS合成往往依赖GPU或云端API,资源消耗大、延迟高,还需网络连接,使用起来门槛不低。 Agora Pocket TTS 颠覆传统,提供超轻量级文本转语音解决方案,完全适配CPU运行。 仅100M参数模型,支持音频流式生成,低至200ms首帧延迟,MacBook Air M4上CPU实时6倍速,仅用2核。支持Python API/CLI、语音克隆、多语言(英法德葡意西),无限长文本输入,甚至浏览器端运行。 主要功能: - CPU高效运行,无需GPU,~200ms低延迟音频流式生成; - 超轻量100M参数模型,实时6x速度,仅2核CPU; - 语音克隆,支持自定义wav样本快速适配; - 多语言支持:英语、法语、德语、葡萄牙语、意大利语、西班牙语; - Python库/CLI/HTTP服务,pip/uv一键安装; - 浏览器WebAssembly运行,无需安装即试用; - 无限长文本处理,适合长篇朗读/ audiobook。 支持Python 3.10+,PyTorch 2.5+,跨平台Web/桌面,通过pip install pocket-tts本地运行,适合开发者、内容创作者和AI应用。
开发项目管理常常需要监督编码代理,监控任务进度、审查PR、验证CI状态,还要手动处理复杂工作,来回协调效率低下。 OpenAI Symphony 将项目工作转化为隔离的自主实现运行,让团队管理工作而非监督编码代理。 不仅能监控Linear看板自动生成代理处理任务,还提供CI状态、PR审查反馈、复杂度分析和演示视频等工作证明,验收后安全合并PR。 主要功能: - 监控任务板(如Linear),自动生成隔离代理实现任务; - 提供完整工作证明:CI状态、PR审查、复杂度分析、walkthrough视频; - 安全PR合并机制,工程师无需实时监督; - 支持harness engineering代码库,适用于成熟项目; - 实验性Elixir参考实现,可快速部署运行; - SPEC规范公开,便于自定义开发其他语言版本。 支持Elixir/Python等语言实现,适合工程团队和AI开发项目使用,低调工程预览版,专为可信环境测试。
为什么 AI 复杂任务,正在放弃 Markdown 转向 HTML | 推文 随着 AI 代理能力的增强,传统的 Markdown 格式已难以承载复杂的逻辑与视觉需求。转向 HTML 作为 AI 的输出媒介,能实现更高信息密度、交互式体验与更直观的视觉呈现,从而让人类在协作中保持深度参与。 当 AI 代理(Agent)开始处理极其复杂的任务时,Markdown 这种“轻量级”的语法反而成了一种枷锁。 如果你习惯于看 AI 生成的 Markdown 计划书,大概会发现一个尴尬的现状:一旦文档超过百行,阅读体验就开始崩塌。为了弥补表达能力的不足,AI 甚至会用 Unicode 字符去模拟颜色,或者用 ASCII 字符画一些简陋的流程图。这就像是在用电报机试图传输高清视频,虽然能传达意思,但效率低得令人沮丧。 HTML 正在成为一种更高效的“通信协议”。 它不仅仅是关于“好看”。HTML 的核心优势在于信息密度。通过嵌入 SVG 矢量图、利用 CSS 进行布局、甚至加入 JavaScript 实现交互,AI 可以交付一个真正的“产品”而非仅仅是一段“描述”。比如,与其看一段描述数据趋势的文字,不如让 AI 直接生成一个带滑块的交互式仪表盘。 有网友提到,HTML 带来的交互感能让协作变得更有趣。你可以要求 AI 生成一个临时的、针对特定任务的“微型编辑器”:比如一个可以拖拽排序的任务卡片流,或者一个带实时预览的 Prompt 调试器。这种“即用即弃”的工具感,让文档从静态的记录变成了动态的实验室。 当然,这种转变并非没有代价。 HTML 的 Token 消耗通常是 Markdown 的数倍,且在版本控制(Git Diff)中显得非常臃肿。如果只是为了简单的笔记,Markdown 依然是王者。但当我们需要进行复杂的架构设计、代码评审或原型开发时,HTML 提供的语义化结构和视觉清晰度,能显著降低人类的认知负荷。 与其说我们在重新发现 HTML,不如说我们在利用 Web 技术栈,为 AI 时代构建一种全新的、可交互的“数字界面”。 当文档本身变成了一个可以运行的小程序,我们与 AI 的关系,也从单纯的“指令与反馈”,进化成了真正的“共创”。
重构 Claude 使用逻辑:从自动补全升级为 AI 协作伙伴 | 推文 通过将 Andrej Karpathy 的 4 条基础规则扩展为针对现代 Agent 工作流的 12 条指令,可以将 Claude 的编程错误率大幅降低。核心在于将 AI 从“自动补全工具”升级为遵循“行为契约”的协作伙伴。 很多人把 CLAUDE.md 当成随手丢弃的偏好清单,要么塞满 4000 个 token 导致模型完全无视,要么干脆空着。这就像给一个极度聪明的实习生发了一本厚得没法读的员工手册,最后他只能靠直觉乱撞。 Karpathy 最初提出的 4 条规则解决了“写代码”时的基本逻辑问题:别瞎猜、保持简单、外科手术式修改、目标导向。这确实把错误率压了下来,但现在的 AI 已经不是只会写单行代码的补全工具了,它们是会在多个文件间跳转、执行多步任务的 Agent。 现在的痛点变了。有网友提到,Agent 会在长任务中迷失方向,或者在两个不同的代码风格之间试图“取平均值”,结果写出了一堆逻辑混乱的缝合怪。 为了补齐这些漏洞,需要引入更硬核的约束。比如,别让模型去做确定性的逻辑判断,那是代码该干的事,不是概率模型该干的事;必须设置严格的 Token 预算,否则它会陷入无休止的循环,直到烧光你的额度;还有最重要的,要求它“大声失败”。如果迁移漏掉了记录,或者测试只是在测常量,它必须直接告诉你“我没把握”,而不是伪装成成功。 有趣的是,规则并不是越多越好。当规则超过 200 行,模型就会开始机械地模仿“存在规则”这个事实,而不再理解规则本身。 这本质上是在为 AI 编写一套“操作系统协议”。规则不是建议,而是契约。
数学知识分散在教材、笔记、网页,到处找定义、公式、证明,学习效率低下。 Algebrica 把大学数学知识体系化整理,提供清晰、结构化的免费知识库。 不仅有精确定义、定理证明,还配数学准确的SVG插图,支持Markdown+SVG开源复用,覆盖积分、极限、复数、多项式等核心主题。 主要功能: - 结构化数学知识:从定义到定理到例题,逻辑递进无死角; - 矢量SVG插图:精确、可编辑,完美适配笔记/讲义/教育资源; - Markdown源文件:透明开源,CC BY-NC 4.0许可非商业复用; - 概念连贯性:统一符号、逐步推导,避免教材间不一致; - 大学水平覆盖:分析几何、代数结构、线性系统、三角等; - 持续迭代:作者亲手撰写,不断精炼提升准确性。 支持离线阅读、GitHub预览、本地编辑,通过 Git clone 即可获取全部内容,适合学生、教师、自学者使用。
科研绘图经常需要反复调参数,配色不标准、字体不对、布局乱七八糟,还得AI重绘或手动修半天。 nature-skills 把Nature期刊绘图规范全部整合到一起,提供了整套科研绘图的解决方案。| #科研 #工具 不仅有publication-ready的多面板matplotlib图表生成,还支持学术prose润色、审稿回复、数据可用性声明,甚至paper转PPT工作流。 主要功能: - nature-figure:Nature级matplotlib多面板图,支持10种图表类型(柱状/折线/热图/散点/雷达等),输出可编辑SVG; - nature-polishing:学术文本润色到Nature风格,≤30词句子、时态对齐、英国英语; - nature-citation:Nature/CNS引用检索,支持ENW/RIS/Zotero RDF导出; - nature-response:审稿意见逐点回复,行动映射+风险检查; - nature-data:数据可用性声明+FAIR元数据审计; - nature-paper2ppt:论文转中文化PPTX,精简证据链+演讲笔记。 基于真实Nature论文和指南规则,支持Python本地运行,适合科研工作者、博士生和投稿党。
微信聊天记录太多,搜索费劲、导出麻烦、数据分析全靠手动翻页,私域运营和日常管理超级头疼。 wx-cli 把微信本地数据全解锁,用命令行一键查询聊天记录、朋友圈、联系人,提供高效的数据管理解决方案。 不仅能毫秒级全库搜索消息,还支持朋友圈挖掘、聊天统计、收藏检索,甚至一键导出 Markdown,完美适配 AI Agent。 主要功能: - 全库消息搜索和历史记录查询,支持关键词、时间范围、群聊过滤; - 朋友圈数据挖掘,包括通知、时间线搜索、作者限定和媒体详情; - 会话管理,查看最近会话、未读消息、新增消息,区分私聊/群聊/公众号; - 联系人和群成员列表,支持姓名搜索; - 收藏内容检索,按类型(图片/文章/视频)或关键词筛选; - 聊天统计分析,按时间范围统计消息频率; - 一键导出,支持 Markdown/JSON 格式,便于备份和分享; - Daemon 架构,零依赖安装,完全本地运行,数据不出机。 支持 macOS、Linux、Windows 多平台,npm 一键全局安装,保持微信运行即可初始化使用,适合私域运营、数据分析师和开发者。
用AI快速写代码的背后,藏着程序员的隐性焦虑 | blog AI 极大地缩短了“想法”到“结果”的路径,这虽然缓解了许多人的任务瘫痪,却也带来了一种空虚感。当实现过程被外包,程序员正面临着内在成就感的丧失、技能萎缩以及一种类似赌博的成瘾性风险。 有个很有共鸣的说法:LLM 拿走了所有的内在奖励,只留下了外在收益。 以前写代码像是在解谜,那种从底层逻辑一点点啃下来、最后构建出系统的过程,是纯粹的内在驱动。但现在,当你用 Claude 或 Cursor 几分钟就“变”出一个工具时,那种成就感消失了。就像你下载了一个别人写好的库,虽然东西能用,但那不是你做的。你感觉自己不再是一个创造者,而是一个在管理一群“代理人”的经理。 这种感觉很像从工程师转岗做管理:你不再处理具体的细节,而是在解释意图、审查输出、处理那些因为上下文膨胀而开始“漂移”的错误。 更危险的是那种多巴胺的反馈循环。 对于有 ADHD 或执行功能障碍的人来说,AI 简直是神药,它能瞬间抹平“启动困难”的阻碍。但这种“想法→结果”的路径被极度压缩,会让大脑陷入一种类似赌博的成瘾状态。你不再享受思考的过程,而是在追求那种“咒语一念,奇迹发生”的快感。有网友提到,这种快感甚至让人想通过不断购买 Token 来维持这种高频的反馈。 有观点认为,这其实是在用长期的认知能力换取短期的交付速度。 我们正在经历一种技能的“退化”。每一次选择让 AI 代替思考的捷径,都是在削弱我们对复杂系统的直觉和调试本能。当代码变成了一种随手可得的“生成物”,它在开发者心中的价值也就归零了。 如果有一天,我们只需要通过自然语言来“指挥”代码,那我们究竟是在编程,还是在进行某种高级的、无意义的文字游戏? 或者说,当所有的实现都变得廉价,我们该如何定义“创造”?
多模态AI开发常常需要多个专用模型,理解模型处理视觉分析,生成模型负责图像输出,还要额外集成推理和工具调用,切换繁琐效率低下。 SenseNova-U1 用NEO-unify架构从第一性原理统一多模态理解、推理和生成,提供端到端原生多模态解决方案。| 在线尝试 不仅实现像素到词的统一建模,支持高质量文本到图像生成、图像编辑、交错图文生成,还能进行视觉问答、视觉语言行动(VLA)和世界建模,开源SOTA性能。 主要功能: - 原生统一多模态架构,无需VE和VAE,支持端到端像素-词处理; - 高质量文本到图像生成,支持复杂信息图表、海报、漫画等高密度渲染; - 图像编辑和交错图文生成,可生成连贯的文本+图像教程和故事; - 视觉理解和推理,支持长上下文VQA和代理式视觉任务; - 支持GGUF量化、低显存推理,单GPU友好,兼容Web/本地部署; - 提供SenseNova-Studio在线 playground 和SenseNova-Skills代理集成。 支持 Transformers、LightLLM 多框架部署,8B/A3B模型规模,Apache 2.0许可,适合AI开发者、研究者和应用集成。
OCR识别需要多个工具,布局分析工具拆分文档结构,文本识别模型提取内容,还要额外的手动后处理,来回切换效率低下。 GLM-OCR 把OCR全流程功能全部整合到一起,提供了精准×快速×全面的文档理解解决方案。 不仅有SOTA级多模态OCR模型和布局分析,还支持复杂表格/公式/代码识别,云端API和本地部署,甚至一键CLI/Python调用。 主要功能: - SOTA性能,在OmniDocBench V1.5得分94.62,文档理解基准排名第一; - 实景优化,完美处理复杂表格、代码文档、印章等挑战场景; - 高效推理,仅0.9B参数,支持vLLM/SGLang/Ollama部署,低延迟高并发; - 超易使用,pip install glmocr 一行命令解析图片/PDF,支持CLI/Python/Flask API; - 完整SDK,云API(零GPU)或自托管,支持大图/PDF多页文档; - 模块化架构,可自定义布局检测、OCR调用和结果格式化(JSON/Markdown)。 支持云端API、vLLM/SGLang本地部署、多平台使用,通过pip安装即可快速上手,适合AI开发者和企业文档处理。
生物细胞3D建模需要切换多个工具,三维渲染软件处理模型展示,AI生成工具创建细胞结构,还要额外的交互面板查看细节,来回切换颇为麻烦。 3DCellForge 把细胞探索所需的功能全部整合到一起,提供了AI驱动的交互式3D细胞生成与探索工作室。 不仅有流畅的WebGL细胞查看器,支持拖拽旋转、缩放和器官细节面板,还能通过图像转3D生成真实细胞模型,支持GLB导出、截图和离线缓存。 主要功能: - 交互式3D细胞查看器,支持React Three Fiber实时渲染和轨道控制; - 图像转3D生成,支持Tripo云端、Hunyuan3D本地和浏览器深度图多种模式; - 器官细节卡片、显微镜视图、比较面板、笔记和图库管理; - GLB/GLTF模型导入导出、截图功能和本地缓存,支持离线演示; - 多平台浏览器运行,集成Vite快速开发,无需复杂环境配置; - 安全API密钥管理,后端Node服务处理生成任务,前端零暴露。 支持 Web 浏览器直接运行,通过 npm install 和 npm run dev 即可本地启动,适合生物研究者和教育工作者使用。
AI 高效工作流:原型实验+倒带压缩,实现试错到认知升级 | 帖子 提要:通过 /prototype 进行原型实验,再利用 /rewind 结合 summarize 功能将实验过程压缩为结构化知识,从而在保持上下文精简的同时,实现从“试错”到“认知”的跨越。 很多人用 AI 就像在沙堆上盖房子,一边堆一边塌。 有个很有意思的工作流:先用文档去“拷问”AI,遇到答不上来的问题,直接进入 /prototype 模式,不计成本地消耗 Token 去做一个原型。等原型跑通了,关键动作来了:使用 /rewind 回到问题点,并执行 summarize。 这本质上是在做一种上下文的“垃圾回收”与“知识提取”。 有网友提到,这个组合拳最厉害的地方在于,它把昂贵的 Token 消耗从单纯的“氛围感试错”转化成了可复用的“产品记忆”。如果你只是盲目地在对话框里堆砌指令,你是在浪费算力;但如果你学会了“自由探索→压缩学习成果→带着更优上下文继续”,AI 才真正开始像一个工程协作伙伴。 这让人想起操作系统的内存管理。直接把所有运行日志塞进上下文,迟早会触发 OOM(内存溢出)或者让推理变得极其迟钝。通过 summarize 进行压缩,就像是把频繁访问的热数据提取成索引,把冗长的执行路径变成了一行简洁的函数调用。 有观点认为,这种流程一旦跑通,就可以将其封装成 SKILL.md,让整个团队直接共享这种思维模型,而不是每个人都去重新发明轮子。 不过也有人觉得,这种频繁的“倒带”操作可能会打断心流。这大概取决于你是在做简单的 Prompt,还是在进行深度架构设计。 如果实验本身就是为了寻找答案,那么在看到答案的那一刻,把过程“压缩”掉,只留下结论,或许是目前最高效的交互方式。 下一步该怎么做?或许是把这种经过验证的流程,直接变成 Agent 的内置技能。
星星大厂云服务器(阿里云 腾讯云 亚马逊 谷歌云),提供自助充值平台,解决24小时充值问题,全网招代理,全网最低折扣 。 大厂云自助开户充值 @xxbots 星星云频道介绍 @xxy88 需要海外服务器联系星 @xxyun0 #AD
netflix的官方技术博客发了篇长文介绍模型服务中的路由现状 | blog “这是一个多篇系列博客的第一篇,分享了我们如何通过机器学习模型服务基础设施在多个领域(例如,标题推荐、商务)大规模提供个性化体验的技术见解。 在这篇介绍性博客中,我们将深入探讨我们的领域无关 API 抽象及其流量路由能力,该能力由中央 ML 模型服务平台向多个特定领域的微服务暴露,用于模型推理。这个单一的 API,即进入 ML 模型服务平台的入口,显著提升了在现有 ML 体验上迭代新版本的创新速度,同时也支持使用 ML 构建全新的产品体验。” 在大规模在线推理系统里,路由不只是把请求分发到任意实例,而是要在延迟、吞吐、成本、可用性、模型/硬件异构性和实时负载变化之间做权衡;文章梳理了从简单静态/轮询式负载均衡,到更智能的、感知服务状态与性能指标的自适应路由思路,强调好的 routing layer 应该把模型副本、容量、队列、SLO、降级策略和观测数据结合起来,动态决定请求去哪里,从而提升资源利用率并稳定用户体验。
强化学习教程:Hands-On Modern RL,现代强化学习实战指南:涵盖经典控制、LLM 后训练、RLVR 与多模态智能体 | 在线阅读 | github | #电子书 2016 年,AlphaGo 击败李世石,强化学习第一次震撼公众。2022 年 ChatGPT 发布,人们发现 RL 正是让大语言模型从"能说话"变成"说好话"的关键技术。从 DeepSeek-R1 到各类开源对齐模型,RLHF、DPO、GRPO 等算法已经深刻地重塑了整个 AI 行业。 然而,市面上的学习资源严重滞后于行业实践。主流教程对 RL 一笔带过,专门的 RL 教材又停留在传统框架,对 PPO、DPO、GRPO 只字不提。一个想要理解 RLHF 流程的工程师,不得不在经典教材和最新论文之间艰难地自行搭建桥梁。我们着手写这本书,就是为了填补这道鸿沟。 这本书代表了我们的尝试——让现代强化学习变得平易近人,用代码、数学和直觉的融合来教会人们核心概念。 一种"先动手、后理论"的学习路径 许多教科书先讲完 MDP 的全部性质,再讲贝尔曼方程,最后才允许你碰一行代码。在这本书中,你将从第一章的第一行代码开始训练一个智能体。当你亲眼看到 CartPole 的小车从摇摇晃晃到稳稳站立,亲手用 DPO 让一个大模型学会"说好话",再回过头理解背后的数学时,学习过程会更加自然,理解也会更加持久。 每一章都遵循一个四步循环:先给你一段可运行的代码,让你获得直接经验;然后引导你关注训练曲线上的关键现象;接着在具备直觉的基础上讲解数学原理;最后用理论重新解读之前的现象,完成从直觉到形式化的闭环。 本书的每一章都包含可运行的代码示例。强化学习中的许多直觉只能通过试错来建立——调一调学习率,观察 reward 曲线的振荡;改一改 clip 参数,看看策略是否会崩溃。这些经验无法仅靠阅读公式来获得。 本书面向学生、工程师和研究人员。不需要过往的深度学习或机器学习背景,只需基本的 Python 编程能力、线性代数(矩阵运算)、微积分(偏导数、链式法则)和概率论基础(期望、条件概率)。大多数时候,我们会优先考虑直觉和想法,而不是数学的严谨性。
Realmbird正在写Deepseek 新架构mHC的系列文章,目前完成了一篇。| blog 流形约束超连接(Manifold-Constrained Hyper-Connections,mHC)是 Deepseek 新增的一种架构,并已在 Deepseek v4 中实现。 mHC 是对 HC(超连接)的一种修复,它解决了 HC 导致的梯度消失或爆炸问题,同时仍保持性能提升。因为在 HC 上添加权重和偏置会使来自较早层的信号更难更新,从而使残差流的“残差性”降低。 HC 是一种诅咒般的方法,通过在残差流上添加权重和偏置来模拟更宽的残差流。 mHC 是对 HC 的改进,其中使用 Sinkhorn-Knopp 方法使残差流上的权重和偏置变为双随机矩阵。双随机矩阵的行和列之和都为 1,就像同时沿行和列应用 softmax。MHC-lite 与 mHC 论文类似,但使用了 Birkhoff-von Neumann 方法来实现双随机矩阵。
一份面向工程设计的人形机器人指南,很多人形机器人的硬件/物理学知识 | blog | #指南 “一个类人机器人每小时大约走 5,000 步。每一步都会将相当于身体重量 2–3 倍的冲击力传递到腿部执行器——偶尔承受这样的力还可以,但当这种冲击连续数千次而不间断时,就会造成破坏。这种无情的工作循环正是大多数类人机器人执行器失效的原因,也是幸存者最终都采用相同工程解决方案的原因。 关键在于,因为这种冲击发生的速度快于任何传感器循环的反应时间(亚毫秒级),执行器必须在机械上能够‘让步’(可反向驱动性),以吸收能量。如果执行器在机械上是自锁的——如大多数工业用滚珠丝杠——齿轮箱就必须吸收 100% 的冲击能量,从而导致瞬间剪切失效。”
现在市面上AI工具很多,skills也遍地都是。似乎构建一个AI自动化工作流已经非常简单了。但是,真正动手才知道,这里面的坑非常多: *很多skills看似很厉害,但不能完成我的个性化的需求。AI时代,真正属于自己的、个性化的工作流才是重点。 * 下载了skills,好容易配置起来了,但运行就是不稳定,有时候好使,有时候又不好使。修起来也不知道从何下手。 * 使用OpenClaw极费token。 * 有些skills要求注册api key,或者调用频率有限制。本来只是想完成自己的一个小需求,没想到还得付个订阅费。 这个视频演示如何使用Claude Code + AmphiLoop免费制作一个真正属于自己的AI工作流:自动浏览+汇总YouTube上指定的视频频道,并把汇总信息定时发送到手机。
一个世界模型的教学项目:Nano World Models 这个项目把一个完整研究世界模型需要的东西放在一起:数据、训练、评估、模型变体、实验消融、可视化和下游应用。它的目标是降低从“读懂世界模型”到“实际部署和实验”的门槛,并通过简洁抽象、模块化配置和完整文档,让使用者能轻松修改、适配和扩展 项目强调“从模型到科学”的转变:随着世界模型方法逐渐收敛,真正重要的问题变成如何理解模型行为、验证经验规律、探索规模化和最佳实践;因此它提供了模块化设计、丰富数据环境、可复现实验和开放资源,目标是成为世界模型研究社区的共享基础设施。
Addy Osmani 是 Google 的工程师,目前担任 Google Cloud AI director。 他写了一篇博客《Agent Skills》来提醒开发者:AI 编码智能体虽然能快速生成代码,但默认会跳过高级工程师重视的“隐形工作”,比如写规格、拆任务、先测试、做评审、控制改动范围、留下验证证据。 本文中Addy Osmani 试图把多年在 Google 级工程体系中沉淀出的工程纪律,迁移到 AI agent 时代,让模型不只是更快地产出代码,而是在规格、测试、评审、验证和发布约束下产出更可信的软件。 文章配套有开源项目 addyosmani/agent-skills ,把里面这些高级工程实践封装成了 skills 。
一个文件让 AI Coding 效率翻倍:AGENTS.md 实践指南 | 公众号文章 「在代码仓库中放一份上下文文件,告诉 AI 工具这个项目是什么、怎么构建、有什么规矩」——这个做法现在已经有了一个统一的名字:AGENTS.md。 团队使用的 AI Coding 工具比较分散——Qoder、Cursor、灵码、Kiro、Claude Code 都有人用。不同工具各自有配置机制,Skill、Rule、Hook 的存储目录不统一。 选择 AGENTS.md 作为核心入口的原因: 足够通用——已被多数主流工具识别,一份文件覆盖大部分工具 零配置成本——不需要安装插件或配置 hook,工具打开项目自动读取 降低维护负担——不用为每种工具各维护一份规则文件 兼容性好——Claude Code 不识别 AGENTS.md,但 ln -s AGENTS.md CLAUDE.md 即可 基于这个考虑,我们把和特定工具绑定的 rules、hook 等配置作为补充,核心规则全部收敛到 AGENTS.md 一个入口。
像对待开发者一样对待你的编码代理 这篇文章认为,要像管理初级开发者一样管理编码agent。| blog 单个 agent 在一个目录里工作还勉强可行,但多个 agent 并行写代码时,很快会因为 Git 分支、文件系统缓存、Docker Compose 容器、端口和数据库等共享资源互相干扰。 解决办法是给每个 agent 一套独立的开发者环境:自己的项目副本、运行时、Compose 命名空间、本地 URL 和独立分支。这样 agent 的工作流就更接近真人开发者:各自开发、提交分支、接受 review、能随时丢弃实验环境。 提升 agent 生产力的关键不只是模型能力,而是给它们配套人类团队早已习惯的工程协作基础设施。
美团LongCat 团队发了篇Paper 并发了一个配套的skill,用一个比较简单的办法来提升agent在数学、代码和可验证推理任务上的表现。| hugging face 现在 Agent 框架越来越复杂了,很多系统通过多智能体、记忆、技能和工具调用来提升模型表现。但作者认为真正起作用的可能并不是这堆复杂的东西,而是模型在推理时进行“更重、更充分思考”的能力。 论文提出的 HeavySkill,就是把这种能力封装成一个可复用的 skill:先让模型从多个角度独立推理,再对这些推理过程进行综合、比较和判断。实验结果显示,这种“多路探索 + 综合反思”的方式,通常比简单多次采样或多数投票更有效,尤其在数学、代码和可验证推理任务上提升明显。
OpenCyvis 是一个开源的 AI 手机方案。用户可以自由选择 LLM 后端(云端或本地),AI 在后台虚拟显示器上操作,不占用前台屏幕。Apache 2.0 协议,代码完全公开。 “过去一年,不少厂商推出了「AI 手机」的概念——豆包、三星 Galaxy AI、Google 的 Gemini 集成等等。核心思路大同小异:AI 理解屏幕内容,代替用户完成操作。 但这些方案有一个共性:它们都是封闭的。模型由厂商指定,数据通过厂商的服务器处理,用户没有办法审计中间发生了什么,也没有办法换一个自己信任的模型。 开源社区也有一些尝试,比如基于 ADB 的各种PhoneUse项目。它们可以让用户自定模型,但需要连接电脑,且 AI 操作时会直接占用用户的屏幕。 于是我做了OpenCyvis ,试图同时解决这两个问题。”
微软提出了一种面向行为的并发(BOC)编程范式,尤其适合 Python。| blog “在 BOC 程序中,数据是共享的,但每个行为对数据拥有独特的时间所有权,从而无需通过锁来协调访问。对于 Python 程序员来说,这带来了诸多好处。行为通过装饰函数来实现,从程序员的角度看,这些函数的使用方式与普通函数无异。更重要的是,程序员的任务从解决并发数据访问问题转变为通过函数组织数据流。由此生成的程序更易于理解、更易于维护、更易于扩展,并且能够充分利用多核性能,因为可以高效地调度行为在多个进程中运行。” 它的全名是 Behavior-Oriented Concurrency in Python,核心目标是让程序员把注意力转移到有哪些行为要发生、这些行为依赖哪些数据、数据如何在行为之间流动这样的问题上,降低并发编程的难度。官网把它概括为一种适合 Python 的并发/并行新范式:让每个行为在某段时间内独占它需要的数据,从而减少手动协调共享数据的负担。