🔥实时更新 频道/群组搜索 登录
TG资源网
黑洞资源笔记 12-31 01:00:12

一位开发者分享了他在构建RAG系统时,如何将幻觉率从常见的两位数降到1-2%的实战经验。| reddit 核心问题很简单:大多数RAG系统失败,不是因为模型不够聪明,而是因为"垃圾进,垃圾出"。当PDF解析器把表格打散成碎片,产品名和价格的关联就丢失了,模型只能靠猜。 他的四层防线: 第一层:解析质量。使用IBM开源的Docling解析器,输出结构化的Markdown,保留表格、标题、列表的层级关系。这让LLM能"看懂"文档原本的结构,而不是面对一堆乱码。 第二层:混合检索。纯语义搜索擅长理解"意思",但对精确匹配很糟糕——搜"型号X-500"可能返回"型号X-400"。他用Dense向量(e5-base-v2 + RaBitQ量化)加BM25关键词匹配,确保产品编码、日期、SKU这类精确信息不会被漏掉。 第三层:激进重排序。向量数据库返回的50条结果里,可能只有3条真正相关。用BGE-Reranker筛选到Top-5,这一步就砍掉了约60%的错误上下文答案。那些"差不多但不对"的结果,正是幻觉的温床。 第四层:严格的系统提示。强制模型在回答前先列出相关事实、解释推理过程,最关键的是——给它一个明确的"退出通道":如果信息不在上下文里,就说"我不知道"。阻止模型"好心办坏事"地编造答案。 评论区有人用Gemini分析了这套架构,结论是"行业标准plus"级别。但也指出了两个盲区:这套方案解决的是检索问题(找对信息),不解决推理问题(理解对信息);另外对扫描PDF和图片的处理,作者坦承还没测试过。 一个值得思考的点:为什么开源组件能比云厂商的闭源方案更准确?作者的解释是,Vertex和Bedrock这类服务在简单查询上体验很好,但在企业级场景(定价表、合同、技术手册)下,既不够准确又贵得离谱。 这套方案的本质洞察:幻觉不是模型的问题,是数据管道的问题。你无法修复你无法测量的东西——用RAGAS框架量化Faithfulness和Answer Relevance,才能形成调优的反馈闭环。

附件:[图片]