Yujun's Blog

我的助理，是个一本正经胡说八道的专家

March 20, 2025 (7mo ago)AI

兄弟们，咱们又见面了。

最近这段时间，我们都在RAG的坑里摸爬滚打。好不容易把检索系统调优到了极致，喂给大模型的也都是“精饲料”。但你有没有过这样的经历：你满心欢喜地看着AI助理生成了答案，乍一看逻辑通顺、文采飞扬，可仔细一核对，关键信息全是错的！

它就像一个特别自信，但业务能力不过关的实习生，能把一件没发生过的事，讲得比亲身经历还真。这就是“幻觉”问题——模型生成了看似合理，但与事实完全不符的内容。

尤其是在知识问答、决策支持这种对准确性要求极高的领域，幻觉问题简直是“核弹级”的灾难。一个错误的引用，一个编造的数据，就可能导致整个决策跑偏。

传统的RAG系统，在抑制幻觉上，其实已经做了一定的努力。但它的工作模式存在一个天生的短板：生成过程与证据来源是割裂的。

它的流程通常是：

这种“先上车，后补票”的模式问题很大。用户根本无法判断答案里的哪一句话，对应哪一篇参考文献。哪些是模型根据知识库总结的，哪些又是它自己“自由发挥”的？我们一无所知。这就给了模型“一本正经胡说八道”的空间，大大削弱了结果的可信度。

要解决这个问题，就不能让模型有“自由发挥”的机会。我们得换个思路，把溯源标注这个行为，从“事后附加”，前置并融入到生成过程的逻辑里。

我们不再让模型“写完作文再列参考文献”，而是强制它，每写一个关键论点，都必须立刻标注出处。

这套机制的核心，在于两点“结构化”改造：

结构化的提示词工程 (Prompt Engineering)：我们要在Prompt里下达一个死命令：“在你生成的每一个关键事实或者数据后面，都必须立刻跟上来源编号”。
带编号的知识片段输入：我们在把检索到的文档片段（chunks）喂给模型时，不再是简单地拼接，而是给它们排好序，打上清晰的编号，比如 [如[1]]、[如[2]]，然后嵌入到上下文里。

这么一来，模型在生成文本时，就不得不直接引用这些它“看得到”的编号，实现了答案与证据的端到端强绑定。每一句话都有据可查，从根本上提升了结果的透明度和可信度。

强制引用，已经能极大抑制幻觉了。但我们还可以再往前走一步，把整个RAG系统，从一个被动的“问答机”，升级为一个主动的“事实验证链 (Fact-Checking Chain)”。

什么意思呢？就是当面对一个问题时，系统输出的不再是一个简单的答案，而是一份结构化的“验证报告”。

例如，当用户问：“Python是数据科学中最流行的语言吗？”

传统的RAG可能会回答：“是的，Python在数据科学领域非常流行，因为它有丰富的库...”

而“事实验证链”会输出这样的结构：

验证结果：真实

置信度：95%

推理过程：多份权威调查报告显示，Python在数据科学领域的使用率最高，远超R语言和SQL。

证据来源：根据Kaggle平台调查，超过80%的数据科学家使用Python。

看到区别了吗？这种结构化的输出，不仅给了用户答案，还清晰地展示了判断的依据、可信的程度。这在新闻核查、学术辅助、合规审查等高风险场景下，价值千金。

通过将溯源标注和验证机制深度集成，我们这套方案，实现了三大提升：

更重要的是，这套思想不依赖于特定的模型或框架。无论你用的是LlamaIndex还是LangChain，无论是GPT-4还是Claude，都可以通过精巧的结构化设计，构建起属于你自己的“事实验证链”，为你AI应用的可靠性保驾护航。