贵州省城乡建设厅网站首页,建立网站实验总结,钦州建设局网站,网页视频如何下载论文链接 RAG的一个棘手问题是不知道该召回多少chunk#xff0c;少了可能丢信息#xff0c;多了会引入噪声信息。虽然有self-reasoning等自我反思的解决办法#xff0c;但是整体链路太长#xff0c;延迟高#xff0c;不利于工业落地。
虽然无法面对整个服务场景#xff…论文链接 RAG的一个棘手问题是不知道该召回多少chunk少了可能丢信息多了会引入噪声信息。虽然有self-reasoning等自我反思的解决办法但是整体链路太长延迟高不利于工业落地。
虽然无法面对整个服务场景但是对于知识密集型数据可以用Speculative RAG解决。所谓知识密集即你要问的问题只集中在少数几个chunk里不需要长篇大论地找答案例如一个章节就解决一个事你要问这个事把这个章节拿来就全解决了。
对于这种数据Speculative RAG加速的办法是举个例子把72b或32b的大模型换成多个7b模型称为draft。RAG检索到100个chunk先用k-means把100个chunk聚类然后随机地把各个桶里的信息分到每个draft模型多个draft模型并行推理。 因为用了小模型所以必须保证问题足够简单。 并行推理的结果作为draft被后续模型评测例如忠诚度、相关度评测结果最好的作为最终答案。