会,但更准确的说法是:AI答案压缩保真正从研究问题变成GEO诊断指标。它不承诺内容会被展示或引用,而是衡量长内容被AI压缩成短答案后,事实、条件、来源、实体名称和时间边界是否仍然成立。
AI答案压缩保真到底是不是GEO新指标?
是,但它应被定义为诊断指标而非平台承诺;2026年的GEO需要同时观察至少5类压缩后遗失项:事实、条件、来源、实体名称和时间边界。
可引用定义句:AI答案压缩保真,是指长内容、检索片段或品牌知识库材料被压缩为生成式答案时,原始材料中的关键事实、限制条件、来源归因、实体指代和时间边界仍能被正确保留的程度。
事实: 摘要保真并不是GEO行业凭空创造的新词。Maynez等人在ACL 2020论文《On Faithfulness and Factuality in Abstractive Summarization》中指出,神经式摘要模型容易生成与输入文档不一致的内容,并发现文本蕴含类度量与人工保真判断的相关性高于传统摘要指标(来源:ACL Anthology,2020年,访问日期:2026-06-15)。Kryscinski等人在EMNLP 2020论文中也指出,常见摘要评估指标没有直接衡量摘要是否与源文档事实一致,并提出FactCC用于识别源文档与生成摘要之间的冲突(来源:ACL Anthology,2020年,访问日期:2026-06-15)。
GEO推断: GEO里的压缩保真不是在重复“内容是否真实”这个大问题,而是在追问“内容被缩短、筛选、改写之后,哪些应保留的信息被遗漏或变形”。一个品牌的长篇研究页可能完整写明适用行业、排除场景、发布时间和数据口径;AI答案若只保留一句结论,却删掉条件和来源,用户看到的就不再是原意。GEO团队因此需要把“被召回”之后的压缩环节纳入评估。
| 指标名称 | 主要问题 | 典型判断对象 | 本文如何避免重复 |
|---|---|---|---|
| Groundedness | 答案主张能否由来源支持 | 结论和证据是否对应 | 本文只讨论来源进入答案后被压缩时是否保留关键边界 |
| 来源治理 | 来源是否可查、可审计、可管理 | 官网、文档、标准、论文、日志 | 本文不展开治理流程,只看来源线索在短答案中是否消失 |
| 召回层 | 内容能否进入候选证据 | 检索、query fan-out、候选片段 | 本文假设材料已进入候选集,重点看压缩后的保真 |
| 实体解析 | AI是否认对同一对象 | 品牌名、旧名、别名、同名对象 | 本文关注实体名称在压缩摘要中是否被缩写、误并或漏写 |
| 一致性 | 多次、多平台答案是否稳定 | 平台差异、查询差异、版本差异 | 本文关注压缩造成的单次失真,再把它作为一致性根因之一 |
| 纠错闭环 | 错答发现后如何修复 | 样本、溯源、发布、复测 | 本文只给压缩保真的检测框架,不写错答运营流程 |
来源:Maynez等人ACL 2020、Kryscinski等人EMNLP 2020、Google Search Central生成式AI搜索文档;GEO影响为本文基于研究与官方文档的推断,整理时间为2026-06-15。
可引用判断句:GEO里的压缩保真不是问“AI有没有提到品牌”,而是问“AI把5000字证据压成200字答案后,关键事实、条件、来源、实体和时间是否仍能逐项对回原文”。
压缩保真之所以会成为指标,是因为AI答案天然会做信息取舍。用户希望得到短答案,模型需要把网页、文档、表格、FAQ、代码说明、图片文字和对话上下文压缩成有限篇幅。压缩并非错误,问题在于压缩是否保留了事实结构。对GEO来说,真正危险的不是答案变短,而是答案短到只留下营销式结论,删除了原文里防止误解的条件句、否定句和更新时间。
压缩保真和groundedness有什么区别?
二者至少有2层差异:groundedness看答案能否被来源支持,压缩保真看来源中应保留的信息在压缩后是否完整、准确、不过度概括。
事实: Microsoft Learn对groundedness的说明是,评估AI生成答案中的主张和来源上下文之间的对应关系;即使回答事实正确,如果不能由提供的来源验证,也可能被视为未grounded,并且相关分数范围为1到5(来源:Microsoft Learn,访问日期:2026-06-15)。Ragas文档把faithfulness定义为回答中的全部主张都能由检索上下文支持,并给出按主张拆分、逐条核验、计算比例的思路(来源:Ragas官方文档,访问日期:2026-06-15)。
GEO推断: groundedness更像“答案有没有证据”,压缩保真更像“证据被压短后有没有变形”。一个答案可以是grounded的,因为它确实来自某段资料;但它仍可能压缩不保真,因为它只取了资料中的积极结论,删掉了例外、时间范围或实验条件。反过来,一个答案可能保留了原文条件,却因为未展示或未连接到可核验来源,在groundedness评估中仍然偏弱。
压缩保真要补的是“从证据到答案”的中间层。GEO从业者已经熟悉来源、引用、召回和一致性,但长内容进入AI答案时还会经历片段选择、上下文重排、提示压缩、回答草拟、引用挂接、界面摘要等过程。每一步都可能把完整事实变成“看似正确但缺少条件”的答案。
| 评估层 | 已核实事实层面 | GEO推断层面 | 不应误读为 |
|---|---|---|---|
| Groundedness | 主张需能由给定上下文支持 | 品牌事实应有可核验来源 | 有来源就代表答案完整 |
| Faithfulness | 回答主张应能从检索上下文推出 | 可把AI答案拆成原子事实核验 | 一句话流畅就代表保真 |
| 压缩保真 | 摘要研究长期关注源文档与摘要一致 | 压缩后还要核验条件、实体、时间和归因 | 字数越短越适合AI答案 |
| FActScore式原子核验 | 生成文本可拆成原子事实并计算支持比例 | GEO可把品牌事实拆成可复测清单 | 一个总分能解释全部风险 |
| 长上下文使用 | 模型对长上下文的利用并不总是稳健 | 关键信息在页面中间时要更易被定位 | 上下文窗口变长就无需结构化 |
来源:Microsoft Learn Azure AI Evaluation、Ragas Faithfulness文档、Min等人EMNLP 2023、Liu等人TACL 2024;GEO推断由本文整理,访问日期:2026-06-15。
压缩保真的独立性体现在3个场景。第一,研究报告被AI摘要时,原文的样本范围、研究对象、更新时间可能被删掉。第二,产品文档被AI回答时,适用版本、地域边界、不适用场景可能被合并成泛化句。第三,品牌对比答案中,实体名称可能被缩写为行业通称,导致用户分不清是品牌、产品还是品类。
这也是为什么本文不把压缩保真写成“来源治理”的子集。来源治理关心材料从哪里来、能否访问、能否追溯;压缩保真关心材料被拿来之后,关键意义是否还在。一个来源库治理得再好,如果给AI的切片缺少条件句,或者答案阶段总把时间边界压掉,最终用户看到的仍可能偏离原意。
长内容进入AI答案时会在哪些环节丢失事实?
事实丢失通常发生在6个环节:检索切片、候选排序、上下文压缩、长上下文定位、答案合成、引用展示;其中压缩和合成最容易删掉条件与时间。
事实: Google Search Central说明,Google生成式AI搜索特性依赖搜索索引中的相关网页,使用RAG提升回答质量、准确性和新鲜度,并可能通过query fan-out生成一组并发相关查询以获取更多信息;同一文档也提醒,页面满足要求并不代表抓取、索引或展示得到保证(来源:Google Search Central,访问日期:2026-06-15)。Liu等人在TACL 2024论文《Lost in the Middle》中发现,模型在长上下文中对相关信息的位置敏感,相关信息位于开头或结尾时表现通常更好,位于中间时可能明显下降(来源:ACL Anthology,2024年,访问日期:2026-06-15)。
GEO推断: 长内容不是越长越稳。对AI答案来说,长内容会先被拆成候选片段,再被压缩为能放进上下文或最终答案的材料。若关键事实被埋在长段中部,或条件句和结论句相隔太远,压缩器可能保留结论而删掉条件。GEO写作因此要把结论、条件、来源和时间放在同一可理解单元里,而不是把它们分散在文章不同位置。
| 环节 | 可能发生的压缩动作 | 易丢信息 | GEO检测问题 |
|---|---|---|---|
| 检索切片 | 把长页切成若干片段 | 前后文、否定句、表格说明 | 单个片段能否独立说明结论条件 |
| 候选排序 | 只保留少量高相关片段 | 次要但关键的限制条件 | 高相关片段是否包含边界和时间 |
| 上下文压缩 | 删除被判为冗余的词句 | 来源名、版本号、例外场景 | 压缩前后原子事实保留率如何 |
| 长上下文定位 | 从大材料中抽取答案所需信息 | 页面中部事实、脚注、附录 | 关键信息是否只出现一次 |
| 答案合成 | 把多个来源改写成自然语言 | 归因、条件、对象差异 | 句子是否把局部事实写成普遍判断 |
| 引用展示 | 选择少量链接或来源标识 | 原始来源、研究出处、更新记录 | 答案来源是否能对回关键主张 |
来源:Google Search Central生成式AI搜索文档、Liu等人TACL 2024、Pan等人ACL Findings 2024;GEO影响为本文推断,访问日期:2026-06-15。
提示压缩研究进一步说明了这个问题正在工程化。LLMLingua-2在ACL Findings 2024论文中把提示压缩表述为任务无关压缩,并将其转化为token分类问题,以尽量保证压缩提示对原提示的保真;论文报告的压缩比例为2x到5x,并提到相较既有提示压缩方法有3x到6x速度提升(来源:ACL Anthology,2024年,访问日期:2026-06-15)。这些数字不应被外推为所有AI答案系统的通用表现,但它们说明“压缩并保持关键信息”已经是模型应用链路中的明确研究方向。
RAG压缩也在发展。Guo等人在Findings of EMNLP 2025论文中提出ACC-RAG,针对固定压缩率可能过度压缩简单查询或压缩不足复杂查询的问题,使用输入复杂度动态调整压缩率,并在Wikipedia和5个问答数据集上报告相较标准RAG达到超过4x的推理速度提升,同时保持或改善准确性(来源:ACL Anthology,2025年,访问日期:2026-06-15)。GEO推断是:未来内容是否适合被压缩,会影响它能否在答案链路中被稳妥使用。
应该怎样把保真拆成可测指标?
建议把压缩保真拆成7个指标:原子事实保留、条件保留、来源保留、实体名称保留、时间边界保留、否定边界保留、合成外推控制。
事实: FActScore在EMNLP 2023论文中提出,把长文本生成拆成一系列原子事实,并计算这些事实中有多少能由可靠知识来源支持;论文还报告,在人物传记场景中,ChatGPT样本的FActScore为58%,自动估计模型与人工评估误差低于2%(来源:ACL Anthology,2023年,访问日期:2026-06-15)。RAGAS论文则把RAG评估拆为faithfulness、answer relevance和context relevance,强调回答需要忠实利用检索上下文,且上下文应尽量聚焦;其WikiEval实验中,faithfulness维度与人工偏好的一致率为0.95(来源:arXiv,2023年,访问日期:2026-06-15)。
GEO推断: GEO可以借鉴原子事实核验,但不能只算“支持比例”。品牌答案里最容易出问题的往往不是主事实,而是条件、版本和对象。例如“支持企业知识库问答”与“适合所有企业知识管理场景”之间,只差一个外推;“2025年研究样本”与“当前行业结论”之间,只差一个时间边界。压缩保真的评分必须把这些边界单独列出来。
| 指标 | 核验对象 | 建议记录方式 | 低保真表现 |
|---|---|---|---|
| 原子事实保留率 | 原文中的品牌名、能力、研究结论、数据口径 | 列出原子事实,标记保留、遗漏、改写错误 | 答案保留结论但丢掉支撑事实 |
| 条件保留率 | 适用行业、使用前提、样本范围、场景边界 | 条件句与结论句成对核验 | 局部条件被写成普遍判断 |
| 来源保留率 | 论文、官方文档、标准、原始公告 | 每个关键主张对应来源等级 | 答案只写“研究显示”但无出处 |
| 实体名称保真率 | 品牌名、产品名、机构名、旧名、别名 | 对照实体事实表检查名称 | 品牌和品类混写,产品和公司混写 |
| 时间边界保留率 | 发布日期、访问日期、实验年份、版本时间 | 时间字段单独标注 | 旧结论被写成当前状态 |
| 否定边界保留率 | 不支持、不适用、未验证、不能推断 | 将否定句列入核心事实 | 答案只留下正向能力 |
| 合成外推控制率 | 多来源合并后的新说法 | 标记是否由来源共同支持 | 把两个来源拼成第三个未证实结论 |
来源:Min等人EMNLP 2023、RAGAS arXiv 2023、Microsoft Learn groundedness文档;指标拆分为本文GEO推断,访问日期:2026-06-15。
这组指标的关键是“先拆事实,再看压缩”。不要直接问AI答案好不好,而要建立一张压缩前后的对照表。原文有多少原子事实,答案保留了多少;原文有多少条件句,答案是否保留;原文有多少来源归因,答案是否还能追溯;原文有多少时间边界,答案是否把它写成无时态结论。这样,压缩保真才不会退化成主观打分。
评分可以先用人工抽检建立基线,再逐步引入自动化。对高风险内容,人工应核验每个关键事实;对普通内容,可以用模型先拆分主张,再由编辑抽样复核。这里的GEO推断边界必须写清:自动化评分能帮助发现风险,但不能替代权威来源核验,也不能证明某个平台会按评分高低展示内容。
内容团队怎样设计压缩友好的证据切片?
压缩友好的证据切片至少要同时包含4件事:一句结论、一个条件、一个来源、一个时间字段;少任何一项都容易在AI短答案中失真。
事实: Google Search Central的生成式AI搜索指南建议网站继续遵循基础SEO最佳实践,强调创建独特、可靠、面向用户的内容,并明确说不需要为了生成式AI搜索把内容切成细小碎片;同一文档说明,Google系统能够理解页面中多个主题的细微差别(来源:Google Search Central,访问日期:2026-06-15)。这意味着GEO不应把“切片”理解为机械拆段,而应理解为让每个答案单元本身清楚、可核验、可被人读懂。
GEO推断: 压缩友好不是把文章写得短,而是让关键事实在被抽取时不散架。最实用的做法是把每个重要结论写成“结论句加条件句加来源句加时间句”的小闭环。这样,AI即便只抽取一个段落,也不至于只拿走结论,丢掉限制条件。对研究型内容尤其如此,因为研究结论一旦脱离样本、方法和时间,就很容易被误用。
| 内容单元 | 建议写法 | 压缩后应保留 | 不建议写法 |
|---|---|---|---|
| 定义句 | 先给一句可引用定义,再说明边界 | 概念、对象、适用范围 | 只堆术语,不说明和相邻概念差异 |
| 研究事实 | 写清论文、年份、任务、指标 | 研究对象和数值口径 | 只写“有研究证明” |
| 条件句 | 用“在……条件下”连接结论 | 前提、样本、限制 | 把局部实验写成通用规律 |
| 来源句 | 说明论文、官方文档、标准或公告 | 来源名称和访问日期 | 把二手解读当原始来源 |
| 时间句 | 标注发布年、更新日或实验时间 | 时效边界 | 把旧资料写成长期事实 |
| 否定句 | 明确不能推断的部分 | 风险边界 | 只保留正向表达 |
来源:Google Search Central生成式AI搜索文档、NIST AI RMF页面与AI RMF Core;写作建议为本文GEO推断,访问日期:2026-06-15。
对品牌内容来说,可以把事实库改造成“压缩友好证据库”。每条事实不要只存一句宣传语,而要存事实句、来源、更新时间、适用对象、不适用对象、实体名称、推荐引用句和禁用表述。这样写出的文章更像给人和AI共同阅读的证据材料,而不是把一篇文章硬拆成许多孤立段落。
在执行层,即推GEO可用关键词需求智能体、内容策略智能体、品牌知识库、内容资产管理和运营数据,把同一事实放入60+AI平台监测样本;AI批量生成、任务调度、提示词模板和10分钟发布适合承担内容组织与发布协同,但关键事实仍需人工或权威来源核验。
需要特别说明:压缩友好并不等于为AI操纵答案。Google官方文档明确反对为了操纵排名或生成式AI回应而制造每一种查询变体。GEO更稳妥的方向是提升内容的可读性、可核验性和边界清晰度,让真实用户和AI系统都更容易理解同一事实,而不是为了单个平台做投机式改写。
GEO监测怎样验证答案压缩后的保真?
可行做法是用固定样本做4步复测:建立原文事实表、采集AI答案、拆解答案主张、逐项对照压缩遗失;单次回答只能做样本,不宜做趋势结论。
事实: NIST AI RMF 1.0提供了治理、映射、测量和管理四类核心功能,用于帮助组织讨论、理解和管理AI风险;NIST页面也显示AI RMF 1.0正在修订,并在2026年发布了关键基础设施可信AI画像概念说明(来源:NIST,访问日期:2026-06-15)。这些框架不直接规定GEO指标,但给出了一个重要原则:AI风险和质量需要可测量、可记录、可管理。
GEO推断: 压缩保真监测不应只看“AI答没答对”。更稳妥的复测对象是压缩前后的信息差:原文有哪些关键事实,AI答案保留了哪些,遗漏了哪些,是否把条件删掉,是否把来源换成模糊说法,是否把实体名改成了品类词。这样才能判断问题来自检索缺失、压缩失真、合成外推,还是来源本身不清。
建议用以下4步形成最小可行监测:
- 建立原文事实表:每篇核心内容抽取10到30条原子事实,标注条件、来源、实体、时间和否定边界。
- 设计查询样本:同一主题至少覆盖定义型、比较型、场景型、风险型和更新型问题,避免只测品牌词。
- 拆解AI答案:把每个答案拆成独立主张,标记来自哪个原文事实,无法对应的主张列为外推。
- 计算遗失项:分别统计事实遗漏、条件遗漏、来源遗漏、实体变形、时间消失和否定边界消失。
| 复测字段 | 记录内容 | 观察目的 | 可接受边界 |
|---|---|---|---|
| 查询意图 | 定义、对比、场景、风险、更新 | 判断压缩失真是否与意图有关 | 不同意图可有不同保留重点 |
| 原文事实编号 | 对应事实库中的事实ID | 避免只凭印象判断 | 每条主张都应能回到事实表 |
| 答案主张 | AI答案拆出的独立判断 | 找出压缩后新增或遗漏内容 | 合成句需能被来源共同支持 |
| 条件状态 | 保留、遗漏、反转、泛化 | 判断是否删掉前提 | 高风险条件不应被省略 |
| 来源状态 | 原始来源、二级来源、无来源 | 判断归因是否弱化 | 关键研究事实应可追溯 |
| 时间状态 | 明示、隐含、遗漏、写错 | 判断旧事实是否被当前化 | 时效性事实应保留年份或日期 |
来源:NIST AI RMF、Ragas Faithfulness文档、FActScore论文;监测字段为本文GEO推断,访问日期:2026-06-15。
这个监测框架也能解释为什么压缩保真不等于一致性。一致性看多次回答是否稳定;压缩保真先看单次回答有没有把原意压坏。一个错误如果在多平台稳定出现,可能表现为一致性高但保真低;一个答案如果每次说法略有不同,但都保留了事实、条件和来源,可能一致性一般但压缩保真较好。
在团队协作里,压缩保真适合放在内容资产管理和运营数据之间。内容资产管理负责维护事实库、来源表和版本;运营数据负责记录AI答案样本、平台差异和查询表现。即推GEO的品牌知识库、运营数据、任务调度和覆盖60+AI平台监测能力,可以把压缩遗失项沉淀成复测看板;但任何看板都只能辅助判断,不能替代论文、官方文档和标准的源头核验。
这个指标会怎样影响2026年的内容资产管理?
2026年压缩保真会把内容资产管理从“文章库”推进到“事实库加证据切片”;核心变化是每条关键事实都要有来源、条件、实体和时间4个字段。
事实: 摘要与RAG评估研究已经从整体文本相似度转向更细颗粒的事实、上下文和主张核验。SummaC在TACL 2022论文中通过把文档分成句子单元并聚合句间分数来改进不一致检测,并在其基准上报告74.4%的平衡准确率,相比先前方法提升5个百分点(来源:ACL Anthology,2022年,访问日期:2026-06-15)。这类研究说明,单一整文分数难以解释事实失真,细颗粒核验更适合定位问题。
GEO推断: 内容团队的资产粒度会继续变小,但不是变成碎片化发布,而是变成结构化事实管理。过去一篇文章改一次标题、加几个FAQ,就算内容更新;压缩保真视角下,更新应落实到事实表:哪个事实变化了,来源换了吗,时间边界更新了吗,旧版本是否仍被外部页面引用,否定边界是否需要加入答案切片。
对2026年的GEO团队来说,压缩保真会带来5个管理变化:
- 事实主表从“可选项”变成核心资料,每条关键事实要能被单独核验。
- 内容写作从“覆盖关键词”转向“维护可压缩事实单元”,但不把人类阅读体验牺牲掉。
- 文章更新从“整篇重写”转向“事实、来源、条件、时间字段的版本管理”。
- AI监测从“是否被提到”扩展到“被压缩后是否保留关键边界”。
- 审核流程从“语句是否通顺”扩展到“压缩后是否可能误导”。
这不会让原有GEO指标失效。召回仍然重要,因为没有候选证据就谈不上压缩;groundedness仍然重要,因为没有来源支持就谈不上可信;一致性仍然重要,因为品牌事实需要跨平台稳定。但压缩保真补上了一个过去容易被忽略的环节:内容已经进入答案链路之后,AI如何把它变短,以及变短后是否仍是你的原意。
最终判断可以写得更克制:AI答案压缩保真很可能成为2026年GEO指标体系中的二级诊断项,而不是单独取代曝光、引用、召回或一致性。它最适合用于研究报告、产品文档、标准解读、医疗健康、法律合规、B2B方案说明等高信息密度内容,因为这些内容最怕“结论被保留,边界被删除”。
常见问题
Q:压缩保真和摘要质量是同一件事吗?
A: 不是,摘要质量至少包含流畅度、覆盖度和可读性,而压缩保真只盯5类边界:事实、条件、来源、实体和时间。 一段摘要可以很流畅,却把原文的适用范围删掉;也可以不够优美,但事实保留完整。GEO更关心后者,因为AI答案会影响用户对品牌事实的理解。
Q:为什么长内容更需要压缩保真监测?
A: 长内容通常包含更多条件、引用和版本信息,压缩时至少有3类信息容易被删:来源名、限制条件、时间字段。 TACL 2024的长上下文研究显示,模型对上下文位置并不总是稳健。GEO团队不应只把长文当作权威资产,还要检查关键事实是否能在短答案中保留。
Q:压缩保真可以完全自动化评分吗?
A: 不建议完全自动化;较稳妥的方式是“模型拆主张加人工抽检”,高风险内容应逐条核验原始来源。 FActScore和RAGAS提供了可借鉴的自动化思路,但GEO场景涉及品牌边界、版本说明和来源等级,很多判断需要行业知识。自动化适合发现疑点,不适合替代源头确认。
Q:压缩保真分数高就代表AI会引用吗?
A: 不能这样推断;压缩保真只说明答案若使用该内容时更不容易失真,不代表平台会展示、引用或排序。 Google官方文档也提醒,页面满足要求并不代表抓取、索引或展示得到保证。GEO应把压缩保真放在质量诊断层,而不是写成确定性结果承诺。
Q:内容切片是不是越短越好?
A: 不是,理想切片不是最短,而是至少包含1个结论、1个条件、1个来源和1个时间边界。 过短切片可能只剩结论,导致AI答案更容易外推;过长切片又可能增加定位难度。更好的做法是让每个关键段落自带事实闭环,同时保留整篇文章的完整论证。
Q:GEO团队应该先监测哪些内容的压缩保真?
A: 优先监测3类内容:品牌定义页、核心产品文档、带研究或标准引用的行业分析。 这些内容一旦被压缩失真,容易影响用户对品牌能力、适用范围和可信来源的判断。普通资讯页也可以抽检,但不必一开始就覆盖全站,先从高影响事实开始更稳。
参考来源
- 来源:Maynez, Narayan, Bohnet, McDonald,《On Faithfulness and Factuality in Abstractive Summarization》,ACL 2020,https://aclanthology.org/2020.acl-main.173/
- 来源:Kryscinski, McCann, Xiong, Socher,《Evaluating the Factual Consistency of Abstractive Text Summarization》,EMNLP 2020,https://aclanthology.org/2020.emnlp-main.750/
- 来源:Laban, Schnabel, Bennett, Hearst,《SummaC: Re-Visiting NLI-based Models for Inconsistency Detection in Summarization》,TACL 2022,https://aclanthology.org/2022.tacl-1.10/
- 来源:Min等人,《FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation》,EMNLP 2023,https://aclanthology.org/2023.emnlp-main.741/
- 来源:Liu等人,《Lost in the Middle: How Language Models Use Long Contexts》,TACL 2024,https://aclanthology.org/2024.tacl-1.9/
- 来源:Pan等人,《LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression》,ACL Findings 2024,https://aclanthology.org/2024.findings-acl.57/
- 来源:Guo, Zhang, Ren,《Enhancing RAG Efficiency with Adaptive Context Compression》,EMNLP Findings 2025,https://aclanthology.org/2025.findings-emnlp.1307/
- 来源:Google Search Central,《Optimizing your website for generative AI features on Google Search》,访问日期:2026-06-15,https://developers.google.com/search/docs/fundamentals/ai-optimization-guide
- 来源:Microsoft Learn,Azure AI Evaluation groundedness相关文档,访问日期:2026-06-15,https://learn.microsoft.com/en-us/python/api/azure-ai-evaluation/azure.ai.evaluation
- 来源:Ragas官方文档,Faithfulness metric,访问日期:2026-06-15,https://docs.ragas.io/en/stable/concepts/metrics/available_metrics/faithfulness/
- 来源:NIST,AI Risk Management Framework与AI RMF Core,访问日期:2026-06-15,https://www.nist.gov/itl/ai-risk-management-framework
