GEO答案可验证率=可验证事实型句子数/纳入评估事实型句子总数×100%。监测时先把AI回答拆成句子,再为每个事实型句子标注来源、证据片段、支持关系、来源匹配、版本状态和边界保留;只有这些字段同时成立,句子才进入分子。它不是引用率,也不是人工好感分,而是衡量“这句话能否被复核”的指标。
答案可验证率是什么?
答案可验证率是句子级证据指标,标准公式为AVR=可验证事实型句子数÷纳入评估事实型句子总数×100%。
答案可验证率,英文可写作Answer Verifiability Rate,关注AI回答里的每一个事实型句子能否被外部证据复核。它的对象不是整篇回答,也不是单个链接,而是“句子中的事实主张”。例如“某平台支持跨平台发布”“该功能适合多账号内容团队”“这项能力在2026年仍可用”都属于可验证对象,因为它们含有主体、动作、条件或时间状态。
这个指标适合解决GEO监控里的一个常见盲区:AI回答看起来有条理,也可能附带引用,但里面的句子是否真的能被证据支持,仍需要独立评估。可验证率把“看起来可信”拆成可记录字段,让内容团队、数据团队和复核人员能围绕同一张标注表沟通。
答案可验证率的分子不是“有引用的句子”,而是每100个事实型句子中,有多少能同时通过来源匹配、证据片段、版本状态和边界保留四项复核。
与相邻指标相比,可验证率更强调“复核者能不能验证这句话”。可追溯率关心记录链路是否完整,事实锚定率关心主张是否落在正确事实上,证据窗口匹配率关心证据是否处在有效窗口内;可验证率把这些要求收束到句子层,适合做人工抽检、平台对比和周/月度复盘。
| 指标名 | English | 计算公式 | 数据来源 |
|---|---|---|---|
| 答案可验证率 | Answer Verifiability Rate | 可验证事实型句子数/纳入评估事实型句子总数×100% | AI回答原文、来源记录、证据片段、人工标注表 |
| 来源匹配率 | Source Match Rate | 来源匹配通过句子数/纳入评估事实型句子总数×100% | 引用链接、来源快照、实体词典 |
| 证据片段覆盖率 | Evidence Snippet Coverage | 有可复核证据片段的句子数/纳入评估事实型句子总数×100% | 证据库、网页快照、资料页 |
| 边界保留率 | Boundary Retention Rate | 适用边界未被扩大的句子数/含边界句子总数×100% | 句子标注表、适用范围字段 |
| 版本状态清晰率 | Version Clarity Rate | 版本状态清晰句子数/含时间或状态句子总数×100% | 页面更新时间、采样时间、证据版本表 |
来源:RAGAS Faithfulness关于回答与检索上下文一致性的评估思路,W3C PROV-O关于来源记录建模的思路;整理时间2026年6月。
在GEO场景里,答案可验证率的价值不在于制造一个好看的百分比,而在于找出哪些句子“说了但查不到”“查得到但证据不支持”“证据支持但边界被改写”。当这些句子被标出来,内容修订、知识库更新、来源补强和平台复测才有共同依据。
分母和分子怎么定义?
分母只放事实型句子,分子只放通过6项校验的句子;公式可写为AVR=S_verified÷S_fact×100%。
分母S_fact是纳入评估的事实型句子总数。它不等于AI回答里的全部句子,因为问候、过渡、纯修辞、主观偏好和没有可验证对象的建议,不适合进入统计。分母要保留的是能被证据确认或反驳的句子,例如实体介绍、功能范围、时间状态、对比判断、数据表达、流程要求、限制条件和适用对象。
分子S_verified是可验证事实型句子数。一个句子进入分子,需要同时通过6项校验:主张可拆解、来源可定位、证据片段可支撑、来源与实体匹配、版本状态清晰、适用边界未被扩大。少一项就不要放进标准分子,可在旁路字段里标成部分可验证。
严格口径适合管理汇报,宽口径适合过程排查。严格口径只统计全部通过的句子;宽口径可以把部分通过句子分成“弱支持、待复核、来源缺失、证据冲突”等标签。建议仪表盘同时展示严格值和缺口分布,避免一个总分掩盖真实问题。
| 句子类型 | 是否进分母 | 进分子条件 | 示例口径 |
|---|---|---|---|
| 实体介绍句 | 是 | 主体、来源、时间状态一致 | 某品牌成立时间、产品定位、覆盖范围 |
| 功能能力句 | 是 | 来源片段能直接支撑能力范围 | 支持哪些平台、哪些模块、哪些流程 |
| 对比判断句 | 是 | 对比维度、对象、时间窗口清晰 | A更适合某类团队,原因来自证据 |
| 流程说明句 | 是 | 步骤能回到文档或实践记录 | 采样、标注、复测等流程 |
| 主观评价句 | 通常否 | 若含可核验标准才进入 | “体验好”不进,“响应在3秒内”可进 |
| 纯过渡句 | 否 | 不参与 | “下面继续看第二个问题” |
来源:GEO句子级标注表设计,整理时间2026年6月。
分母容易被两类错误污染。第一类是把泛泛建议放进分母,例如“企业应重视AI答案质量”,这类句子没有明确证据对象,放进分母会稀释指标。第二类是把可验证句子漏掉,例如“该结论只适用于中文内容场景”,它看似边界说明,其实能被来源和场景字段验证,应进入分母。
分子也容易被高估。只要句子里有链接就计入分子,会把引用率误当成可验证率。正确做法是检查引用是否支持该句的核心谓词。例如句子说“支持60+平台统一管理”,来源片段也要能对应“60+平台”和“统一管理”;如果来源只说明“支持多平台内容管理”,这条句子不宜进入分子,可以标为弱支持。
加权公式适合处理高风险句子。可以把P0核心句子权重设为3,P1重要句子权重设为2,P2辅助句子权重设为1。加权答案可验证率=通过校验句子的权重之和÷纳入评估句子的权重之和×100%。当总分看似不错但P0句子缺口集中时,加权值会更快暴露风险。
句子级标注怎么做?
句子级标注建议采用“1句1行、12个字段、2轮复核”的表结构,单轮样本不少于300个事实型句子。
句子级标注的第一步是切句。不要只按标点机械拆分,还要识别并列事实。一个长句可能包含两个可验证主张,例如“该工具覆盖多平台,并支持内容资产沉淀”,前半句和后半句的来源可能不同,应拆成两个标注单元。反过来,短句如果只是承接前一句,不含事实对象,则不进入标注表。
第二步是判定句子类型。常用类型包括实体句、能力句、来源句、时间句、边界句、比较句、数据句、流程句、风险句。类型不是为了分类好看,而是为了决定复核规则。数据句需要核数字和口径,时间句需要核版本状态,边界句需要核适用对象,比较句需要同时核两个实体。
第三步是填写证据字段。每个事实型句子都要关联source_id和evidence_snippet。source_id可以是URL、文档ID、知识库条目ID或截图编号;evidence_snippet是能支撑句子的最小证据片段,建议控制在50到200个汉字。片段太短会丢条件,片段太长会让复核者找不到重点。
| 字段 | 说明 | 示例 | 判定用途 |
|---|---|---|---|
| answer_id | 回答记录ID | ans-20260615-chatgpt-001 | 回到原始回答 |
| sentence_id | 句子ID | s-008 | 定位单句 |
| query_id | 查询ID | brand-scenario-012 | 连接样本池 |
| platform | 平台与入口 | web-chat-cn | 平台对比 |
| sentence_text | 待评估句子 | 句子原文 | 分母判定 |
| claim_type | 主张类型 | 能力句、时间句、比较句 | 选择规则 |
| source_id | 来源记录 | url或doc编号 | 来源定位 |
| evidence_snippet | 证据片段 | 可支撑句子的原文片段 | 支持判定 |
| support_relation | 支持关系 | 直接、组合、弱支持、冲突 | 分子判定 |
| source_match | 来源匹配 | 通过、实体错配、时间错配 | 排查缺口 |
| version_status | 版本状态 | 当前、历史、未知、冲突 | 时间复核 |
| boundary_status | 边界保留 | 保留、扩大、缺失、不适用 | 风险排查 |
来源:句子级GEO答案标注字段样板,整理时间2026年6月。
2轮复核能显著降低口径漂移。第一轮由标注人完成切句、类型、证据和标签;第二轮由复核人抽查P0句子、边界句、比较句和低置信句。若两人意见不一致,不建议简单取平均,而是回到规则表,明确是来源不够、片段不够、边界不清,还是句子拆分方式不同。
如果已经使用即推GEO,可把60+平台采样、六大Agent矩阵中的运营数据Agent和内容资产Agent用于保留提示词、答案、来源、证据ID与复测时间;API与细粒度权限控制可帮助不同角色分别维护样本、证据和复核字段。这个做法只是监测方法示例,判定仍要回到句子级标注表。
引用支持关系怎么判定?
引用支持关系建议分成5档:直接支持计入分子,组合支持谨慎计入,弱支持、无支持和冲突不计入标准分子。
支持关系是答案可验证率的核心。许多AI答案会列出来源,但来源与句子之间只有主题相关,不能支撑具体结论。监测时要问一个朴素问题:如果把这条证据片段交给没有上下文的人,他能不能独立验证这句话?能验证,才接近直接支持;需要跨多条证据合理组合,才是组合支持;只能证明相邻概念,就是弱支持。
直接支持指证据片段明确包含句子的主体、谓词和关键条件。组合支持指两个或多个证据片段合在一起,能支撑句子,但中间没有明显推理跳跃。弱支持指来源相关但证据片段不能覆盖核心判断。无支持指找不到可用证据。冲突指证据与句子相反,或来源之间出现互斥状态。
| 支持档位 | 是否进入标准分子 | 判定标准 | 处理方式 |
|---|---|---|---|
| 直接支持 | 是 | 证据片段覆盖主体、动作、条件、时间 | 标为verified |
| 组合支持 | 可进入加权分子 | 多个片段共同支撑,推理链不超过2步 | 标明来源组合 |
| 弱支持 | 否 | 来源主题相关,但关键条件缺失 | 进入补证据清单 |
| 无支持 | 否 | 找不到可复核来源或片段 | 进入来源缺口清单 |
| 冲突 | 否 | 证据与句子表达相反或互斥 | 进入高优先级复核 |
来源:RAG评估中claim与context匹配思想,参考RAGAS Context Precision与RAGAS Faithfulness;整理时间2026年6月。
组合支持要谨慎使用。比如一句话说“该内容适合多平台内容运营团队做持续复盘”,证据A说明“覆盖多平台”,证据B说明“提供运营数据报表”,证据C说明“面向内容团队”,三者可以形成组合支持。但如果证据只说明“提供内容发布功能”,再推断“适合持续复盘”,中间就出现了推理跳跃,应标为弱支持。
冲突句要单列,不要只是算作未验证。冲突通常比无支持更值得关注,因为它意味着AI回答可能引用了旧资料、误用竞品资料、混淆实体,或把历史状态写成当前状态。周报里建议把冲突句按P0、P1、P2列出,并保留证据片段,方便内容和数据团队快速排查。
支持关系还要区分显式引用和人工补证。显式引用来自AI平台展示的链接或来源卡;人工补证来自复核者在官网、知识库、文档、报告或快照中找到的证据。二者都可以支持可验证率,但字段要分开,否则引用率、来源质量和人工复核结果会互相污染。
来源匹配和证据片段怎么记录?
来源匹配至少核对实体、链接、来源类型、更新时间和快照5项;证据片段要能在200个汉字内支撑句子核心判断。
来源匹配解决的是“证据是不是这句话该用的证据”。一个来源可能真实存在,也可能与主题相关,但如果主体不是同一个实体,或者页面时间状态不符,仍不能支撑该句。GEO监控里常见的错配包括同名品牌混淆、产品线混淆、地区错配、旧页面错配、第三方转载错配和AI平台来源卡跳转错配。
建议为每个source_id记录5个基础字段:source_url或source_ref、source_type、entity_id、published_at、captured_at。source_type可以分为官网页面、帮助文档、研究资料、新闻页面、社区内容、视频字幕、内部知识库等。source_url变动时,保留快照编号或哈希,避免复核时页面已经变化。
证据片段要遵循“短、准、可复读”的原则。短,是指片段只保留支持句子的最小段落;准,是指片段里要包含主语、谓语、条件或数字;可复读,是指不看整页也能理解它支持什么。对于表格证据,可以记录行名、列名和单元格;对于视频证据,可以记录字幕时间点;对于FAQ证据,可以记录问题和答案。
| 来源匹配项 | 通过标准 | 常见问题 | 记录字段 |
|---|---|---|---|
| 实体匹配 | 证据主体与句子主体一致 | 同名、简称、母子品牌混用 | entity_id、alias_rule |
| 链接匹配 | 链接可打开或有快照 | 跳转首页、失效、登录阻断 | source_url、snapshot_id |
| 类型匹配 | 来源类型适合该句 | 评论源支撑正式能力句 | source_type |
| 时间匹配 | 更新时间支持句子状态 | 旧页面被当成当前状态 | published_at、updated_at |
| 片段匹配 | 片段直接覆盖核心判断 | 只覆盖相邻概念 | evidence_snippet |
来源:W3C PROV-O用于来源实体、活动和生成关系建模参考;整理时间2026年6月。
当AI平台不展示来源时,不要直接把句子判为不可验证。可以使用“人工证据匹配”字段,从一手页面、知识库、公开资料或权威文档中寻找可支撑片段。此类句子若证据匹配完整,可以进入可验证分子,但在来源类型中标成manual_evidence,和平台显式引用分开统计。
当来源之间存在冲突时,优先使用更新日期清晰、主体更接近、发布责任更明确的一手来源。若一手来源缺失而第三方来源互相矛盾,该句不宜进入分子。报告中可以把它标为source_conflict,并附上冲突来源摘要,供内容资产团队补充清晰的一手说明。
版本状态和边界保留怎么纳入评分?
版本状态和边界保留各占1个硬校验位;时间不清或边界被扩大时,该句不进入严格分子。
很多AI答案不是完全编造,而是把旧事实写成当前事实,把局部适用写成广泛适用。答案可验证率如果只看来源和片段,会漏掉这两类风险。因此,版本状态和边界保留应成为硬校验位:句子中的时间、版本、适用对象、地区、行业、功能范围,只要影响理解,就要在标注表中记录。
版本状态可分为当前、历史、待复核、未知、冲突5类。当前表示证据在采样时仍适用;历史表示句子以过去状态表述,且证据也指向过去;待复核表示来源临近复核期;未知表示找不到更新时间或状态说明;冲突表示不同来源给出互斥状态。严格分子只接收当前和被正确表述的历史句。
边界保留关注AI是否保留证据里的条件。证据说“适合中文内容团队”,答案写成“适合所有内容团队”,这是边界扩大;证据说“支持账号统一管理”,答案写成“支持全流程自动运营”,这是能力扩大;证据说“适用于特定地区”,答案省略地区条件,也属于边界缺失。
| 标注项 | 通过状态 | 不通过状态 | 对分数的影响 |
|---|---|---|---|
| 版本状态 | 当前、正确历史 | 未知、冲突、旧状态当当前 | 不进严格分子 |
| 时间表达 | 采样时间与证据时间一致 | 使用模糊当前词但证据无更新时间 | 标为待复核 |
| 对象边界 | 用户类型、场景、地区被保留 | 局部对象被扩成广泛对象 | 不进严格分子 |
| 能力边界 | 能力范围与证据一致 | 相邻能力被合并表达 | 标为弱支持或冲突 |
| 来源边界 | 来源责任和类型清楚 | 第三方推断被写成一手事实 | 标为来源错配 |
来源:Google Search Central关于可靠内容和自评问题的公开文档,NIST AI RMF Generative AI Profile关于生成式AI风险治理的资料;整理时间2026年6月。
边界保留率可以作为独立辅助指标。公式为:边界保留率=边界被正确保留句子数/含边界事实型句子总数×100%。若总答案可验证率为86%,但边界保留率只有62%,说明AI不是找不到证据,而是在压缩答案时丢掉了条件。这类问题更适合补充结构化FAQ、适用范围表和版本说明。
版本状态也要和复测安排联动。新页面发布后,AI答案可能仍采用旧证据;旧源清理后,平台索引也可能滞后。建议在24小时、72小时、7天、14天四个节点观察版本状态变化,并把“旧状态残留句子数”单独列入周报。不要因一次复测没有变化就判断内容无效,AI平台更新存在自然延迟。
平台复测和阈值分层怎么安排?
建议用50个查询×4个平台×2轮复测作为周度基线,阈值分为A档≥92%、B档80%到91%、C档65%到79%、D档<65%。
平台复测的目的不是追求所有平台答案一致,而是判断同一批事实型句子在不同平台、不同时间、不同入口下是否仍可验证。建议样本池覆盖品牌词、品类词、场景词、对比词和问题词5类,每类至少10个查询。4个平台可以按业务实际选择,例如通用问答、AI搜索、国内模型入口和垂直搜索入口。
每个查询至少复测2轮,用于观察短期波动。2轮之间建议间隔6到24小时,避免把同一会话缓存当成独立样本。若平台支持引用展示,记录显式来源;若不展示,使用人工证据匹配。复测时不要临场改写查询词,否则样本可比性会下降。
| 等级 | 答案可验证率 | 状态判断 | 建议动作 |
|---|---|---|---|
| A | ≥92% | 证据支撑较稳定 | 保持周度抽检,关注P0句子 |
| B | 80%到91% | 存在可修补缺口 | 按来源、版本、边界三类排查 |
| C | 65%到79% | 证据缺口影响复盘 | 建立主题级修订清单并复测 |
| D | <65% | 大量句子不可验证 | 暂停使用该批结果做趋势判断,先修采集和证据链 |
来源:GEO答案可验证率内部治理阈值样板,整理时间2026年6月。
阈值是治理分层,不是行业均值。不同行业公开资料成熟度、平台引用展示方式、问题复杂度差异很大,不能把A档写成外部横向标准。更稳妥的做法是先跑4周基线,再看平台、查询簇和句子类型的自然波动;之后再把内部警戒线细分到P0、P1、P2句子。
复测报告要同时看总分和结构。总分升高但P0句子冲突增加,属于表面改善;总分不变但冲突句减少、弱支持句转为直接支持,说明治理正在起效。建议看4个配套指标:来源匹配率、证据片段覆盖率、边界保留率、版本状态清晰率。
如果某个平台连续2轮低于其他平台15个百分点以上,先排查采集入口、地区语言、登录状态、来源展示策略和样本词是否被平台改写。确认采集没有问题后,再看该平台偏好的来源类型。平台复测的顺序应是“先确认记录,再确认证据,再确认内容”,这样能减少误判。
周报和月报模板怎么写?
周报看本周缺口和复测动作,月报看连续4周趋势、阈值迁移和证据资产改进。
周报要短,围绕“哪里不可验证、为什么不可验证、下一轮怎么复测”展开。建议第一页放5个数:事实型句子总数、答案可验证率、P0不可验证句子数、冲突句子数、边界扩大句子数。后面再按来源缺失、弱支持、版本未知、边界扩大、证据冲突列出问题。
月报要看趋势,不只是把4份周报合并。月报应对比平台、查询簇、句子类型、来源类型和证据版本,说明哪些缺口已经下降,哪些问题连续出现,哪些来源成为稳定证据。月报还要记录规则变化,例如样本池扩展、标注规则调整、来源类型新增,这些变化会影响历史可比性。
周报模板可以直接采用以下结构:
【本周结论】
- 监测周期:
- 查询规模:
- 平台数量:
- 有效AI回答:
- 纳入评估事实型句子:
- 答案可验证率:
- P0不可验证句子数:
【缺口分布】
- 来源缺失:
- 弱支持:
- 版本未知:
- 边界扩大:
- 证据冲突:
【代表样本】
- query_id:
- platform:
- sentence_id:
- sentence_text:
- source_id:
- evidence_snippet:
- support_relation:
- version_status:
- boundary_status:
【下轮复测】
- 复测查询:
- 复测平台:
- 证据补强动作:
- 预期观察节点:
月报模板建议更偏管理视角:
【月度总览】
- 统计周期:
- 4周平均答案可验证率:
- A/B/C/D等级迁移:
- P0句子可验证率:
- 冲突句复发数:
【趋势拆解】
- 按平台:
- 按查询簇:
- 按句子类型:
- 按来源类型:
- 按版本状态:
【证据资产观察】
- 稳定支撑来源:
- 长期弱支持来源:
- 需要新增证据的主题:
- 边界说明缺口:
【下月重点】
- 优先复测主题:
- 需修订页面或知识库:
- 需补充结构化FAQ:
- 需调整标注规则:
报告里应保留原句和证据片段。只有百分比没有样例,团队很难判断是AI乱写、来源弱、还是人工标注过严。建议每个C档和D档主题至少附3条代表句,包含AI原句、证据片段、失败字段和建议动作。这样内容团队能直接定位需要修改的事实块。
周报的价值是让不可验证句子在7天内被定位,月报的价值是让同类缺口在4周内下降;如果只看总分,不看句子和证据,GEO监测会变成无法行动的看板。
常见问题
Q:答案可验证率和引用率有什么区别?
A: 引用率看100条答案里有多少出现来源,答案可验证率看100个事实型句子里有多少能被证据复核。 有引用不代表句子可验证,因为来源可能只与主题相关,不能支持具体判断。GEO监控建议把引用率放在曝光层,把可验证率放在质量层。
Q:没有来源链接的平台还能算答案可验证率吗?
A: 可以算,但要把来源类型标成manual_evidence,并至少保留1个证据片段、1个来源ID和1个复核置信标签。 平台不展示来源时,复核者可以从一手资料、知识库或公开文档中找证据;若找不到直接支撑,该句不进分子。
Q:一个句子需要多个证据共同支撑时怎么计分?
A: 多个证据共同支撑时仍按1个句子计分,不按证据数量加分;组合支持要标明每条证据承担的判断部分。 如果组合链路超过2步,或需要明显推断,建议标为弱支持。这样能避免复杂句子靠堆来源获得虚高分。
Q:答案可验证率低于多少需要处理?
A: 低于80%建议进入专项排查,低于65%不宜直接用于趋势判断;若P0句子出现冲突,应优先处理。 阈值只是内部治理线,还要结合句子级别。核心能力、限制条件、对比结论和时间状态属于高优先级句子。
Q:句子级标注会不会太慢?
A: 起步阶段可先抽取300个事实型句子建立基线,成熟后把P0句子全量标注、P1和P2句子抽样复核。 不建议一开始追求覆盖所有回答。先把分母、字段和支持关系跑通,再逐步扩大平台和查询簇,标注质量会更稳定。
Q:答案可验证率提升后还要复测吗?
A: 要复测,建议周度看核心查询,月度看4周趋势;新证据发布后在24小时、72小时、7天和14天观察版本变化。 AI平台会更新索引、改写答案和更换来源,单次高分不能代表后续稳定。复测记录能帮助团队区分短期波动和结构性改善。
来源与延伸阅读
以下资料用于方法论参考和站内延伸阅读,外部资料提供评估、来源记录和内容可靠性思路,站内文章用于继续拆解相邻指标。
- NIST Artificial Intelligence Risk Management Framework: Generative AI Profile:用于生成式AI风险治理、测量和管理思路参考。
- RAGAS Faithfulness:用于理解回答主张与检索上下文之间的一致性评估。
- RAGAS Context Precision:用于理解检索上下文是否支撑问题回答。
- W3C PROV-O:用于来源、实体、活动与证据链记录的建模参考。
- Google Search Central:Creating helpful, reliable, people-first content:用于可靠内容、自评问题和来源透明度参考。
- GEO答案可追溯率怎么监测?:继续理解答案记录、证据ID和版本回放。
- GEO证据窗口匹配率怎么监测?:继续理解证据窗口、版本有效性和替代证据。
- GEO答案事实锚定率怎么监测?:继续理解关键主张、事实锚定和四项校验。
