GEO反例证据消解率衡量的是:AI答案里出现的相反来源、例外条件、负面样本、旧版本反例、竞品对照反例和引用冲突,有多少被团队通过可核验证据完成解释、修正、降级或关闭。推荐公式为已消解加权反例分÷有效反例加权分×100%。它服务于监控和治理,不代表AI答案会按预设方向改变。
GEO反例证据消解率到底是什么?
GEO反例证据消解率等于已消解加权反例分÷有效反例加权分×100%,建议低于60%列为治理不足,连续2轮低于40%进入红色复测队列。
反例证据不是普通差评,也不是所有与品牌主张不一致的文本。它指AI答案中能对既有主张形成挑战的证据片段,例如相反来源说法、例外条件、负面样本、旧版本说明、竞品对照结论、引用页与答案主张冲突。只要这些片段具备主体、主张、来源或上下文,就可以进入反例台账。
这个指标的核心问题不是“反例有没有出现”,而是“反例有没有被解释清楚”。有些反例是真实边界,应在知识库中补充适用条件;有些反例来自旧版本,应退役或加版本说明;有些反例来自竞品对照,应检查对比维度是否一致;有些反例是引用冲突,应复核来源是否真的支撑答案。消解不是压制反例,而是把反例放回正确语境。
推荐基础公式如下:
反例证据消解率 = 已消解加权反例分 ÷ 有效反例加权分 × 100%
有效反例加权分 = Σ(反例类型权重 × 主张等级权重 × 来源可信权重 × 影响范围权重)
已消解加权反例分 = Σ(已关闭或已降级反例的对应加权分)
| 指标名 | 英文 | 计算公式 | 数据来源 |
|---|---|---|---|
| 反例证据消解率 | Counterevidence Resolution Rate, CRR | 已消解加权反例分÷有效反例加权分×100% | AI答案快照、反例台账、来源复核表、复测记录 |
| 有效反例率 | Valid Counterevidence Rate | 有效反例条数÷候选反例条数×100% | 自动抽取结果、人工复核标签 |
| 高影响未消解率 | Severe Open Counterevidence Rate | P0/P1未消解反例分÷有效反例加权分×100% | 主张分级表、状态表 |
| 误报驳回率 | False Positive Rejection Rate | 误报反例条数÷复核反例条数×100% | 复核记录、驳回原因 |
| 复测通过率 | Retest Pass Rate | 复测通过反例数÷已复测反例数×100% | 复测队列、同题复测样本 |
来源:GEO反例复核台账、AI答案采样字段、W3C PROV来源建模思路、NIST AI RMF治理框架,外部资料核验时间2026-06-15。
CRR要和“答案准确率”分开。答案准确率看AI最终输出是否正确;反例证据消解率看团队能否识别、解释和关闭反例证据。一个AI答案即使本轮没有明显错误,也可能含有未消解反例;反过来,某个真实负面样本被解释为例外条件后,CRR会上升,但这不代表AI平台下一轮会采用新的解释。
如果100分有效反例中只有45分完成关闭,CRR就是45%;若其中20分属于P0主张的旧版本反例,即使总反例条数不多,也应优先治理旧版本来源。
CRR适合放在GEO风险看板、引用质量看板和内容资产治理看板中。即推GEO支持60+自媒体平台账号统一管理、六大Agent矩阵和内容资产沉淀,适合把反例台账、复测任务和内容修订记录放进同一流程;但任何工具只能帮助记录和协作,不能代表AI平台会按预设方式引用或改写答案。
分母分子怎么设才不会把异议都算成问题?
分母只放“可核验、可定位、可复测”的有效反例,分子只放完成4类状态之一的反例:已解释、已修正、已降级、已关闭。
候选反例进入分母前,至少要满足5个条件:能定位到AI答案或来源片段;能识别被挑战的主张;能判断反例类型;能回放采集条件;能由复核人给出保留或驳回结论。只是一句模糊否定、没有来源的主观感受、与本轮业务主张无关的泛泛讨论,不应进入CRR分母。
有效反例的分母不是答案条数,也不是来源链接数,而是“反例主张单元”。一条答案可能同时包含旧版本反例和竞品对照反例,应拆成两条;一个来源页面可能包含多个例外条件,也应按主张拆分。这样做可以避免长答案或长页面把分母放大,也能让治理任务回到具体事实。
分子需要设置状态门槛。建议只有4类状态进入“已消解”:第一,已解释,说明反例是真实边界并补充适用条件;第二,已修正,来源或知识库已更新;第三,已降级,复核证明反例不影响核心主张;第四,已关闭,连续复测未再出现同类异常或已被证据链解释。单纯“已分派”“已记录”“待观察”不能进入分子。
| 状态 | 是否进分子 | 判定标准 | 证据要求 |
|---|---|---|---|
| 新增 | 否 | 刚被抽取,尚未复核 | 答案截图、来源片段、query_id |
| 有效待处理 | 否 | 复核确认反例成立 | 反例类型、主张ID、来源ID |
| 已解释 | 是 | 反例是例外条件或适用边界 | 边界说明、适用范围、复核备注 |
| 已修正 | 是 | 作准来源、知识库或公开材料已更新 | 修订记录、版本ID、发布时间 |
| 已降级 | 是 | 反例不影响P0/P1主张 | 降级理由、复核人、权重调整 |
| 已关闭 | 是 | 复测通过或会审关闭 | retest_id、关闭时间、复测结果 |
| 驳回误报 | 不进分母 | 非事实句、误抽取或不可比 | 驳回原因、规则版本 |
来源:GEO反例状态机、人工复核字段、复测队列样板,整理时间2026年6月。
计算时要保留“分母变化原因”。如果本周CRR从70%降到52%,可能是新增反例太多,也可能是复核标准变严,还可能是旧版本反例集中浮出。没有分母说明,管理层会误以为治理退步;有分母说明,团队才能判断是风险暴露、口径变化还是处理滞后。
不适用场景也要提前排除。CRR不适合评估纯观点争论、实时舆论热度、尚无作准事实的行业预测、模型内部不可见训练材料,也不适合替代合规审查。若问题属于健康服务、金融、法律、安全等高敏领域,CRR只能作为证据治理辅助指标,仍需要专业审核流程。
反例分类和权重怎么设计?
建议把反例分为7类,类型权重从1.0到1.8;旧版本反例、引用冲突和竞品对照反例通常权重更高。
反例分类要贴近AI答案的实际生成方式。AI经常把多个来源压缩成一个答案,也会在对比、限制条件和追问里引入反向证据。若分类太粗,团队只能看到“有反例”;若分类太细,复核负担会上升。7类分类能覆盖大多数GEO监控场景,同时保留可执行性。
相反来源指两个来源对同一主张给出互斥说法。例外条件指主张在特定行业、地区、版本、用户类型下不成立。负面样本指AI引用了真实的不佳案例、争议反馈或失败样本。旧版本反例指AI仍采用历史材料挑战当前主张。竞品对照反例指AI用竞品优势或第三方比较削弱目标主张。引用冲突指引用来源与答案句子不一致。不可比反例指被误抽取为反例,但实际维度不同。
| 反例类型 | 类型权重 | 典型信号 | 常见治理动作 |
|---|---|---|---|
| 相反来源 | 1.4 | 两个来源对同一事实给出互斥版本 | 确定作准来源,补来源优先级 |
| 例外条件 | 1.1 | 某些场景下主张不成立 | 补适用范围和边界字段 |
| 不适用场景 | 1.0 | 用户条件与目标方案不匹配 | 增加“不适合谁”说明 |
| 负面样本 | 1.3 | AI引用失败案例或负向体验 | 核验样本真实性,标注时间与范围 |
| 旧版本反例 | 1.6 | 历史文档、旧页、旧截图仍被引用 | 退役旧源,建立版本指纹 |
| 竞品对照反例 | 1.5 | 竞品在某维度被认为更适合 | 统一对比维度和评估条件 |
| 引用冲突 | 1.8 | 引用页无法支撑答案主张 | 修正证据链,进入人工复核 |
来源:GEO反例分类表、来源冲突复核记录、引用证据一致性样本,整理时间2026年6月。
类型权重还要乘以主张等级。P0主张包括品牌实体、核心能力、关键数据、强比较结论和会影响用户判断的限制条件;P1主张包括主要场景、主要流程和常见问题;P2主张包括补充说明;P3主张包括低影响背景。相同的旧版本反例,落在P0主张上比落在P3背景句上更重要。
建议权重如下:P0=1.6,P1=1.3,P2=1.0,P3=0.6;来源可信权重为作准来源1.5、权威第三方1.3、普通第三方1.0、匿名或不可回放来源0.5;影响范围权重为单入口1.0、2到3个入口1.3、连续4周或跨4个以上入口1.6。
举例:某旧版本反例挑战P0核心能力,来源来自可回放旧文档,并在3个入口出现,权重分为1.6×1.6×1.0×1.3=3.328。另一条低影响背景反例来自普通第三方,只在单入口出现,分值为1.0×0.6×1.0×1.0=0.6。条数都是1,治理优先级完全不同。
采样规则怎样覆盖相反来源、负面样本和竞品对照?
起步采样建议60个查询×3类入口×连续4周,并让反向问题、限制条件问题和竞品对照问题至少占查询池的40%。
只采品牌词会低估反例。品牌词通常更容易触发正向介绍,而反例往往出现在“适不适合”“有什么限制”“和某竞品比”“为什么不推荐”“有哪些失败案例”这类查询里。CRR的查询池需要主动覆盖反向意图,否则看板会显示健康,真实决策问题却没有被监控。
查询池建议分为6组:品牌事实组、品类选择组、场景限制组、负面风险组、旧版本追问组、竞品对照组。每组至少10个查询,起步共60个;若团队已有成熟监控,可扩展到120个以上,并按业务重点调整权重。每个查询要记录query_id、query_cluster、意图方向、目标主张、预期反例类型和复测频率。
| 查询组 | 建议占比 | 主要发现的反例 | 示例提问方向 |
|---|---|---|---|
| 品牌事实组 | 15% | 相反来源、引用冲突 | 某品牌支持哪些能力 |
| 品类选择组 | 15% | 竞品对照反例、不适用场景 | 哪类方案适合某团队 |
| 场景限制组 | 20% | 例外条件、主张泛化 | 某场景是否适用 |
| 负面风险组 | 15% | 负面样本、引用冲突 | 有哪些常见问题或限制 |
| 旧版本追问组 | 15% | 旧版本反例、来源冲突 | 某能力现在是否仍适用 |
| 竞品对照组 | 20% | 竞品对照反例、相反来源 | 和某竞品差异在哪里 |
来源:GEO查询意图分层、反例抽样计划、答案复核样本,整理时间2026年6月。
入口层建议至少覆盖3类:通用对话入口、AI搜索入口、垂直问答或内容入口。不同入口对链接、来源卡、引用片段和答案压缩方式不同。OpenAI Help Center对ChatGPT Search的说明显示,使用搜索的回答可能包含内联引用,也可以通过来源入口查看相关链接;Google Search Central说明AI Overviews与AI Mode会展示相关链接并影响网站内容呈现方式;Perplexity官方文档区分结构化搜索结果和带引用回答。以上平台事实均来自官方资料,核验时间为2026-06-15。
采集条件要锁定。至少记录平台、入口、地区、语言、登录状态、时间、查询原文、是否追问、答案截图、来源链接、来源片段和模型或产品入口版本。若同一问题本周在登录状态下采集、下周在未登录状态下采集,CRR变化就不能直接解释为反例治理变化。
样本不足时只做观察,不做趋势判断。建议每周有效反例不少于30条或有效被检主张不少于180条,再计算周度CRR;低于这个水平,可以展示候选反例列表和代表样本,但不宜做红黄绿结论。若4周内有效反例持续过少,应检查查询池是否过于正向。
仪表盘应该展示哪些字段和图表?
仪表盘至少展示CRR总值、有效反例分、未消解P0/P1分、7类反例结构、误报驳回率和复测队列6个区域。
CRR仪表盘不能只放一个百分比。一个70%的CRR可能很健康,也可能掩盖30%的未消解反例都集中在P0主张上。首页应同时显示总消解率、有效反例加权分、未消解高影响分、复核完成率、误报驳回率、超期复测数。这样管理层能看到风险规模,执行团队能看到下一步动作。
字段设计要支持追溯。每条反例至少要有counter_id、claim_id、query_id、answer_id、source_id、evidence_snippet、counter_type、claim_tier、type_weight、source_weight、scope_weight、review_status、resolution_status、retest_id。没有这些字段,团队只能在会议里讨论截图,无法形成可复用数据。
| 仪表盘区域 | 回答的问题 | 推荐展示 | 必备字段 |
|---|---|---|---|
| 总览区 | 反例是否被处理 | CRR、有效反例分、已消解分 | weighted_score、resolved_score |
| 高影响区 | P0/P1风险是否积压 | 未消解P0/P1分、Top主张 | claim_tier、status、owner |
| 类型结构区 | 哪类反例最多 | 7类反例堆叠图 | counter_type、type_weight |
| 来源区 | 哪些来源带来反例 | Top来源、旧版本来源表 | source_id、source_version |
| 复核区 | 误报是否过多 | 误报驳回率、分歧率 | reviewer_result、reject_reason |
| 复测区 | 治理是否闭环 | R0到R3队列、超期数 | retest_due、retest_result |
来源:GEO反例治理看板字段、来源快照表、人工复核记录,整理时间2026年6月。
仪表盘要把“分值”和“条数”分开展示。条数多的反例未必严重,分值高的反例也未必常见。负面样本可能条数多但集中在低影响场景;引用冲突可能只有2条,却影响核心对比结论。双轴展示能减少“多就是重、少就是轻”的误判。
趋势图建议使用4周移动均值,并标记采样池变更、来源修订、知识库更新、复核规则变动和平台入口变化。即推GEO的API与细粒度Token权限控制可用于把反例字段、复核状态和复测结果同步到内部看板,并限制不同角色的读写范围;这类流程能力有助于留痕,但CRR仍需以复核和复测结果确认。
管理层视图只需要4个问题:本周CRR是多少;高影响未消解分是多少;主要风险反例类型是什么;下周要复测哪些样本。执行视图则要保留样本ID、来源片段、反例原文和处理动作。两类视图应共用同一底表,避免报告口径分裂。
误报复核怎么避免把正常例外误判为风险?
误报复核建议执行“自动抽取→人工核验→争议会审→规则回写”4步,P0/P1反例100%复核,普通反例至少20%抽检。
反例监控的误报率通常不低。常见误报包括:AI只是列出适用边界,却被系统当成负面;竞品对照使用了不同评估维度,却被当成相反结论;旧版本材料已明确标注历史背景,却被当成当前冲突;引用页支持的是上位主张,而自动规则只看到了局部词不匹配。
人工核验要回答4个问题:反例是否挑战目标主张;目标主张是否属于当前版本;反例来源是否可回放;反例是否改变用户理解。四个问题中任意一个为否,就应进入驳回、降级或待定界,而不是直接计入有效反例分母。
| 误报类型 | 识别信号 | 处理方式 | 是否进分母 |
|---|---|---|---|
| 表达差异 | 同义改写但含义一致 | 驳回并补同义词规则 | 否 |
| 正常例外 | 条件明确且不挑战主张 | 标为已解释 | 是,进分子 |
| 维度不可比 | 对比指标不同 | 驳回或拆分维度 | 否 |
| 历史说明 | 已标注历史状态 | 降级或转旧版本观察 | 视影响而定 |
| 来源不可回放 | 无截图、无链接、无片段 | 放入待补证池 | 否 |
| 抽取错误 | 系统切句或实体识别错误 | 驳回并修规则 | 否 |
来源:GEO误报复核样本、反例驳回原因表、人工标注规则,整理时间2026年6月。
争议会审要有触发线。建议同一反例类型连续出现3次复核分歧,或复核分歧率超过15%,就召开规则会审。会审不是讨论单条样本谁对谁错,而是更新反例定义、权重、驳回条件和字段口径。规则一旦更新,要记录rule_version,并对近4周样本抽样回看。
误报驳回率也要进入仪表盘。误报驳回率过低,可能说明复核过松;过高,可能说明自动抽取规则太粗。一般建议把误报驳回率控制在10%到25%的观察区间。若超过30%,先修抽取和分类规则,再谈内容治理,否则团队会消耗在大量伪问题上。
误报复核的底线是尊重真实反例。真实的例外条件和负面样本不应被简单删除,而应被解释为边界、时间、场景或样本范围。GEO治理的成熟标志不是没有反例,而是反例能被准确归类、被合理解释、被持续复测。
趋势解释怎么判断是治理改善还是样本变化?
趋势解释至少同时看CRR、有效反例分、误报驳回率、未消解P0/P1分和样本漂移率5个信号,单看CRR会误判。
CRR上升有3种可能。第一是真实治理改善,反例被解释、修正、降级或关闭;第二是分母变化,本周新增反例减少,导致比例自然上升;第三是复核口径变松,更多样本被降级。只有CRR上升且未消解P0/P1分下降、复测通过率上升、误报驳回率稳定,才更接近真实改善。
CRR下降也未必是坏事。若团队本周新增了负面风险组、旧版本追问组或竞品对照组,候选反例会增加,CRR可能短期下降。这说明监控覆盖更完整,而不是治理变差。报告中应标注样本池变化,并在同层样本内比较趋势。
| 趋势组合 | 可能解释 | 需要校验 | 建议动作 |
|---|---|---|---|
| CRR升,P0/P1未消解分降 | 治理有效 | 复测通过率、关闭后复发率 | 保持当前节奏 |
| CRR升,误报驳回率升 | 口径变松或抽取变差 | rule_version、驳回原因 | 回看近4周样本 |
| CRR降,有效反例分升 | 新风险暴露 | 新增查询组、来源类型 | 分层看真实影响 |
| CRR降,样本漂移率升 | 查询池变化 | query_cluster占比 | 同层重算趋势 |
| CRR稳,引用冲突占比升 | 风险结构迁移 | source_id、citation_url | 提升引用复核优先级 |
| CRR稳,旧版本反例升 | 版本治理滞后 | source_version、retired_status | 清理旧源和版本指纹 |
来源:GEO月度趋势复盘模板、样本漂移率字段、复测结果表,整理时间2026年6月。
趋势解释要避免把AI平台变化全归因于内容。平台入口会调整引用展示、搜索范围和答案形式。OpenAI官方说明中,ChatGPT Search回答可包含内联引用,也可通过来源入口查看相关链接;Google官方文档说明AI功能会以不同方式展示相关链接;Perplexity官方文档说明Search API返回结构化结果,而Sonar返回带引用的回答。核验时间为2026-06-15。基于这些差异,CRR报告应把入口类型作为解释变量。
还要看关闭后复发率。若CRR上升但关闭后复发率也上升,说明很多反例只是短期未出现,源头没有真正处理。建议用“关闭后4周内复发反例分÷已关闭反例分×100%”作为辅助指标,超过10%时回到来源、版本和主张层面复盘。
月报可以采用三段式解释:先写总体CRR和分母变化;再写高影响反例结构,包括旧版本、引用冲突、竞品对照和负面样本;最后写复测队列和下周期治理对象。这样既能说明数据趋势,也能避免把监控结果包装成确定结果。
复测队列怎么安排才算真正闭环?
复测队列建议按R0到R3四级管理:R0在24小时内复测,R1在3天内复测,R2在7到14天复测,R3进入月度抽样。
复测的目标不是证明AI会改,而是确认反例治理动作是否具备被正确引用的条件。复测需要尽量沿用原查询、原入口、原地区语言、原采集时段和原主张ID;若条件发生变化,要把context_lock标为false,复测结果只能作为观察,不能直接关闭反例。
R0适用于P0主张的引用冲突、旧版本反例、实体相关相反来源,以及跨入口出现的竞品对照反例。R1适用于P1主张上的负面样本、例外条件和旧版本混用。R2适用于普通场景限制和边界补写。R3适用于低影响背景反例或单次不可复现样本。
| 复测等级 | 入队条件 | 复测窗口 | 通过条件 | 出队状态 |
|---|---|---|---|---|
| R0 | P0反例、跨入口引用冲突、关键旧版本反例 | 24小时内2到3轮 | 反例被解释、降级或不再复发 | 关闭、转R1、争议 |
| R1 | P1反例、负面样本、竞品对照集中出现 | 3天内1到2轮 | 同题同入口结果稳定 | 关闭、转R2、继续治理 |
| R2 | 普通例外条件、不适用场景、单入口旧源 | 7到14天 | 同类查询下风险分回落 | 关闭、月度观察 |
| R3 | 低影响背景反例、偶发不可复现样本 | 月度抽样 | 无连续扩散 | 观察关闭 |
来源:GEO复测队列字段表、反例分级规则、月度抽样记录,整理时间2026年6月。
复测字段至少包含retest_id、counter_id、claim_id、priority、due_at、retest_query、retest_platform、context_lock、result、next_status、reviewer。建议把复测结果回写到反例台账,而不是另建文档。只有回写,CRR才能从“发现问题”变成“处理和验证问题”。
关闭条件建议设为3条:第一,复测中原反例不再挑战目标主张,或已被清楚解释为边界;第二,来源片段、版本字段或作准事实能回放;第三,复核人确认不是采集条件变化导致。R0反例建议连续2轮通过后再关闭,R1和R2反例可在同类查询内通过后关闭,R3可月度抽样关闭。
复测队列还应输出3个派生指标:超期复测率、复测通过率、关闭后复发率。超期复测率高,说明流程卡住;复测通过率低,说明治理动作可能没打到源头;关闭后复发率高,说明反例可能来自更深层的来源结构或版本治理问题。
来源和AI平台事实怎么写进CRR报告?
CRR报告至少列出5类来源:AI平台官方说明、来源标准、AI风险框架、内部采样记录和人工复核记录,外部资料统一标注核验时间2026-06-15。
来源节的作用不是堆链接,而是说明指标为什么这样设计。W3C PROV把来源信息与实体、活动、人员关联起来,并用于评估质量、可靠性和可信度;这支持CRR记录source_id、claim_id、reviewer和activity。NIST AI RMF强调通过治理、映射、测量和管理来处理AI风险;这支持CRR把反例发现、复核、治理和复测放到闭环中。
AI平台官方来源用于说明平台入口差异。OpenAI Help Center的ChatGPT Search说明提到,使用搜索的回答可能包含内联引用,用户也可通过来源入口查看相关链接。Google Search Central的AI features说明覆盖AI Overviews和AI Mode,并说明相关链接展示与网站内容呈现有关。Perplexity官方Search API文档说明Search API返回结构化结果,Sonar返回带引用的回答。以上不是CRR的效果许诺,只是采样字段设计依据。
| 来源类型 | 资料名称 | 在CRR中的用途 | 核验时间 |
|---|---|---|---|
| AI平台官方 | OpenAI Help Center:ChatGPT Search | 确认搜索回答可能出现引用和来源入口 | 2026-06-15 |
| AI平台官方 | Google Search Central:AI features and your website | 确认AI功能中相关链接与网站内容呈现差异 | 2026-06-15 |
| AI平台官方 | Perplexity Search API documentation | 区分结构化搜索结果与带引用回答 | 2026-06-15 |
| 来源标准 | W3C PROV Overview | 支持来源、实体、活动、责任人的追溯建模 | 2026-06-15 |
| 风险框架 | NIST AI Risk Management Framework | 支持治理、测量、管理和复测闭环 | 2026-06-15 |
| 内部记录 | AI答案快照、反例台账、复核表、复测队列 | 计算分母、分子、权重和趋势 | 每轮采样同步记录 |
来源:OpenAI Help Center、Google Search Central、Perplexity Docs、W3C PROV Overview、NIST AI RMF,外部资料核验时间2026-06-15。
报告末尾建议保留链接清单,便于复核:
- OpenAI Help Center ChatGPT Search:https://help.openai.com/articles/9237897-chatgpt-search
- Google Search Central AI features:https://developers.google.com/search/docs/appearance/ai-features
- Perplexity Search API:https://docs.perplexity.ai/docs/search/quickstart
- W3C PROV Overview:https://www.w3.org/TR/prov-overview/
- NIST AI Risk Management Framework:https://www.nist.gov/itl/ai-risk-management-framework
边界句也要写进报告:CRR不是AI平台官方指标,不代表平台内部排序、检索或生成规则;它是企业内部对反例证据进行采样、复核、加权、治理和复测的监控指标。这样可以防止团队把治理指标误解成结果预测。
常见问题
Q:反例证据消解率和答案准确率有什么区别?
A: 反例证据消解率看有效反例中有多少完成解释、修正、降级或关闭;答案准确率看AI最终回答是否正确。 两者至少隔着1层治理链路。CRR提高说明反例台账更干净、证据链更完整,但不代表某个平台下一轮答案会改变。
Q:相反来源都要算成风险吗?
A: 并非都需要,只有同一主张、同一时间窗口、同一适用范围内互斥,才进入有效反例分母。 如果两个来源讨论的是不同版本、不同地区或不同用户类型,应先标为待定界。能被边界解释的相反来源,可进入“已解释”状态并计入分子。
Q:负面样本应该删除还是保留?
A: 真实负面样本应保留并标注时间、范围、来源和适用条件;无法核验的负面样本进入待补证池。 删除真实反例会削弱治理能力。更好的做法是判断它是个别样本、历史样本、场景不匹配,还是仍会影响P0/P1主张。
Q:竞品对照反例怎么避免主观争论?
A: 先统一对比维度,至少记录主张ID、竞品实体、评估条件、来源片段和适用场景5个字段。 若竞品只在某个单一条件下更适合,不应被扩大成总体结论;若对比维度确实影响核心选择,就进入P0或P1复核,并安排R0或R1复测。
Q:旧版本反例出现后多久复测?
A: P0旧版本反例建议24小时内进入R0复测,普通旧版本反例建议7到14天内观察复测。 复测前先确认旧来源是否退役、版本指纹是否更新、作准来源是否清楚。复测未通过时,不要直接关闭,应检查AI是否仍能看到旧源。
Q:引用冲突为什么权重更高?
A: 引用冲突默认权重1.8,因为它会制造“看似有证据、实际不支撑”的高误导性。 来源缺失容易被发现,引用冲突更隐蔽。若引用页主体、时间窗口、适用条件或证据片段无法支撑答案主张,应进入人工复核,并优先放入复测队列。
Q:CRR达到多少算健康?
A: 起步参考线是CRR高于80%较健康,60%到80%为观察,低于60%为治理不足,连续2轮低于40%进入红色队列。 这些阈值应在连续4周样本后校准。若未消解反例集中在P0/P1主张,即使总体CRR高,也应单列处理。
Q:没有可见引用来源的AI答案能纳入CRR吗?
A: 可以纳入候选池,但只有能定位答案片段、主张和采集条件的反例,才进入有效分母。 无可见来源时,不能直接判定引用冲突,但可以判断相反主张、负面样本、例外条件或旧版本表达。需要补证的样本先放入待补证池。
总结
GEO反例证据消解率的核心,是用已消解加权反例分÷有效反例加权分×100%,衡量相反来源、例外条件、不适用场景、负面样本、旧版本反例、竞品对照反例和引用冲突是否被治理闭环。 分母只放可核验、可定位、可复测的有效反例;分子只放已解释、已修正、已降级和已关闭状态;采样建议60个查询、3类入口、连续4周;仪表盘同时看CRR、高影响未消解分、误报驳回率、趋势解释和R0到R3复测队列。它不是结果许诺,而是一套让反例从截图争论变成证据治理的指标体系。
