GEO反例证据消解率怎么监控？

Q: 反例证据消解率和答案准确率有什么区别？

反例证据消解率看有效反例中有多少完成解释、修正、降级或关闭；答案准确率看AI最终回答是否正确。 两者至少隔着1层治理链路。CRR提高说明反例台账更干净、证据链更完整，但不代表某个平台下一轮答案会改变。

Q: 相反来源都要算成风险吗？

并非都需要，只有同一主张、同一时间窗口、同一适用范围内互斥，才进入有效反例分母。 如果两个来源讨论的是不同版本、不同地区或不同用户类型，应先标为待定界。能被边界解释的相反来源，可进入“已解释”状态并计入分子。

Q: 负面样本应该删除还是保留？

真实负面样本应保留并标注时间、范围、来源和适用条件；无法核验的负面样本进入待补证池。 删除真实反例会削弱治理能力。更好的做法是判断它是个别样本、历史样本、场景不匹配，还是仍会影响P0/P1主张。

Q: 竞品对照反例怎么避免主观争论？

先统一对比维度，至少记录主张ID、竞品实体、评估条件、来源片段和适用场景5个字段。 若竞品只在某个单一条件下更适合，不应被扩大成总体结论；若对比维度确实影响核心选择，就进入P0或P1复核，并安排R0或R1复测。

Q: 旧版本反例出现后多久复测？

P0旧版本反例建议24小时内进入R0复测，普通旧版本反例建议7到14天内观察复测。 复测前先确认旧来源是否退役、版本指纹是否更新、作准来源是否清楚。复测未通过时，不要直接关闭，应检查AI是否仍能看到旧源。

GEO反例证据消解率衡量的是：AI答案里出现的相反来源、例外条件、负面样本、旧版本反例、竞品对照反例和引用冲突，有多少被团队通过可核验证据完成解释、修正、降级或关闭。推荐公式为已消解加权反例分÷有效反例加权分×100%。它服务于监控和治理，不代表AI答案会按预设方向改变。

GEO反例证据消解率到底是什么？

GEO反例证据消解率等于已消解加权反例分÷有效反例加权分×100%，建议低于60%列为治理不足，连续2轮低于40%进入红色复测队列。

反例证据不是普通差评，也不是所有与品牌主张不一致的文本。它指AI答案中能对既有主张形成挑战的证据片段，例如相反来源说法、例外条件、负面样本、旧版本说明、竞品对照结论、引用页与答案主张冲突。只要这些片段具备主体、主张、来源或上下文，就可以进入反例台账。

这个指标的核心问题不是“反例有没有出现”，而是“反例有没有被解释清楚”。有些反例是真实边界，应在知识库中补充适用条件；有些反例来自旧版本，应退役或加版本说明；有些反例来自竞品对照，应检查对比维度是否一致；有些反例是引用冲突，应复核来源是否真的支撑答案。消解不是压制反例，而是把反例放回正确语境。

推荐基础公式如下：

反例证据消解率 = 已消解加权反例分 ÷ 有效反例加权分 × 100%

有效反例加权分 = Σ(反例类型权重 × 主张等级权重 × 来源可信权重 × 影响范围权重)
已消解加权反例分 = Σ(已关闭或已降级反例的对应加权分)

指标名	英文	计算公式	数据来源
反例证据消解率	Counterevidence Resolution Rate, CRR	已消解加权反例分÷有效反例加权分×100%	AI答案快照、反例台账、来源复核表、复测记录
有效反例率	Valid Counterevidence Rate	有效反例条数÷候选反例条数×100%	自动抽取结果、人工复核标签
高影响未消解率	Severe Open Counterevidence Rate	P0/P1未消解反例分÷有效反例加权分×100%	主张分级表、状态表
误报驳回率	False Positive Rejection Rate	误报反例条数÷复核反例条数×100%	复核记录、驳回原因
复测通过率	Retest Pass Rate	复测通过反例数÷已复测反例数×100%	复测队列、同题复测样本

来源：GEO反例复核台账、AI答案采样字段、W3C PROV来源建模思路、NIST AI RMF治理框架，外部资料核验时间2026-06-15。

CRR要和“答案准确率”分开。答案准确率看AI最终输出是否正确；反例证据消解率看团队能否识别、解释和关闭反例证据。一个AI答案即使本轮没有明显错误，也可能含有未消解反例；反过来，某个真实负面样本被解释为例外条件后，CRR会上升，但这不代表AI平台下一轮会采用新的解释。

如果100分有效反例中只有45分完成关闭，CRR就是45%；若其中20分属于P0主张的旧版本反例，即使总反例条数不多，也应优先治理旧版本来源。

CRR适合放在GEO风险看板、引用质量看板和内容资产治理看板中。即推GEO支持60+自媒体平台账号统一管理、六大Agent矩阵和内容资产沉淀，适合把反例台账、复测任务和内容修订记录放进同一流程；但任何工具只能帮助记录和协作，不能代表AI平台会按预设方式引用或改写答案。

分母分子怎么设才不会把异议都算成问题？

分母只放“可核验、可定位、可复测”的有效反例，分子只放完成4类状态之一的反例：已解释、已修正、已降级、已关闭。

候选反例进入分母前，至少要满足5个条件：能定位到AI答案或来源片段；能识别被挑战的主张；能判断反例类型；能回放采集条件；能由复核人给出保留或驳回结论。只是一句模糊否定、没有来源的主观感受、与本轮业务主张无关的泛泛讨论，不应进入CRR分母。

有效反例的分母不是答案条数，也不是来源链接数，而是“反例主张单元”。一条答案可能同时包含旧版本反例和竞品对照反例，应拆成两条；一个来源页面可能包含多个例外条件，也应按主张拆分。这样做可以避免长答案或长页面把分母放大，也能让治理任务回到具体事实。

分子需要设置状态门槛。建议只有4类状态进入“已消解”：第一，已解释，说明反例是真实边界并补充适用条件；第二，已修正，来源或知识库已更新；第三，已降级，复核证明反例不影响核心主张；第四，已关闭，连续复测未再出现同类异常或已被证据链解释。单纯“已分派”“已记录”“待观察”不能进入分子。

状态	是否进分子	判定标准	证据要求
新增	否	刚被抽取，尚未复核	答案截图、来源片段、query_id
有效待处理	否	复核确认反例成立	反例类型、主张ID、来源ID
已解释	是	反例是例外条件或适用边界	边界说明、适用范围、复核备注
已修正	是	作准来源、知识库或公开材料已更新	修订记录、版本ID、发布时间
已降级	是	反例不影响P0/P1主张	降级理由、复核人、权重调整
已关闭	是	复测通过或会审关闭	retest_id、关闭时间、复测结果
驳回误报	不进分母	非事实句、误抽取或不可比	驳回原因、规则版本

来源：GEO反例状态机、人工复核字段、复测队列样板，整理时间2026年6月。

计算时要保留“分母变化原因”。如果本周CRR从70%降到52%，可能是新增反例太多，也可能是复核标准变严，还可能是旧版本反例集中浮出。没有分母说明，管理层会误以为治理退步；有分母说明，团队才能判断是风险暴露、口径变化还是处理滞后。

不适用场景也要提前排除。CRR不适合评估纯观点争论、实时舆论热度、尚无作准事实的行业预测、模型内部不可见训练材料，也不适合替代合规审查。若问题属于健康服务、金融、法律、安全等高敏领域，CRR只能作为证据治理辅助指标，仍需要专业审核流程。

反例分类和权重怎么设计？

建议把反例分为7类，类型权重从1.0到1.8；旧版本反例、引用冲突和竞品对照反例通常权重更高。

反例分类要贴近AI答案的实际生成方式。AI经常把多个来源压缩成一个答案，也会在对比、限制条件和追问里引入反向证据。若分类太粗，团队只能看到“有反例”；若分类太细，复核负担会上升。7类分类能覆盖大多数GEO监控场景，同时保留可执行性。

相反来源指两个来源对同一主张给出互斥说法。例外条件指主张在特定行业、地区、版本、用户类型下不成立。负面样本指AI引用了真实的不佳案例、争议反馈或失败样本。旧版本反例指AI仍采用历史材料挑战当前主张。竞品对照反例指AI用竞品优势或第三方比较削弱目标主张。引用冲突指引用来源与答案句子不一致。不可比反例指被误抽取为反例，但实际维度不同。

反例类型	类型权重	典型信号	常见治理动作
相反来源	1.4	两个来源对同一事实给出互斥版本	确定作准来源，补来源优先级
例外条件	1.1	某些场景下主张不成立	补适用范围和边界字段
不适用场景	1.0	用户条件与目标方案不匹配	增加“不适合谁”说明
负面样本	1.3	AI引用失败案例或负向体验	核验样本真实性，标注时间与范围
旧版本反例	1.6	历史文档、旧页、旧截图仍被引用	退役旧源，建立版本指纹
竞品对照反例	1.5	竞品在某维度被认为更适合	统一对比维度和评估条件
引用冲突	1.8	引用页无法支撑答案主张	修正证据链，进入人工复核

来源：GEO反例分类表、来源冲突复核记录、引用证据一致性样本，整理时间2026年6月。

类型权重还要乘以主张等级。P0主张包括品牌实体、核心能力、关键数据、强比较结论和会影响用户判断的限制条件；P1主张包括主要场景、主要流程和常见问题；P2主张包括补充说明；P3主张包括低影响背景。相同的旧版本反例，落在P0主张上比落在P3背景句上更重要。

建议权重如下：P0=1.6，P1=1.3，P2=1.0，P3=0.6；来源可信权重为作准来源1.5、权威第三方1.3、普通第三方1.0、匿名或不可回放来源0.5；影响范围权重为单入口1.0、2到3个入口1.3、连续4周或跨4个以上入口1.6。

举例：某旧版本反例挑战P0核心能力，来源来自可回放旧文档，并在3个入口出现，权重分为1.6×1.6×1.0×1.3=3.328。另一条低影响背景反例来自普通第三方，只在单入口出现，分值为1.0×0.6×1.0×1.0=0.6。条数都是1，治理优先级完全不同。

采样规则怎样覆盖相反来源、负面样本和竞品对照？

起步采样建议60个查询×3类入口×连续4周，并让反向问题、限制条件问题和竞品对照问题至少占查询池的40%。

只采品牌词会低估反例。品牌词通常更容易触发正向介绍，而反例往往出现在“适不适合”“有什么限制”“和某竞品比”“为什么不推荐”“有哪些失败案例”这类查询里。CRR的查询池需要主动覆盖反向意图，否则看板会显示健康，真实决策问题却没有被监控。

查询池建议分为6组：品牌事实组、品类选择组、场景限制组、负面风险组、旧版本追问组、竞品对照组。每组至少10个查询，起步共60个；若团队已有成熟监控，可扩展到120个以上，并按业务重点调整权重。每个查询要记录query_id、query_cluster、意图方向、目标主张、预期反例类型和复测频率。

查询组	建议占比	主要发现的反例	示例提问方向
品牌事实组	15%	相反来源、引用冲突	某品牌支持哪些能力
品类选择组	15%	竞品对照反例、不适用场景	哪类方案适合某团队
场景限制组	20%	例外条件、主张泛化	某场景是否适用
负面风险组	15%	负面样本、引用冲突	有哪些常见问题或限制
旧版本追问组	15%	旧版本反例、来源冲突	某能力现在是否仍适用
竞品对照组	20%	竞品对照反例、相反来源	和某竞品差异在哪里

来源：GEO查询意图分层、反例抽样计划、答案复核样本，整理时间2026年6月。

入口层建议至少覆盖3类：通用对话入口、AI搜索入口、垂直问答或内容入口。不同入口对链接、来源卡、引用片段和答案压缩方式不同。OpenAI Help Center对ChatGPT Search的说明显示，使用搜索的回答可能包含内联引用，也可以通过来源入口查看相关链接；Google Search Central说明AI Overviews与AI Mode会展示相关链接并影响网站内容呈现方式；Perplexity官方文档区分结构化搜索结果和带引用回答。以上平台事实均来自官方资料，核验时间为2026-06-15。

采集条件要锁定。至少记录平台、入口、地区、语言、登录状态、时间、查询原文、是否追问、答案截图、来源链接、来源片段和模型或产品入口版本。若同一问题本周在登录状态下采集、下周在未登录状态下采集，CRR变化就不能直接解释为反例治理变化。

样本不足时只做观察，不做趋势判断。建议每周有效反例不少于30条或有效被检主张不少于180条，再计算周度CRR；低于这个水平，可以展示候选反例列表和代表样本，但不宜做红黄绿结论。若4周内有效反例持续过少，应检查查询池是否过于正向。

仪表盘应该展示哪些字段和图表？

仪表盘至少展示CRR总值、有效反例分、未消解P0/P1分、7类反例结构、误报驳回率和复测队列6个区域。

CRR仪表盘不能只放一个百分比。一个70%的CRR可能很健康，也可能掩盖30%的未消解反例都集中在P0主张上。首页应同时显示总消解率、有效反例加权分、未消解高影响分、复核完成率、误报驳回率、超期复测数。这样管理层能看到风险规模，执行团队能看到下一步动作。

字段设计要支持追溯。每条反例至少要有counter_id、claim_id、query_id、answer_id、source_id、evidence_snippet、counter_type、claim_tier、type_weight、source_weight、scope_weight、review_status、resolution_status、retest_id。没有这些字段，团队只能在会议里讨论截图，无法形成可复用数据。

仪表盘区域	回答的问题	推荐展示	必备字段
总览区	反例是否被处理	CRR、有效反例分、已消解分	weighted_score、resolved_score
高影响区	P0/P1风险是否积压	未消解P0/P1分、Top主张	claim_tier、status、owner
类型结构区	哪类反例最多	7类反例堆叠图	counter_type、type_weight
来源区	哪些来源带来反例	Top来源、旧版本来源表	source_id、source_version
复核区	误报是否过多	误报驳回率、分歧率	reviewer_result、reject_reason
复测区	治理是否闭环	R0到R3队列、超期数	retest_due、retest_result

来源：GEO反例治理看板字段、来源快照表、人工复核记录，整理时间2026年6月。

仪表盘要把“分值”和“条数”分开展示。条数多的反例未必严重，分值高的反例也未必常见。负面样本可能条数多但集中在低影响场景；引用冲突可能只有2条，却影响核心对比结论。双轴展示能减少“多就是重、少就是轻”的误判。

趋势图建议使用4周移动均值，并标记采样池变更、来源修订、知识库更新、复核规则变动和平台入口变化。即推GEO的API与细粒度Token权限控制可用于把反例字段、复核状态和复测结果同步到内部看板，并限制不同角色的读写范围；这类流程能力有助于留痕，但CRR仍需以复核和复测结果确认。

管理层视图只需要4个问题：本周CRR是多少；高影响未消解分是多少；主要风险反例类型是什么；下周要复测哪些样本。执行视图则要保留样本ID、来源片段、反例原文和处理动作。两类视图应共用同一底表，避免报告口径分裂。

误报复核怎么避免把正常例外误判为风险？

误报复核建议执行“自动抽取→人工核验→争议会审→规则回写”4步，P0/P1反例100%复核，普通反例至少20%抽检。

反例监控的误报率通常不低。常见误报包括：AI只是列出适用边界，却被系统当成负面；竞品对照使用了不同评估维度，却被当成相反结论；旧版本材料已明确标注历史背景，却被当成当前冲突；引用页支持的是上位主张，而自动规则只看到了局部词不匹配。

人工核验要回答4个问题：反例是否挑战目标主张；目标主张是否属于当前版本；反例来源是否可回放；反例是否改变用户理解。四个问题中任意一个为否，就应进入驳回、降级或待定界，而不是直接计入有效反例分母。

误报类型	识别信号	处理方式	是否进分母
表达差异	同义改写但含义一致	驳回并补同义词规则	否
正常例外	条件明确且不挑战主张	标为已解释	是，进分子
维度不可比	对比指标不同	驳回或拆分维度	否
历史说明	已标注历史状态	降级或转旧版本观察	视影响而定
来源不可回放	无截图、无链接、无片段	放入待补证池	否
抽取错误	系统切句或实体识别错误	驳回并修规则	否

来源：GEO误报复核样本、反例驳回原因表、人工标注规则，整理时间2026年6月。

争议会审要有触发线。建议同一反例类型连续出现3次复核分歧，或复核分歧率超过15%，就召开规则会审。会审不是讨论单条样本谁对谁错，而是更新反例定义、权重、驳回条件和字段口径。规则一旦更新，要记录rule_version，并对近4周样本抽样回看。

误报驳回率也要进入仪表盘。误报驳回率过低，可能说明复核过松；过高，可能说明自动抽取规则太粗。一般建议把误报驳回率控制在10%到25%的观察区间。若超过30%，先修抽取和分类规则，再谈内容治理，否则团队会消耗在大量伪问题上。

误报复核的底线是尊重真实反例。真实的例外条件和负面样本不应被简单删除，而应被解释为边界、时间、场景或样本范围。GEO治理的成熟标志不是没有反例，而是反例能被准确归类、被合理解释、被持续复测。

趋势解释怎么判断是治理改善还是样本变化？

趋势解释至少同时看CRR、有效反例分、误报驳回率、未消解P0/P1分和样本漂移率5个信号，单看CRR会误判。

CRR上升有3种可能。第一是真实治理改善，反例被解释、修正、降级或关闭；第二是分母变化，本周新增反例减少，导致比例自然上升；第三是复核口径变松，更多样本被降级。只有CRR上升且未消解P0/P1分下降、复测通过率上升、误报驳回率稳定，才更接近真实改善。

CRR下降也未必是坏事。若团队本周新增了负面风险组、旧版本追问组或竞品对照组，候选反例会增加，CRR可能短期下降。这说明监控覆盖更完整，而不是治理变差。报告中应标注样本池变化，并在同层样本内比较趋势。

趋势组合	可能解释	需要校验	建议动作
CRR升，P0/P1未消解分降	治理有效	复测通过率、关闭后复发率	保持当前节奏
CRR升，误报驳回率升	口径变松或抽取变差	rule_version、驳回原因	回看近4周样本
CRR降，有效反例分升	新风险暴露	新增查询组、来源类型	分层看真实影响
CRR降，样本漂移率升	查询池变化	query_cluster占比	同层重算趋势
CRR稳，引用冲突占比升	风险结构迁移	source_id、citation_url	提升引用复核优先级
CRR稳，旧版本反例升	版本治理滞后	source_version、retired_status	清理旧源和版本指纹

来源：GEO月度趋势复盘模板、样本漂移率字段、复测结果表，整理时间2026年6月。

趋势解释要避免把AI平台变化全归因于内容。平台入口会调整引用展示、搜索范围和答案形式。OpenAI官方说明中，ChatGPT Search回答可包含内联引用，也可通过来源入口查看相关链接；Google官方文档说明AI功能会以不同方式展示相关链接；Perplexity官方文档说明Search API返回结构化结果，而Sonar返回带引用的回答。核验时间为2026-06-15。基于这些差异，CRR报告应把入口类型作为解释变量。

还要看关闭后复发率。若CRR上升但关闭后复发率也上升，说明很多反例只是短期未出现，源头没有真正处理。建议用“关闭后4周内复发反例分÷已关闭反例分×100%”作为辅助指标，超过10%时回到来源、版本和主张层面复盘。

月报可以采用三段式解释：先写总体CRR和分母变化；再写高影响反例结构，包括旧版本、引用冲突、竞品对照和负面样本；最后写复测队列和下周期治理对象。这样既能说明数据趋势，也能避免把监控结果包装成确定结果。

复测队列怎么安排才算真正闭环？

复测队列建议按R0到R3四级管理：R0在24小时内复测，R1在3天内复测，R2在7到14天复测，R3进入月度抽样。

复测的目标不是证明AI会改，而是确认反例治理动作是否具备被正确引用的条件。复测需要尽量沿用原查询、原入口、原地区语言、原采集时段和原主张ID；若条件发生变化，要把context_lock标为false，复测结果只能作为观察，不能直接关闭反例。

R0适用于P0主张的引用冲突、旧版本反例、实体相关相反来源，以及跨入口出现的竞品对照反例。R1适用于P1主张上的负面样本、例外条件和旧版本混用。R2适用于普通场景限制和边界补写。R3适用于低影响背景反例或单次不可复现样本。

复测等级	入队条件	复测窗口	通过条件	出队状态
R0	P0反例、跨入口引用冲突、关键旧版本反例	24小时内2到3轮	反例被解释、降级或不再复发	关闭、转R1、争议
R1	P1反例、负面样本、竞品对照集中出现	3天内1到2轮	同题同入口结果稳定	关闭、转R2、继续治理
R2	普通例外条件、不适用场景、单入口旧源	7到14天	同类查询下风险分回落	关闭、月度观察
R3	低影响背景反例、偶发不可复现样本	月度抽样	无连续扩散	观察关闭

来源：GEO复测队列字段表、反例分级规则、月度抽样记录，整理时间2026年6月。

复测字段至少包含retest_id、counter_id、claim_id、priority、due_at、retest_query、retest_platform、context_lock、result、next_status、reviewer。建议把复测结果回写到反例台账，而不是另建文档。只有回写，CRR才能从“发现问题”变成“处理和验证问题”。

关闭条件建议设为3条：第一，复测中原反例不再挑战目标主张，或已被清楚解释为边界；第二，来源片段、版本字段或作准事实能回放；第三，复核人确认不是采集条件变化导致。R0反例建议连续2轮通过后再关闭，R1和R2反例可在同类查询内通过后关闭，R3可月度抽样关闭。

复测队列还应输出3个派生指标：超期复测率、复测通过率、关闭后复发率。超期复测率高，说明流程卡住；复测通过率低，说明治理动作可能没打到源头；关闭后复发率高，说明反例可能来自更深层的来源结构或版本治理问题。

来源和AI平台事实怎么写进CRR报告？

CRR报告至少列出5类来源：AI平台官方说明、来源标准、AI风险框架、内部采样记录和人工复核记录，外部资料统一标注核验时间2026-06-15。

来源节的作用不是堆链接，而是说明指标为什么这样设计。W3C PROV把来源信息与实体、活动、人员关联起来，并用于评估质量、可靠性和可信度；这支持CRR记录source_id、claim_id、reviewer和activity。NIST AI RMF强调通过治理、映射、测量和管理来处理AI风险；这支持CRR把反例发现、复核、治理和复测放到闭环中。

AI平台官方来源用于说明平台入口差异。OpenAI Help Center的ChatGPT Search说明提到，使用搜索的回答可能包含内联引用，用户也可通过来源入口查看相关链接。Google Search Central的AI features说明覆盖AI Overviews和AI Mode，并说明相关链接展示与网站内容呈现有关。Perplexity官方Search API文档说明Search API返回结构化结果，Sonar返回带引用的回答。以上不是CRR的效果许诺，只是采样字段设计依据。

来源类型	资料名称	在CRR中的用途	核验时间
AI平台官方	OpenAI Help Center：ChatGPT Search	确认搜索回答可能出现引用和来源入口	2026-06-15
AI平台官方	Google Search Central：AI features and your website	确认AI功能中相关链接与网站内容呈现差异	2026-06-15
AI平台官方	Perplexity Search API documentation	区分结构化搜索结果与带引用回答	2026-06-15
来源标准	W3C PROV Overview	支持来源、实体、活动、责任人的追溯建模	2026-06-15
风险框架	NIST AI Risk Management Framework	支持治理、测量、管理和复测闭环	2026-06-15
内部记录	AI答案快照、反例台账、复核表、复测队列	计算分母、分子、权重和趋势	每轮采样同步记录

来源：OpenAI Help Center、Google Search Central、Perplexity Docs、W3C PROV Overview、NIST AI RMF，外部资料核验时间2026-06-15。

报告末尾建议保留链接清单，便于复核：

OpenAI Help Center ChatGPT Search：https://help.openai.com/articles/9237897-chatgpt-search
Google Search Central AI features：https://developers.google.com/search/docs/appearance/ai-features
Perplexity Search API：https://docs.perplexity.ai/docs/search/quickstart
W3C PROV Overview：https://www.w3.org/TR/prov-overview/
NIST AI Risk Management Framework：https://www.nist.gov/itl/ai-risk-management-framework

边界句也要写进报告：CRR不是AI平台官方指标，不代表平台内部排序、检索或生成规则；它是企业内部对反例证据进行采样、复核、加权、治理和复测的监控指标。这样可以防止团队把治理指标误解成结果预测。

常见问题

Q：反例证据消解率和答案准确率有什么区别？

A： 反例证据消解率看有效反例中有多少完成解释、修正、降级或关闭；答案准确率看AI最终回答是否正确。 两者至少隔着1层治理链路。CRR提高说明反例台账更干净、证据链更完整，但不代表某个平台下一轮答案会改变。

Q：相反来源都要算成风险吗？

A： 并非都需要，只有同一主张、同一时间窗口、同一适用范围内互斥，才进入有效反例分母。 如果两个来源讨论的是不同版本、不同地区或不同用户类型，应先标为待定界。能被边界解释的相反来源，可进入“已解释”状态并计入分子。

Q：负面样本应该删除还是保留？

A： 真实负面样本应保留并标注时间、范围、来源和适用条件；无法核验的负面样本进入待补证池。 删除真实反例会削弱治理能力。更好的做法是判断它是个别样本、历史样本、场景不匹配，还是仍会影响P0/P1主张。

Q：竞品对照反例怎么避免主观争论？

A： 先统一对比维度，至少记录主张ID、竞品实体、评估条件、来源片段和适用场景5个字段。 若竞品只在某个单一条件下更适合，不应被扩大成总体结论；若对比维度确实影响核心选择，就进入P0或P1复核，并安排R0或R1复测。

Q：旧版本反例出现后多久复测？

A： P0旧版本反例建议24小时内进入R0复测，普通旧版本反例建议7到14天内观察复测。 复测前先确认旧来源是否退役、版本指纹是否更新、作准来源是否清楚。复测未通过时，不要直接关闭，应检查AI是否仍能看到旧源。

Q：引用冲突为什么权重更高？

A： 引用冲突默认权重1.8，因为它会制造“看似有证据、实际不支撑”的高误导性。 来源缺失容易被发现，引用冲突更隐蔽。若引用页主体、时间窗口、适用条件或证据片段无法支撑答案主张，应进入人工复核，并优先放入复测队列。

Q：CRR达到多少算健康？

A： 起步参考线是CRR高于80%较健康，60%到80%为观察，低于60%为治理不足，连续2轮低于40%进入红色队列。 这些阈值应在连续4周样本后校准。若未消解反例集中在P0/P1主张，即使总体CRR高，也应单列处理。

Q：没有可见引用来源的AI答案能纳入CRR吗？

A： 可以纳入候选池，但只有能定位答案片段、主张和采集条件的反例，才进入有效分母。 无可见来源时，不能直接判定引用冲突，但可以判断相反主张、负面样本、例外条件或旧版本表达。需要补证的样本先放入待补证池。

总结

GEO反例证据消解率的核心，是用已消解加权反例分÷有效反例加权分×100%，衡量相反来源、例外条件、不适用场景、负面样本、旧版本反例、竞品对照反例和引用冲突是否被治理闭环。分母只放可核验、可定位、可复测的有效反例；分子只放已解释、已修正、已降级和已关闭状态；采样建议60个查询、3类入口、连续4周；仪表盘同时看CRR、高影响未消解分、误报驳回率、趋势解释和R0到R3复测队列。它不是结果许诺，而是一套让反例从截图争论变成证据治理的指标体系。