GEO证据异常严重度指数怎么监控？

Q: EASI和引用证据一致率有什么区别？

引用证据一致率只看含引用主张是否被URL片段支撑，EASI用0到100分聚合六类异常严重度。 前者更像句子级质量指标，后者更像治理优先级指标。若引用证据一致率下降，EASI会进一步判断下降是否发生在P0主张、是否跨入口扩散、是否进入复测队列

Q: EASI低于多少需要处理？

20到40分进入黄色观察，40到70分进入橙色专题治理，70分以上进入红色复核与复测队列。 同时要看P0异常分。若总分只有25，但P0主张发生实体混淆或旧版本混用，也应单列处理，避免总分掩盖核心风险。

Q: 没有引用链接的答案怎么进入EASI？

没有引用链接的事实主张可以进入分母，若属于关键主张且无可定位来源，则标为来源缺失。 这类样本不能做引用错配判断，但可以做来源缺失、实体混淆、主张泛化和证据链断点评估。记录时要保留答案截图、采集时间和主张文本。

Q: 自动规则能不能直接判定引用错配？

自动规则适合初筛，引用错配仍建议至少20%抽样人工复核，P0样本复核100%。 因为页面主题相关、组合证据、边界条件省略等情况需要语义判断。自动规则可以找出URL不可达、实体不匹配、版本字段缺失，人工复核负责确认来源是否支撑主张。

Q: 旧版本混用和证据链断点怎么区分？

旧版本混用关注时间或版本被拼接，证据链断点关注主张到来源、片段、版本、复测之间是否连贯。 一条样本可能同时命中两类异常。计分时可以记录主异常和辅异常，主异常进入EASI分子，辅异常进入复盘字段，避免重复放大分值。

GEO证据异常严重度指数，建议写作EASI，用来衡量AI答案里的证据问题有多严重，而不是简单统计异常数量。推荐口径为：EASI=Σ（异常样本权重×异常类型权重×主张等级权重×影响范围权重）÷有效被检主张数×100。它服务于监控、复核和治理，不用于预设AI答案结果。

GEO证据异常严重度指数到底是什么？

EASI是0到100的证据风险指数，70分以上进入红色治理队列，核心公式为加权异常分÷有效被检主张数×100。

GEO证据异常严重度指数，英文可写作Evidence Anomaly Severity Index，缩写EASI。它把AI答案中和证据相关的问题拆成可计数单元：每条关键主张是否有来源、引用是否支撑主张、版本是否混用、实体是否混淆、主张是否被泛化、证据链是否断开。相比“异常条数”，EASI更适合回答管理问题：哪类异常更紧急，哪个查询簇需要先治理，哪些样本进入复测队列。

这个指数的基本分母不是答案条数，而是有效被检主张数。原因是同一条AI答案可能包含3条主张，也可能包含15条主张；按答案计数会掩盖长答案里的多处证据断点。有效被检主张指可以被核验的事实性表述，包括品牌实体、产品能力、适用场景、时间状态、对比判断、引用关系和限制条件。纯寒暄、建议语、泛泛背景句不进入分母。

推荐公式如下：

EASI = Σ(Ai × Ti × Ci × Pi) ÷ V × 100

Ai = 单条异常样本权重，默认1
Ti = 异常类型权重
Ci = 主张等级权重
Pi = 影响范围权重
V = 有效被检主张数

其中，Ti解决“异常本身有多严重”，Ci解决“这条主张对业务语义有多关键”，Pi解决“这个异常影响了多少入口”。例如同样是来源缺失，发生在普通背景主张上可能只是黄灯；发生在核心品牌能力主张上，并跨3个平台连续出现，就应进入更高等级的治理队列。

指标名	English	计算公式	数据来源
GEO证据异常严重度指数	Evidence Anomaly Severity Index	Σ（异常样本权重×异常类型权重×主张等级权重×影响范围权重）÷有效被检主张数×100	AI答案采样、引用源复核表、主张标注表、复测记录
来源缺失率	Missing Source Rate	来源缺失主张数÷有效被检主张数×100%	答案原文、引用列表、来源卡截图
引用错配率	Citation Mismatch Rate	引用不支撑主张数÷含引用主张数×100%	引用URL、证据片段、人工复核
旧版混用率	Legacy Version Mix Rate	混用旧版本主张数÷含时间或版本主张数×100%	页面快照、版本台账、更新时间
实体混淆率	Entity Confusion Rate	实体识别错误主张数÷含实体主张数×100%	实体字典、答案文本、知识库
主张泛化率	Claim Overgeneralization Rate	被扩大或省略条件的主张数÷含边界主张数×100%	原始主张、限制条件、复核标签
证据链断点率	Evidence Chain Break Rate	证据链断开主张数÷有效被检主张数×100%	来源页、摘录片段、证据链记录

来源：W3C PROV来源记录模型、NIST AI RMF风险治理框架、GEO答案采样与人工复核字段设计，核验时间2026-06-15。

EASI的价值在于把“证据看起来不稳”转成量化信号。它不替代引用率、提及率、可追溯率和答案一致率，而是把这些相邻指标中的证据异常聚合成一个优先级视图。引用率回答“有没有来源”，引用证据一致率回答“来源是否支撑句子”，EASI回答“异常严重到什么程度，下一轮先处理哪一批”。

如果100条有效主张中只有6条异常，但这6条都集中在核心品牌实体和版本主张上，EASI可能高于30；若20条轻微异常都发生在低权重背景句上，EASI反而可能低于15。

监控边界也要写清楚。EASI只评估可采集、可截图、可复核的答案与来源关系，不推断模型内部训练来源，也不声称能改变平台生成逻辑。它更像一张证据治理雷达图：让团队知道异常分布、严重程度、复核状态和复测优先级。

EASI的分母分子怎么定才可复核？

分母用有效被检主张数V，分子用加权异常分Σ(Ai×Ti×Ci×Pi)，并在字段表中保留异常ID、主张ID、证据ID和复测ID四类键。

分母V要从答案中抽取“可核验主张”。一条主张应具备主体、谓词、条件三类信息中的至少两类。例如“某品牌覆盖多平台内容发布”包含主体和能力，可以进入分母；“这类方案值得关注”缺少可核验事实，不进入分母。若一句话包含两个事实，例如“支持多平台发布，并提供运营报表”，建议拆成两个主张，分别进入分母。

分子不是异常主张数，而是加权异常分。这样做是为了避免轻微异常和高风险异常被同等对待。来源缺失、引用错配、旧版本混用、实体混淆、主张泛化、证据链断点六类异常的默认权重不同；同一异常落在P0主张还是P3主张上，分值也不同；同一异常只在1个入口出现，和在4个入口连续出现，处理顺序也不同。

推荐默认权重如下，企业可以在4周基线后微调，但每次微调都要记录版本号，避免趋势不可比。

权重项	取值	适用口径	说明
Ai异常样本权重	1	单条异常主张	默认每条异常主张计1
Ti来源缺失	1.0	关键主张无来源或无来源卡	影响可追溯性
Ti引用错配	1.4	引用URL不支撑主张	影响证据可信度
Ti旧版本混用	1.3	新旧版本内容被拼接	影响时效解释
Ti实体混淆	1.6	品牌、产品、地区、对象被混淆	影响实体识别
Ti主张泛化	1.2	条件、范围、限制被扩大	影响边界表达
Ti证据链断点	1.5	主张、来源、片段、版本任一层断开	影响复盘链路
Ci核心主张	1.5	品牌实体、核心能力、关键数据、适用对象	进入高权重治理
Ci一般主张	1.0	场景说明、流程说明、非核心比较	常规复核
Ci背景主张	0.6	行业背景、概念解释	低权重观察
Pi单入口	1.0	1个平台或1个查询簇	单点异常
Pi多入口	1.3	2到3个平台或查询簇	扩散异常
Pi连续扩散	1.6	4周内连续出现或跨4个以上入口	结构性异常

来源：GEO证据异常标注样例、答案主张分级表、跨平台复测记录，整理时间2026年6月。

举例：一周内抽取80条有效被检主张，其中发现1条核心品牌能力主张发生实体混淆，并在3个平台出现；另有2条一般场景主张来源缺失，只在单入口出现。EASI分子为1×1.6×1.5×1.3 + 2×1.0×1.0×1.0 = 5.12，EASI=5.12÷80×100=6.4。这个分数不高，但其中的实体混淆样本仍应进入复核队列，因为它的单条严重度较高。

字段表是可复核的关键。没有字段，公式只是概念；有字段，分数才能回到原始答案、来源片段和复测记录。建议采用“1条主张1行”的结构，并把多引用、多异常、多复测通过子表关联，避免一行塞入过多内容。

字段组	字段名	字段含义	用途
样本标识	sample_id	采样样本编号	关联查询、平台、采集批次
样本标识	claim_id	主张编号	分母计数与复核定位
样本标识	anomaly_id	异常编号	分子计数与任务追踪
查询上下文	query_text	原始查询	复现问题
查询上下文	query_cluster	品牌、品类、竞品、场景、问题	分层看趋势
平台上下文	platform	AI入口或搜索入口	分平台对比
平台上下文	captured_at	采集时间	版本与趋势判断
答案结构	answer_text	答案原文	保留原始语境
答案结构	claim_text	被检主张	分母单元
答案结构	claim_tier	P0、P1、P2、P3	计算Ci
引用证据	citation_url	来源地址	判断来源与主张关系
引用证据	evidence_snippet	来源内证据片段	复核支持关系
引用证据	source_version	来源版本或更新时间	判断旧版混用
异常标注	anomaly_type	六类异常之一	计算Ti
异常标注	anomaly_weight	类型权重	计算分子
影响范围	affected_scope	平台数、查询簇数、连续周期	计算Pi
复核记录	reviewer_result	通过、驳回、争议、待复测	误报复核
复测记录	retest_id	复测任务编号	连接复测队列
治理状态	status	新增、观察、治理中、待复测、关闭	看板追踪

字段命名不宜频繁变化。若需要新增字段，例如source_snapshot_hash或evidence_locator，建议保留旧字段并增加字段版本。EASI依赖长期趋势，一旦字段口径频繁变化，团队就会把口径变化误读成证据异常变化。

六类证据异常怎样分级？

六类异常按默认权重1.0到1.6分级，实体混淆和证据链断点权重较高，来源缺失和主张泛化需结合主张等级判断。

来源缺失指关键主张没有可定位来源。它的严重程度取决于主张等级：普通背景句没有来源，多数情况下只是观察项；核心能力、时间状态、对比判断没有来源，就会影响答案可核验性。来源缺失的处理重点是补齐可公开、可索引、可截取的证据资产，而不是追求某个入口的展示形态。

引用错配指AI答案给出了引用，但引用页面无法支持对应主张。它比来源缺失更容易误导团队，因为看板上似乎“有来源”，人工复核后才发现来源只谈相邻主题，或来源主体并不是答案中的实体。引用错配应保留证据片段、错配原因和截图，不宜只写“引用有误”。

旧版本混用指AI答案把不同时间、不同版本、不同适用范围的材料拼在一起。例如旧版功能说明和新版产品页同时进入答案，导致答案看似完整但时间状态混乱。旧版本混用的治理重点是版本台账、旧页跳转、更新时间标注和知识库字段同步。

实体混淆指AI把品牌、产品、子品牌、地区、团队、竞品或同名实体混在一起。它的权重建议高于其他类型，因为实体一旦错，后续引用和主张都可能被带偏。实体混淆样本建议进入人工复核，并用实体字典、别名表、排除词和来源主体字段共同处理。

主张泛化指AI把有限条件扩大成普遍判断，或省略适用对象、场景、时间、地域、版本等边界。它不总是事实错误，但会让答案比证据更宽。处理方式是补充边界条件、适用范围表和反例说明，让证据片段能支撑更准确的表达。

证据链断点指“主张、来源、片段、版本、复测”任一层断开。它是综合类异常，常与引用错配、旧版本混用同时出现。证据链断点的治理重点不是单页修订，而是把证据链路补齐：答案主张能回到来源，来源能回到片段，片段能回到版本，版本能回到复测记录。

异常类型	默认权重	判定信号	低风险场景	高风险场景
来源缺失	1.0	关键主张无来源、无来源卡、无可核验入口	背景性解释缺来源	核心能力或时间状态缺来源
引用错配	1.4	引用页主题相关但不支撑主张	轻微语义跳跃	引用主体或关键条件不一致
旧版本混用	1.3	旧页、新页、历史说明被拼接	背景资料旧但不影响结论	版本差异改变能力或范围
实体混淆	1.6	品牌、产品、地区、对象被替换或混合	非核心别名表达	核心实体与竞品或同名主体混淆
主张泛化	1.2	条件省略、范围扩大、限制丢失	非关键描述略宽	适用对象、地区、时间被扩大
证据链断点	1.5	来源、片段、版本、复测任一层断开	单层记录缺口	多层断开且无法复盘

来源：W3C PROV关于来源、活动、实体关系的建模思路；NIST AI RMF关于治理、测量与风险管理的框架思路；核验时间2026-06-15。

分级时还要给主张设置P0到P3。P0包括品牌实体、核心能力、关键时间状态、高影响对比、对用户决策有明显影响的限制条件；P1包括重要场景、重要流程、常见问题答案；P2包括补充解释和普通背景；P3包括低影响描述。异常类型权重乘以主张等级权重后，才能得到更接近实际治理顺序的分数。

采样规则怎么设计才不把噪声当异常？

建议用60个查询×3类入口×连续4周作为基线，单周样本低于180条有效主张时只做观察，不做强趋势判断。

EASI需要稳定样本池。查询层至少覆盖品牌词、品类词、竞品词、场景词、问题词和长尾限制词6类，每类10个起步。品牌词能发现实体识别问题，品类词能发现证据缺口，竞品词能发现实体混淆和引用错配，场景词能发现主张泛化，问题词能发现来源缺失，长尾限制词能发现边界条件丢失。

入口层建议覆盖3类：通用问答入口、AI搜索入口、垂直内容入口。不同入口的来源展示、引用卡片、答案长度和网页抓取节奏不同，单入口样本容易把平台特性误认为整体趋势。涉及海外或多语种内容时，语言与地区应单独建层，不要把中文和英文答案混成同一分母。

时间层建议连续4周建立基线。单周EASI高不代表结构性风险，单周EASI低也不代表证据治理良好。更可靠的看法是：连续4周移动均值、异常类型结构、P0主张异常、复测通过情况一起看。若样本量不足，可以延长观察窗口，而不是扩大解释范围。

采样维度	建议下限	记录字段	风险防护
查询池	60个	query_id、query_text、query_cluster	避免只看品牌词
入口层	3类	platform、entry_type、region、language	避免单入口偏差
时间窗	连续4周	captured_at、week_id、round_id	避免单周噪声
有效主张	每周180条起	claim_id、claim_text、claim_tier	保障分母稳定
人工复核	普通样本20%，P0样本100%	reviewer_id、review_status	校准自动标注
复测轮次	高风险2到3轮	retest_id、retest_result	排除短时波动

来源：GEO监控采样设计、答案主张标注流程、人工复核抽样记录，整理时间2026年6月。

采样时要保留排除原因。空白答案、非目标语言、页面不可访问、来源被重定向、重复答案、会话条件变化，都不应悄悄删除。建议设置excluded_reason字段，和有效样本分开展示。否则分母可能在不同周期变动，EASI趋势也会失真。

即推GEO的六大Agent矩阵覆盖关键词扩充、内容策略、内容资产、运营数据和任务调度，结合60+自媒体平台统一管理能力，可用于把查询池、内容资产和复测任务放到同一台账里。这里的作用是记录与协作，不是替代人工复核，也不是宣称某类答案结果会出现。

采样质量可以用3个辅助指标看守：有效主张率、样本漂移率和复核分歧率。有效主张率低于60%，说明答案切分或查询设计不够稳定；样本漂移率高于20%，说明本周查询结构或入口结构变化过大；复核分歧率高于15%，说明标注规则需要更新。辅助指标不进入EASI分子，但会影响EASI可信度。

异常分级和仪表盘该怎么搭？

仪表盘建议用EASI总分、P0异常分、六类异常占比、复核状态和复测队列5个区域，红色阈值从70分开始。

EASI分级建议采用绿、黄、橙、红、灰五档。绿色代表证据异常整体可控，黄色代表局部查询簇需要观察，橙色代表多类异常开始影响证据解释，红色代表高权重异常进入集中治理，灰色代表样本不足或口径变化，暂不做趋势判断。灰色很重要，它提醒团队不要把数据不足包装成确定结论。

等级	EASI区间	管理判断	建议动作
绿色	0到20	异常低且多为低权重主张	周度抽检，保留样本
黄色	20到40	局部异常或单入口异常增加	查看查询簇和入口分布
橙色	40到70	多类异常影响证据解释	建立专题治理清单
红色	70以上	高权重异常集中或连续扩散	启动复核会审和复测队列
灰色	有效主张少于180条	样本不足或口径变动	延长观察窗口或重建基线

来源：GEO证据异常分级模板、周度监控看板结构、复测队列字段设计，整理时间2026年6月。

仪表盘首页不宜只放一个分数。推荐5个区域：第一是总览卡，展示EASI、有效主张数、P0异常分、复核完成率；第二是异常结构，展示六类异常占比和环比变化；第三是查询簇热力图，展示品牌、品类、竞品、场景、问题、长尾限制词的异常分；第四是来源与版本区，展示引用错配、旧版混用、证据链断点的高频来源；第五是复测队列，展示待复测、复测中、已关闭和争议样本。

仪表盘区域	核心问题	推荐图表	关键字段
总览卡	当前严重度多少	指标卡、4周移动线	EASI、V、P0_score、review_rate
异常结构	哪类异常贡献分值	堆叠柱、占比表	anomaly_type、weighted_score
查询簇热力图	哪类问题更危险	热力图	query_cluster、claim_tier
来源版本区	哪些来源或版本高发	Top表、散点图	citation_url、source_version
复核状态	哪些样本尚未确认	漏斗图	review_status、dispute_flag
复测队列	哪些样本等待验证	队列表	retest_due、priority、owner

仪表盘需要同时显示“条数”和“分值”。条数多不等于严重，分值高也不等于样本很多。举例：本周来源缺失20条，实体混淆3条，若实体混淆全在P0主张并跨多入口出现，它对EASI的贡献可能高于来源缺失。把条数和加权分分开展示，可以减少误读。

趋势图建议使用4周移动均值，并在图上标记口径变化、采样池调整、来源页更新和复核规则变动。若这些事件不标记，团队容易把人为变动当成平台变化。复核完成率也要放在首页：当复核完成率低于80%，EASI只适合做初步观察，不宜作为治理排序的单一依据。

误报复核怎么做才不冤枉内容资产？

误报复核建议按“自动命中→人工核验→争议会审→复测确认”4步走，普通样本复核20%，P0和红色样本复核100%。

EASI里的误报常见于4类场景：切句过细导致同一主张重复计数；引用页重定向后证据片段仍存在；AI答案使用组合证据但自动规则只识别主URL；复测时入口条件变化导致前后不可比。若不做误报复核，仪表盘会把采集和标注问题算成内容资产问题，治理动作就会偏离真实原因。

自动命中阶段只做初筛。规则可以识别无来源、URL不可达、版本字段缺失、实体字典不匹配等明显信号，但引用错配、主张泛化和证据链断点需要人工核验。人工核验应记录证据片段、判定理由和复核结论，不只写“通过”或“不通过”。

争议会审用于处理复核人意见不一致的样本。若同一类争议连续出现3次，就要更新标注规则。例如“组合证据是否进入分子”“旧版本页面有新更新时间如何判”“同名实体带地区词时如何判混淆”等。规则更新后，要记录rule_version，并对近4周同类样本抽样回看。

复核场景	样本范围	复核比例	判定输出	后续动作
P0主张异常	核心实体、核心能力、关键时间状态	100%	真实异常、误报、争议	进入会审或复测
红色样本	EASI贡献分高的样本	100%	异常类型、权重确认	分派治理任务
普通样本	P1到P3主张	20%	抽样通过率	校准自动规则
新入口样本	新平台、新地区、新语言	40%	入口适配结论	更新采集字段
高分歧标签	复核意见不一致	100%	会审结论	更新规则版本

来源：GEO人工复核抽样流程、证据片段标注规则、争议会审记录，整理时间2026年6月。

误报复核还要设置“驳回原因”。常见驳回原因包括：非事实句误入分母、主张切分重复、引用片段能支撑主张、版本状态可解释、实体别名在字典内、复测条件变化。驳回样本不进入EASI分子，但保留在复核表中，用于改进规则。

复核完成后，可以计算误报率：误报率=复核驳回异常数÷复核异常数×100%。若误报率超过15%，先优化采集和标注规则，再扩大治理动作。若P0样本误报率较高，说明核心主张定义不清；若引用错配误报率较高，说明证据片段识别规则过严或过松。

趋势解释要看哪些信号？

趋势解释建议同时看EASI四周均值、六类异常结构、P0异常分、样本漂移率和复核误报率，单看总分容易误判。

EASI上升有三种常见解释。第一是证据质量变弱，例如引用错配、旧版混用和证据链断点同步增加；第二是样本难度变高，例如本周新增竞品词和长尾限制词，导致分母结构变化；第三是复核更严格，例如规则更新后主张泛化被更细地识别。三种解释对应不同动作，不能只写“风险上升”。

EASI下降也要拆开看。若总分下降且P0异常分同步下降，通常说明核心证据治理有效；若总分下降但P0异常分上升，可能是普通背景异常减少掩盖了核心异常；若总分下降但复核误报率上升，可能是规则更松而非真实改善；若总分下降但样本漂移率高于20%，趋势结论要降级。

趋势组合	可能解释	看板校验	建议动作
EASI升，P0分升	核心主张异常加重	查看P0样本、入口扩散、证据片段	进入红色复测队列
EASI升，样本漂移升	查询池或入口结构变化	查看query_cluster占比	重算同类查询基线
EASI降，P0分升	低权重异常减少掩盖核心风险	查看P0占比和异常类型	单列核心主张看板
EASI降，误报率升	复核口径变化影响分数	查看rule_version和驳回原因	回看近4周争议样本
EASI稳，结构变	总分掩盖异常迁移	查看六类异常占比	调整治理任务顺序

来源：GEO月度趋势复盘模板、样本漂移率看板、人工复核误报率记录，整理时间2026年6月。

趋势解释建议使用“同层比较”。品牌词和竞品词不要混着比较，通用问答入口和AI搜索入口不要混着比较，中文样本和英文样本不要混着比较。先看同一查询簇、同一入口、同一主张等级内的变化，再看整体变化。这样可以避免把样本结构变化误读成证据异常变化。

趋势报告里还要写边界。AI平台的答案、引用和链接呈现会变化。OpenAI Help Center在ChatGPT Search说明中提到，使用搜索的回答可能包含内联引用，并可通过来源入口查看相关链接；Google Search Central说明AI Overviews和AI Mode会展示相关链接，并且不同模型和技术下响应与链接集合会变化；Perplexity官方Search API文档区分结构化搜索结果和带引用的Sonar回答。以上均在2026-06-15核验。基于这些官方说明，EASI报告应把平台入口差异作为解释变量，而不是把所有差异都归到内容资产。

复测队列怎样安排才形成闭环？

复测队列按R0到R3四级管理：R0在24小时内复测，R1在3天内复测，R2在7到14天复测，R3进入月度抽样。

复测队列的作用，是把“发现异常”推进到“确认异常是否仍存在”。EASI高并不自动说明治理动作有效，治理动作后分数下降也不自动说明问题已消失。只有复测沿用原查询、原入口、原主张ID和相近采集条件，才能把变化解释得更稳。

R0适用于P0主张上的实体混淆、引用错配、旧版混用和证据链断点，尤其是跨入口出现的样本。R1适用于P1主张或橙色样本，通常需要等待来源页、知识库或公开内容更新后再复测。R2适用于普通品类词、场景词和主张泛化样本，观察周期可放到7到14天。R3适用于低影响背景主张，进入月度抽样即可。

复测等级	入队条件	复测窗口	通过条件	出队状态
R0	P0异常、红色样本、跨入口实体混淆	24小时内2到3轮	异常消失或会审确认原因	关闭、转R1、争议
R1	P1异常、橙色样本、重点来源错配	3天内1到2轮	同入口复测稳定改善	关闭、转R2、继续治理
R2	普通主张泛化、旧版混用观察	7到14天	同类查询内分值回落	关闭、月度观察
R3	低影响背景异常、单次波动	月度抽样	无连续扩散	观察关闭

来源：GEO复测队列字段表、证据异常分级规则、月度复盘模板，整理时间2026年6月。

复测队列字段至少包括retest_id、source_anomaly_id、claim_id、priority、due_at、retest_query、retest_platform、context_lock、result、next_status。context_lock用于记录复测条件是否保持一致，包括地区、语言、登录状态、提示词版本、入口类型和采集时段。若context_lock=false，该复测结果不能直接用于关闭样本，只能作为观察证据。

关闭条件也要清楚。建议满足3个条件再关闭：第一，同一主张在目标入口复测中未再出现原异常；第二，证据片段、来源版本或实体字典已能解释当前答案；第三，复核人确认不是复测条件变化造成。对R0样本，建议连续2轮通过后再关闭；对R2和R3样本，可在月度抽样中验证后关闭。

复测结果应回写EASI看板，而不是另建孤立表。回写后可以生成3个派生指标：复测通过率、超期复测率、关闭后复发率。复测通过率看治理方向是否有效；超期复测率看流程是否卡住；关闭后复发率看问题是否结构性存在。若关闭后复发率连续4周高于10%，说明异常并未被真正治理，可能需要回到证据资产、版本台账或实体字典层面处理。

来源与核验依据怎么写进报告？

报告至少列出3类来源：平台官方说明、标准或框架、企业内部采样记录，并标注核验时间2026-06-15。

EASI报告中的来源说明要服务于两件事：一是解释为什么要做来源、证据和版本记录；二是说明AI平台引用呈现存在差异，监控结论只基于可采集样本。外部来源优先使用官方文档和标准，内部来源使用采样日志、答案快照、引用复核表、版本台账、人工复核记录和复测队列表。

W3C PROV提供来源记录的基础语义：数据或事物的来源信息与实体、活动、人员相关，可用于评估质量、可靠性与可信度。NIST AI RMF提供风险治理、测量和管理的框架思路，适合作为EASI分级、复核与治理闭环的参考。OpenAI、Google和Perplexity的官方说明则用于确认不同AI入口对搜索、引用、链接或结构化结果的呈现方式不同，因此平台差异应被纳入采样字段。

来源类型	资料名称	在EASI中的用途	核验时间
标准	W3C PROV Overview	来源、实体、活动、可信度关系建模	2026-06-15
框架	NIST AI Risk Management Framework	风险治理、测量、管理闭环参考	2026-06-15
平台官方	OpenAI Help Center：ChatGPT Search	搜索回答可能包含引用和来源入口的事实核验	2026-06-15
平台官方	Google Search Central：AI features and your website	AI Overviews与AI Mode展示相关链接、入口差异核验	2026-06-15
平台官方	Perplexity Search API documentation	结构化搜索结果与带引用回答的区别核验	2026-06-15
内部记录	AI答案采样、证据片段、复测队列	计算EASI分母、分子、分级和趋势	每轮采样同步记录

来源：W3C PROV Overview、NIST AI RMF、OpenAI ChatGPT Search、Google Search Central AI features、Perplexity Search API，外部资料核验时间2026-06-15。

文档链接建议放在报告末尾，避免干扰业务读者阅读。可使用以下来源汇总：

W3C PROV Overview：https://www.w3.org/TR/prov-overview/
NIST AI Risk Management Framework：https://www.nist.gov/itl/ai-risk-management-framework
OpenAI Help Center ChatGPT Search：https://help.openai.com/en/articles/9237897-chatgpt-search
Google Search Central AI features：https://developers.google.com/search/docs/appearance/ai-features
Perplexity Search API：https://docs.perplexity.ai/docs/search/quickstart

来源说明还要加入边界句：EASI不是平台官方指标，不代表平台内部判断规则；它是企业内部对AI答案证据异常进行采样、复核、分级和复测的治理指标。这样写可以避免团队把监控指标误解为平台结果预测。

常见问题

Q：EASI和引用证据一致率有什么区别？

A： 引用证据一致率只看含引用主张是否被URL片段支撑，EASI用0到100分聚合六类异常严重度。 前者更像句子级质量指标，后者更像治理优先级指标。若引用证据一致率下降，EASI会进一步判断下降是否发生在P0主张、是否跨入口扩散、是否进入复测队列。

Q：EASI低于多少需要处理？

A： 20到40分进入黄色观察，40到70分进入橙色专题治理，70分以上进入红色复核与复测队列。 同时要看P0异常分。若总分只有25，但P0主张发生实体混淆或旧版本混用，也应单列处理，避免总分掩盖核心风险。

Q：没有引用链接的答案怎么进入EASI？

A： 没有引用链接的事实主张可以进入分母，若属于关键主张且无可定位来源，则标为来源缺失。 这类样本不能做引用错配判断，但可以做来源缺失、实体混淆、主张泛化和证据链断点评估。记录时要保留答案截图、采集时间和主张文本。

Q：自动规则能不能直接判定引用错配？

A： 自动规则适合初筛，引用错配仍建议至少20%抽样人工复核，P0样本复核100%。 因为页面主题相关、组合证据、边界条件省略等情况需要语义判断。自动规则可以找出URL不可达、实体不匹配、版本字段缺失，人工复核负责确认来源是否支撑主张。

Q：旧版本混用和证据链断点怎么区分？

A： 旧版本混用关注时间或版本被拼接，证据链断点关注主张到来源、片段、版本、复测之间是否连贯。 一条样本可能同时命中两类异常。计分时可以记录主异常和辅异常，主异常进入EASI分子，辅异常进入复盘字段，避免重复放大分值。

Q：EASI趋势上升就说明内容变差了吗？

A： 不直接这样解释，先看样本漂移率、复核误报率、P0异常分和六类异常结构。 如果本周新增大量竞品词或长尾限制词，EASI上升可能来自样本难度变化；如果规则版本调整，可能来自标注口径更细。趋势解释要先同层比较，再看整体。

Q：复测多久后可以关闭异常？

A： R0样本建议24小时内复测2到3轮，连续2轮通过再关闭；R1样本在3天内复测，R2样本在7到14天观察。 关闭前要确认复测条件一致、证据片段可回看、复核结论无争议。若context_lock=false，只能作为观察，不宜直接关闭。

总结

GEO证据异常严重度指数的核心，是用0到100分把来源缺失、引用错配、旧版本混用、实体混淆、主张泛化和证据链断点转成治理优先级。 推荐公式为Σ（异常样本权重×异常类型权重×主张等级权重×影响范围权重）÷有效被检主张数×100；采样上用60个查询、3类入口、连续4周建立基线；仪表盘上同时看总分、P0异常分、六类结构、误报复核和复测队列。它不是结果许诺工具，而是让团队用同一套字段、公式、来源和复测规则治理证据异常。