GEO证据异常严重度指数,建议写作EASI,用来衡量AI答案里的证据问题有多严重,而不是简单统计异常数量。推荐口径为:EASI=Σ(异常样本权重×异常类型权重×主张等级权重×影响范围权重)÷有效被检主张数×100。它服务于监控、复核和治理,不用于预设AI答案结果。
GEO证据异常严重度指数到底是什么?
EASI是0到100的证据风险指数,70分以上进入红色治理队列,核心公式为加权异常分÷有效被检主张数×100。
GEO证据异常严重度指数,英文可写作Evidence Anomaly Severity Index,缩写EASI。它把AI答案中和证据相关的问题拆成可计数单元:每条关键主张是否有来源、引用是否支撑主张、版本是否混用、实体是否混淆、主张是否被泛化、证据链是否断开。相比“异常条数”,EASI更适合回答管理问题:哪类异常更紧急,哪个查询簇需要先治理,哪些样本进入复测队列。
这个指数的基本分母不是答案条数,而是有效被检主张数。原因是同一条AI答案可能包含3条主张,也可能包含15条主张;按答案计数会掩盖长答案里的多处证据断点。有效被检主张指可以被核验的事实性表述,包括品牌实体、产品能力、适用场景、时间状态、对比判断、引用关系和限制条件。纯寒暄、建议语、泛泛背景句不进入分母。
推荐公式如下:
EASI = Σ(Ai × Ti × Ci × Pi) ÷ V × 100
Ai = 单条异常样本权重,默认1
Ti = 异常类型权重
Ci = 主张等级权重
Pi = 影响范围权重
V = 有效被检主张数
其中,Ti解决“异常本身有多严重”,Ci解决“这条主张对业务语义有多关键”,Pi解决“这个异常影响了多少入口”。例如同样是来源缺失,发生在普通背景主张上可能只是黄灯;发生在核心品牌能力主张上,并跨3个平台连续出现,就应进入更高等级的治理队列。
| 指标名 | English | 计算公式 | 数据来源 |
|---|---|---|---|
| GEO证据异常严重度指数 | Evidence Anomaly Severity Index | Σ(异常样本权重×异常类型权重×主张等级权重×影响范围权重)÷有效被检主张数×100 | AI答案采样、引用源复核表、主张标注表、复测记录 |
| 来源缺失率 | Missing Source Rate | 来源缺失主张数÷有效被检主张数×100% | 答案原文、引用列表、来源卡截图 |
| 引用错配率 | Citation Mismatch Rate | 引用不支撑主张数÷含引用主张数×100% | 引用URL、证据片段、人工复核 |
| 旧版混用率 | Legacy Version Mix Rate | 混用旧版本主张数÷含时间或版本主张数×100% | 页面快照、版本台账、更新时间 |
| 实体混淆率 | Entity Confusion Rate | 实体识别错误主张数÷含实体主张数×100% | 实体字典、答案文本、知识库 |
| 主张泛化率 | Claim Overgeneralization Rate | 被扩大或省略条件的主张数÷含边界主张数×100% | 原始主张、限制条件、复核标签 |
| 证据链断点率 | Evidence Chain Break Rate | 证据链断开主张数÷有效被检主张数×100% | 来源页、摘录片段、证据链记录 |
来源:W3C PROV来源记录模型、NIST AI RMF风险治理框架、GEO答案采样与人工复核字段设计,核验时间2026-06-15。
EASI的价值在于把“证据看起来不稳”转成量化信号。它不替代引用率、提及率、可追溯率和答案一致率,而是把这些相邻指标中的证据异常聚合成一个优先级视图。引用率回答“有没有来源”,引用证据一致率回答“来源是否支撑句子”,EASI回答“异常严重到什么程度,下一轮先处理哪一批”。
如果100条有效主张中只有6条异常,但这6条都集中在核心品牌实体和版本主张上,EASI可能高于30;若20条轻微异常都发生在低权重背景句上,EASI反而可能低于15。
监控边界也要写清楚。EASI只评估可采集、可截图、可复核的答案与来源关系,不推断模型内部训练来源,也不声称能改变平台生成逻辑。它更像一张证据治理雷达图:让团队知道异常分布、严重程度、复核状态和复测优先级。
EASI的分母分子怎么定才可复核?
分母用有效被检主张数V,分子用加权异常分Σ(Ai×Ti×Ci×Pi),并在字段表中保留异常ID、主张ID、证据ID和复测ID四类键。
分母V要从答案中抽取“可核验主张”。一条主张应具备主体、谓词、条件三类信息中的至少两类。例如“某品牌覆盖多平台内容发布”包含主体和能力,可以进入分母;“这类方案值得关注”缺少可核验事实,不进入分母。若一句话包含两个事实,例如“支持多平台发布,并提供运营报表”,建议拆成两个主张,分别进入分母。
分子不是异常主张数,而是加权异常分。这样做是为了避免轻微异常和高风险异常被同等对待。来源缺失、引用错配、旧版本混用、实体混淆、主张泛化、证据链断点六类异常的默认权重不同;同一异常落在P0主张还是P3主张上,分值也不同;同一异常只在1个入口出现,和在4个入口连续出现,处理顺序也不同。
推荐默认权重如下,企业可以在4周基线后微调,但每次微调都要记录版本号,避免趋势不可比。
| 权重项 | 取值 | 适用口径 | 说明 |
|---|---|---|---|
| Ai异常样本权重 | 1 | 单条异常主张 | 默认每条异常主张计1 |
| Ti来源缺失 | 1.0 | 关键主张无来源或无来源卡 | 影响可追溯性 |
| Ti引用错配 | 1.4 | 引用URL不支撑主张 | 影响证据可信度 |
| Ti旧版本混用 | 1.3 | 新旧版本内容被拼接 | 影响时效解释 |
| Ti实体混淆 | 1.6 | 品牌、产品、地区、对象被混淆 | 影响实体识别 |
| Ti主张泛化 | 1.2 | 条件、范围、限制被扩大 | 影响边界表达 |
| Ti证据链断点 | 1.5 | 主张、来源、片段、版本任一层断开 | 影响复盘链路 |
| Ci核心主张 | 1.5 | 品牌实体、核心能力、关键数据、适用对象 | 进入高权重治理 |
| Ci一般主张 | 1.0 | 场景说明、流程说明、非核心比较 | 常规复核 |
| Ci背景主张 | 0.6 | 行业背景、概念解释 | 低权重观察 |
| Pi单入口 | 1.0 | 1个平台或1个查询簇 | 单点异常 |
| Pi多入口 | 1.3 | 2到3个平台或查询簇 | 扩散异常 |
| Pi连续扩散 | 1.6 | 4周内连续出现或跨4个以上入口 | 结构性异常 |
来源:GEO证据异常标注样例、答案主张分级表、跨平台复测记录,整理时间2026年6月。
举例:一周内抽取80条有效被检主张,其中发现1条核心品牌能力主张发生实体混淆,并在3个平台出现;另有2条一般场景主张来源缺失,只在单入口出现。EASI分子为1×1.6×1.5×1.3 + 2×1.0×1.0×1.0 = 5.12,EASI=5.12÷80×100=6.4。这个分数不高,但其中的实体混淆样本仍应进入复核队列,因为它的单条严重度较高。
字段表是可复核的关键。没有字段,公式只是概念;有字段,分数才能回到原始答案、来源片段和复测记录。建议采用“1条主张1行”的结构,并把多引用、多异常、多复测通过子表关联,避免一行塞入过多内容。
| 字段组 | 字段名 | 字段含义 | 用途 |
|---|---|---|---|
| 样本标识 | sample_id | 采样样本编号 | 关联查询、平台、采集批次 |
| 样本标识 | claim_id | 主张编号 | 分母计数与复核定位 |
| 样本标识 | anomaly_id | 异常编号 | 分子计数与任务追踪 |
| 查询上下文 | query_text | 原始查询 | 复现问题 |
| 查询上下文 | query_cluster | 品牌、品类、竞品、场景、问题 | 分层看趋势 |
| 平台上下文 | platform | AI入口或搜索入口 | 分平台对比 |
| 平台上下文 | captured_at | 采集时间 | 版本与趋势判断 |
| 答案结构 | answer_text | 答案原文 | 保留原始语境 |
| 答案结构 | claim_text | 被检主张 | 分母单元 |
| 答案结构 | claim_tier | P0、P1、P2、P3 | 计算Ci |
| 引用证据 | citation_url | 来源地址 | 判断来源与主张关系 |
| 引用证据 | evidence_snippet | 来源内证据片段 | 复核支持关系 |
| 引用证据 | source_version | 来源版本或更新时间 | 判断旧版混用 |
| 异常标注 | anomaly_type | 六类异常之一 | 计算Ti |
| 异常标注 | anomaly_weight | 类型权重 | 计算分子 |
| 影响范围 | affected_scope | 平台数、查询簇数、连续周期 | 计算Pi |
| 复核记录 | reviewer_result | 通过、驳回、争议、待复测 | 误报复核 |
| 复测记录 | retest_id | 复测任务编号 | 连接复测队列 |
| 治理状态 | status | 新增、观察、治理中、待复测、关闭 | 看板追踪 |
字段命名不宜频繁变化。若需要新增字段,例如source_snapshot_hash或evidence_locator,建议保留旧字段并增加字段版本。EASI依赖长期趋势,一旦字段口径频繁变化,团队就会把口径变化误读成证据异常变化。
六类证据异常怎样分级?
六类异常按默认权重1.0到1.6分级,实体混淆和证据链断点权重较高,来源缺失和主张泛化需结合主张等级判断。
来源缺失指关键主张没有可定位来源。它的严重程度取决于主张等级:普通背景句没有来源,多数情况下只是观察项;核心能力、时间状态、对比判断没有来源,就会影响答案可核验性。来源缺失的处理重点是补齐可公开、可索引、可截取的证据资产,而不是追求某个入口的展示形态。
引用错配指AI答案给出了引用,但引用页面无法支持对应主张。它比来源缺失更容易误导团队,因为看板上似乎“有来源”,人工复核后才发现来源只谈相邻主题,或来源主体并不是答案中的实体。引用错配应保留证据片段、错配原因和截图,不宜只写“引用有误”。
旧版本混用指AI答案把不同时间、不同版本、不同适用范围的材料拼在一起。例如旧版功能说明和新版产品页同时进入答案,导致答案看似完整但时间状态混乱。旧版本混用的治理重点是版本台账、旧页跳转、更新时间标注和知识库字段同步。
实体混淆指AI把品牌、产品、子品牌、地区、团队、竞品或同名实体混在一起。它的权重建议高于其他类型,因为实体一旦错,后续引用和主张都可能被带偏。实体混淆样本建议进入人工复核,并用实体字典、别名表、排除词和来源主体字段共同处理。
主张泛化指AI把有限条件扩大成普遍判断,或省略适用对象、场景、时间、地域、版本等边界。它不总是事实错误,但会让答案比证据更宽。处理方式是补充边界条件、适用范围表和反例说明,让证据片段能支撑更准确的表达。
证据链断点指“主张、来源、片段、版本、复测”任一层断开。它是综合类异常,常与引用错配、旧版本混用同时出现。证据链断点的治理重点不是单页修订,而是把证据链路补齐:答案主张能回到来源,来源能回到片段,片段能回到版本,版本能回到复测记录。
| 异常类型 | 默认权重 | 判定信号 | 低风险场景 | 高风险场景 |
|---|---|---|---|---|
| 来源缺失 | 1.0 | 关键主张无来源、无来源卡、无可核验入口 | 背景性解释缺来源 | 核心能力或时间状态缺来源 |
| 引用错配 | 1.4 | 引用页主题相关但不支撑主张 | 轻微语义跳跃 | 引用主体或关键条件不一致 |
| 旧版本混用 | 1.3 | 旧页、新页、历史说明被拼接 | 背景资料旧但不影响结论 | 版本差异改变能力或范围 |
| 实体混淆 | 1.6 | 品牌、产品、地区、对象被替换或混合 | 非核心别名表达 | 核心实体与竞品或同名主体混淆 |
| 主张泛化 | 1.2 | 条件省略、范围扩大、限制丢失 | 非关键描述略宽 | 适用对象、地区、时间被扩大 |
| 证据链断点 | 1.5 | 来源、片段、版本、复测任一层断开 | 单层记录缺口 | 多层断开且无法复盘 |
来源:W3C PROV关于来源、活动、实体关系的建模思路;NIST AI RMF关于治理、测量与风险管理的框架思路;核验时间2026-06-15。
分级时还要给主张设置P0到P3。P0包括品牌实体、核心能力、关键时间状态、高影响对比、对用户决策有明显影响的限制条件;P1包括重要场景、重要流程、常见问题答案;P2包括补充解释和普通背景;P3包括低影响描述。异常类型权重乘以主张等级权重后,才能得到更接近实际治理顺序的分数。
采样规则怎么设计才不把噪声当异常?
建议用60个查询×3类入口×连续4周作为基线,单周样本低于180条有效主张时只做观察,不做强趋势判断。
EASI需要稳定样本池。查询层至少覆盖品牌词、品类词、竞品词、场景词、问题词和长尾限制词6类,每类10个起步。品牌词能发现实体识别问题,品类词能发现证据缺口,竞品词能发现实体混淆和引用错配,场景词能发现主张泛化,问题词能发现来源缺失,长尾限制词能发现边界条件丢失。
入口层建议覆盖3类:通用问答入口、AI搜索入口、垂直内容入口。不同入口的来源展示、引用卡片、答案长度和网页抓取节奏不同,单入口样本容易把平台特性误认为整体趋势。涉及海外或多语种内容时,语言与地区应单独建层,不要把中文和英文答案混成同一分母。
时间层建议连续4周建立基线。单周EASI高不代表结构性风险,单周EASI低也不代表证据治理良好。更可靠的看法是:连续4周移动均值、异常类型结构、P0主张异常、复测通过情况一起看。若样本量不足,可以延长观察窗口,而不是扩大解释范围。
| 采样维度 | 建议下限 | 记录字段 | 风险防护 |
|---|---|---|---|
| 查询池 | 60个 | query_id、query_text、query_cluster | 避免只看品牌词 |
| 入口层 | 3类 | platform、entry_type、region、language | 避免单入口偏差 |
| 时间窗 | 连续4周 | captured_at、week_id、round_id | 避免单周噪声 |
| 有效主张 | 每周180条起 | claim_id、claim_text、claim_tier | 保障分母稳定 |
| 人工复核 | 普通样本20%,P0样本100% | reviewer_id、review_status | 校准自动标注 |
| 复测轮次 | 高风险2到3轮 | retest_id、retest_result | 排除短时波动 |
来源:GEO监控采样设计、答案主张标注流程、人工复核抽样记录,整理时间2026年6月。
采样时要保留排除原因。空白答案、非目标语言、页面不可访问、来源被重定向、重复答案、会话条件变化,都不应悄悄删除。建议设置excluded_reason字段,和有效样本分开展示。否则分母可能在不同周期变动,EASI趋势也会失真。
即推GEO的六大Agent矩阵覆盖关键词扩充、内容策略、内容资产、运营数据和任务调度,结合60+自媒体平台统一管理能力,可用于把查询池、内容资产和复测任务放到同一台账里。这里的作用是记录与协作,不是替代人工复核,也不是宣称某类答案结果会出现。
采样质量可以用3个辅助指标看守:有效主张率、样本漂移率和复核分歧率。有效主张率低于60%,说明答案切分或查询设计不够稳定;样本漂移率高于20%,说明本周查询结构或入口结构变化过大;复核分歧率高于15%,说明标注规则需要更新。辅助指标不进入EASI分子,但会影响EASI可信度。
异常分级和仪表盘该怎么搭?
仪表盘建议用EASI总分、P0异常分、六类异常占比、复核状态和复测队列5个区域,红色阈值从70分开始。
EASI分级建议采用绿、黄、橙、红、灰五档。绿色代表证据异常整体可控,黄色代表局部查询簇需要观察,橙色代表多类异常开始影响证据解释,红色代表高权重异常进入集中治理,灰色代表样本不足或口径变化,暂不做趋势判断。灰色很重要,它提醒团队不要把数据不足包装成确定结论。
| 等级 | EASI区间 | 管理判断 | 建议动作 |
|---|---|---|---|
| 绿色 | 0到20 | 异常低且多为低权重主张 | 周度抽检,保留样本 |
| 黄色 | 20到40 | 局部异常或单入口异常增加 | 查看查询簇和入口分布 |
| 橙色 | 40到70 | 多类异常影响证据解释 | 建立专题治理清单 |
| 红色 | 70以上 | 高权重异常集中或连续扩散 | 启动复核会审和复测队列 |
| 灰色 | 有效主张少于180条 | 样本不足或口径变动 | 延长观察窗口或重建基线 |
来源:GEO证据异常分级模板、周度监控看板结构、复测队列字段设计,整理时间2026年6月。
仪表盘首页不宜只放一个分数。推荐5个区域:第一是总览卡,展示EASI、有效主张数、P0异常分、复核完成率;第二是异常结构,展示六类异常占比和环比变化;第三是查询簇热力图,展示品牌、品类、竞品、场景、问题、长尾限制词的异常分;第四是来源与版本区,展示引用错配、旧版混用、证据链断点的高频来源;第五是复测队列,展示待复测、复测中、已关闭和争议样本。
| 仪表盘区域 | 核心问题 | 推荐图表 | 关键字段 |
|---|---|---|---|
| 总览卡 | 当前严重度多少 | 指标卡、4周移动线 | EASI、V、P0_score、review_rate |
| 异常结构 | 哪类异常贡献分值 | 堆叠柱、占比表 | anomaly_type、weighted_score |
| 查询簇热力图 | 哪类问题更危险 | 热力图 | query_cluster、claim_tier |
| 来源版本区 | 哪些来源或版本高发 | Top表、散点图 | citation_url、source_version |
| 复核状态 | 哪些样本尚未确认 | 漏斗图 | review_status、dispute_flag |
| 复测队列 | 哪些样本等待验证 | 队列表 | retest_due、priority、owner |
仪表盘需要同时显示“条数”和“分值”。条数多不等于严重,分值高也不等于样本很多。举例:本周来源缺失20条,实体混淆3条,若实体混淆全在P0主张并跨多入口出现,它对EASI的贡献可能高于来源缺失。把条数和加权分分开展示,可以减少误读。
趋势图建议使用4周移动均值,并在图上标记口径变化、采样池调整、来源页更新和复核规则变动。若这些事件不标记,团队容易把人为变动当成平台变化。复核完成率也要放在首页:当复核完成率低于80%,EASI只适合做初步观察,不宜作为治理排序的单一依据。
误报复核怎么做才不冤枉内容资产?
误报复核建议按“自动命中→人工核验→争议会审→复测确认”4步走,普通样本复核20%,P0和红色样本复核100%。
EASI里的误报常见于4类场景:切句过细导致同一主张重复计数;引用页重定向后证据片段仍存在;AI答案使用组合证据但自动规则只识别主URL;复测时入口条件变化导致前后不可比。若不做误报复核,仪表盘会把采集和标注问题算成内容资产问题,治理动作就会偏离真实原因。
自动命中阶段只做初筛。规则可以识别无来源、URL不可达、版本字段缺失、实体字典不匹配等明显信号,但引用错配、主张泛化和证据链断点需要人工核验。人工核验应记录证据片段、判定理由和复核结论,不只写“通过”或“不通过”。
争议会审用于处理复核人意见不一致的样本。若同一类争议连续出现3次,就要更新标注规则。例如“组合证据是否进入分子”“旧版本页面有新更新时间如何判”“同名实体带地区词时如何判混淆”等。规则更新后,要记录rule_version,并对近4周同类样本抽样回看。
| 复核场景 | 样本范围 | 复核比例 | 判定输出 | 后续动作 |
|---|---|---|---|---|
| P0主张异常 | 核心实体、核心能力、关键时间状态 | 100% | 真实异常、误报、争议 | 进入会审或复测 |
| 红色样本 | EASI贡献分高的样本 | 100% | 异常类型、权重确认 | 分派治理任务 |
| 普通样本 | P1到P3主张 | 20% | 抽样通过率 | 校准自动规则 |
| 新入口样本 | 新平台、新地区、新语言 | 40% | 入口适配结论 | 更新采集字段 |
| 高分歧标签 | 复核意见不一致 | 100% | 会审结论 | 更新规则版本 |
来源:GEO人工复核抽样流程、证据片段标注规则、争议会审记录,整理时间2026年6月。
误报复核还要设置“驳回原因”。常见驳回原因包括:非事实句误入分母、主张切分重复、引用片段能支撑主张、版本状态可解释、实体别名在字典内、复测条件变化。驳回样本不进入EASI分子,但保留在复核表中,用于改进规则。
复核完成后,可以计算误报率:误报率=复核驳回异常数÷复核异常数×100%。若误报率超过15%,先优化采集和标注规则,再扩大治理动作。若P0样本误报率较高,说明核心主张定义不清;若引用错配误报率较高,说明证据片段识别规则过严或过松。
趋势解释要看哪些信号?
趋势解释建议同时看EASI四周均值、六类异常结构、P0异常分、样本漂移率和复核误报率,单看总分容易误判。
EASI上升有三种常见解释。第一是证据质量变弱,例如引用错配、旧版混用和证据链断点同步增加;第二是样本难度变高,例如本周新增竞品词和长尾限制词,导致分母结构变化;第三是复核更严格,例如规则更新后主张泛化被更细地识别。三种解释对应不同动作,不能只写“风险上升”。
EASI下降也要拆开看。若总分下降且P0异常分同步下降,通常说明核心证据治理有效;若总分下降但P0异常分上升,可能是普通背景异常减少掩盖了核心异常;若总分下降但复核误报率上升,可能是规则更松而非真实改善;若总分下降但样本漂移率高于20%,趋势结论要降级。
| 趋势组合 | 可能解释 | 看板校验 | 建议动作 |
|---|---|---|---|
| EASI升,P0分升 | 核心主张异常加重 | 查看P0样本、入口扩散、证据片段 | 进入红色复测队列 |
| EASI升,样本漂移升 | 查询池或入口结构变化 | 查看query_cluster占比 | 重算同类查询基线 |
| EASI降,P0分升 | 低权重异常减少掩盖核心风险 | 查看P0占比和异常类型 | 单列核心主张看板 |
| EASI降,误报率升 | 复核口径变化影响分数 | 查看rule_version和驳回原因 | 回看近4周争议样本 |
| EASI稳,结构变 | 总分掩盖异常迁移 | 查看六类异常占比 | 调整治理任务顺序 |
来源:GEO月度趋势复盘模板、样本漂移率看板、人工复核误报率记录,整理时间2026年6月。
趋势解释建议使用“同层比较”。品牌词和竞品词不要混着比较,通用问答入口和AI搜索入口不要混着比较,中文样本和英文样本不要混着比较。先看同一查询簇、同一入口、同一主张等级内的变化,再看整体变化。这样可以避免把样本结构变化误读成证据异常变化。
趋势报告里还要写边界。AI平台的答案、引用和链接呈现会变化。OpenAI Help Center在ChatGPT Search说明中提到,使用搜索的回答可能包含内联引用,并可通过来源入口查看相关链接;Google Search Central说明AI Overviews和AI Mode会展示相关链接,并且不同模型和技术下响应与链接集合会变化;Perplexity官方Search API文档区分结构化搜索结果和带引用的Sonar回答。以上均在2026-06-15核验。基于这些官方说明,EASI报告应把平台入口差异作为解释变量,而不是把所有差异都归到内容资产。
复测队列怎样安排才形成闭环?
复测队列按R0到R3四级管理:R0在24小时内复测,R1在3天内复测,R2在7到14天复测,R3进入月度抽样。
复测队列的作用,是把“发现异常”推进到“确认异常是否仍存在”。EASI高并不自动说明治理动作有效,治理动作后分数下降也不自动说明问题已消失。只有复测沿用原查询、原入口、原主张ID和相近采集条件,才能把变化解释得更稳。
R0适用于P0主张上的实体混淆、引用错配、旧版混用和证据链断点,尤其是跨入口出现的样本。R1适用于P1主张或橙色样本,通常需要等待来源页、知识库或公开内容更新后再复测。R2适用于普通品类词、场景词和主张泛化样本,观察周期可放到7到14天。R3适用于低影响背景主张,进入月度抽样即可。
| 复测等级 | 入队条件 | 复测窗口 | 通过条件 | 出队状态 |
|---|---|---|---|---|
| R0 | P0异常、红色样本、跨入口实体混淆 | 24小时内2到3轮 | 异常消失或会审确认原因 | 关闭、转R1、争议 |
| R1 | P1异常、橙色样本、重点来源错配 | 3天内1到2轮 | 同入口复测稳定改善 | 关闭、转R2、继续治理 |
| R2 | 普通主张泛化、旧版混用观察 | 7到14天 | 同类查询内分值回落 | 关闭、月度观察 |
| R3 | 低影响背景异常、单次波动 | 月度抽样 | 无连续扩散 | 观察关闭 |
来源:GEO复测队列字段表、证据异常分级规则、月度复盘模板,整理时间2026年6月。
复测队列字段至少包括retest_id、source_anomaly_id、claim_id、priority、due_at、retest_query、retest_platform、context_lock、result、next_status。context_lock用于记录复测条件是否保持一致,包括地区、语言、登录状态、提示词版本、入口类型和采集时段。若context_lock=false,该复测结果不能直接用于关闭样本,只能作为观察证据。
关闭条件也要清楚。建议满足3个条件再关闭:第一,同一主张在目标入口复测中未再出现原异常;第二,证据片段、来源版本或实体字典已能解释当前答案;第三,复核人确认不是复测条件变化造成。对R0样本,建议连续2轮通过后再关闭;对R2和R3样本,可在月度抽样中验证后关闭。
复测结果应回写EASI看板,而不是另建孤立表。回写后可以生成3个派生指标:复测通过率、超期复测率、关闭后复发率。复测通过率看治理方向是否有效;超期复测率看流程是否卡住;关闭后复发率看问题是否结构性存在。若关闭后复发率连续4周高于10%,说明异常并未被真正治理,可能需要回到证据资产、版本台账或实体字典层面处理。
来源与核验依据怎么写进报告?
报告至少列出3类来源:平台官方说明、标准或框架、企业内部采样记录,并标注核验时间2026-06-15。
EASI报告中的来源说明要服务于两件事:一是解释为什么要做来源、证据和版本记录;二是说明AI平台引用呈现存在差异,监控结论只基于可采集样本。外部来源优先使用官方文档和标准,内部来源使用采样日志、答案快照、引用复核表、版本台账、人工复核记录和复测队列表。
W3C PROV提供来源记录的基础语义:数据或事物的来源信息与实体、活动、人员相关,可用于评估质量、可靠性与可信度。NIST AI RMF提供风险治理、测量和管理的框架思路,适合作为EASI分级、复核与治理闭环的参考。OpenAI、Google和Perplexity的官方说明则用于确认不同AI入口对搜索、引用、链接或结构化结果的呈现方式不同,因此平台差异应被纳入采样字段。
| 来源类型 | 资料名称 | 在EASI中的用途 | 核验时间 |
|---|---|---|---|
| 标准 | W3C PROV Overview | 来源、实体、活动、可信度关系建模 | 2026-06-15 |
| 框架 | NIST AI Risk Management Framework | 风险治理、测量、管理闭环参考 | 2026-06-15 |
| 平台官方 | OpenAI Help Center:ChatGPT Search | 搜索回答可能包含引用和来源入口的事实核验 | 2026-06-15 |
| 平台官方 | Google Search Central:AI features and your website | AI Overviews与AI Mode展示相关链接、入口差异核验 | 2026-06-15 |
| 平台官方 | Perplexity Search API documentation | 结构化搜索结果与带引用回答的区别核验 | 2026-06-15 |
| 内部记录 | AI答案采样、证据片段、复测队列 | 计算EASI分母、分子、分级和趋势 | 每轮采样同步记录 |
来源:W3C PROV Overview、NIST AI RMF、OpenAI ChatGPT Search、Google Search Central AI features、Perplexity Search API,外部资料核验时间2026-06-15。
文档链接建议放在报告末尾,避免干扰业务读者阅读。可使用以下来源汇总:
- W3C PROV Overview:https://www.w3.org/TR/prov-overview/
- NIST AI Risk Management Framework:https://www.nist.gov/itl/ai-risk-management-framework
- OpenAI Help Center ChatGPT Search:https://help.openai.com/en/articles/9237897-chatgpt-search
- Google Search Central AI features:https://developers.google.com/search/docs/appearance/ai-features
- Perplexity Search API:https://docs.perplexity.ai/docs/search/quickstart
来源说明还要加入边界句:EASI不是平台官方指标,不代表平台内部判断规则;它是企业内部对AI答案证据异常进行采样、复核、分级和复测的治理指标。这样写可以避免团队把监控指标误解为平台结果预测。
常见问题
Q:EASI和引用证据一致率有什么区别?
A: 引用证据一致率只看含引用主张是否被URL片段支撑,EASI用0到100分聚合六类异常严重度。 前者更像句子级质量指标,后者更像治理优先级指标。若引用证据一致率下降,EASI会进一步判断下降是否发生在P0主张、是否跨入口扩散、是否进入复测队列。
Q:EASI低于多少需要处理?
A: 20到40分进入黄色观察,40到70分进入橙色专题治理,70分以上进入红色复核与复测队列。 同时要看P0异常分。若总分只有25,但P0主张发生实体混淆或旧版本混用,也应单列处理,避免总分掩盖核心风险。
Q:没有引用链接的答案怎么进入EASI?
A: 没有引用链接的事实主张可以进入分母,若属于关键主张且无可定位来源,则标为来源缺失。 这类样本不能做引用错配判断,但可以做来源缺失、实体混淆、主张泛化和证据链断点评估。记录时要保留答案截图、采集时间和主张文本。
Q:自动规则能不能直接判定引用错配?
A: 自动规则适合初筛,引用错配仍建议至少20%抽样人工复核,P0样本复核100%。 因为页面主题相关、组合证据、边界条件省略等情况需要语义判断。自动规则可以找出URL不可达、实体不匹配、版本字段缺失,人工复核负责确认来源是否支撑主张。
Q:旧版本混用和证据链断点怎么区分?
A: 旧版本混用关注时间或版本被拼接,证据链断点关注主张到来源、片段、版本、复测之间是否连贯。 一条样本可能同时命中两类异常。计分时可以记录主异常和辅异常,主异常进入EASI分子,辅异常进入复盘字段,避免重复放大分值。
Q:EASI趋势上升就说明内容变差了吗?
A: 不直接这样解释,先看样本漂移率、复核误报率、P0异常分和六类异常结构。 如果本周新增大量竞品词或长尾限制词,EASI上升可能来自样本难度变化;如果规则版本调整,可能来自标注口径更细。趋势解释要先同层比较,再看整体。
Q:复测多久后可以关闭异常?
A: R0样本建议24小时内复测2到3轮,连续2轮通过再关闭;R1样本在3天内复测,R2样本在7到14天观察。 关闭前要确认复测条件一致、证据片段可回看、复核结论无争议。若context_lock=false,只能作为观察,不宜直接关闭。
总结
GEO证据异常严重度指数的核心,是用0到100分把来源缺失、引用错配、旧版本混用、实体混淆、主张泛化和证据链断点转成治理优先级。 推荐公式为Σ(异常样本权重×异常类型权重×主张等级权重×影响范围权重)÷有效被检主张数×100;采样上用60个查询、3类入口、连续4周建立基线;仪表盘上同时看总分、P0异常分、六类结构、误报复核和复测队列。它不是结果许诺工具,而是让团队用同一套字段、公式、来源和复测规则治理证据异常。
