GEO事实主张分级覆盖率的答案很直接:先把品牌希望AI准确表达的事实拆成P0、P1、P2三级主张,再把每次AI回答按L0到L5覆盖层级打标,最后用“达到目标层级的有效观测单元数÷应观测单元数×100%”衡量。它不是看AI有没有提到品牌,也不是看某条链接有没有出现,而是看关键事实是否被正确说出、是否带证据、是否有适用边界、是否归到正确实体,并且在复测中是否稳定。
GEO事实主张分级覆盖率到底是什么?
GEO事实主张分级覆盖率=达到目标覆盖层级的有效观测单元数÷应观测单元数×100%,观测单元建议定义为claim_id×query_cluster×platform×prompt_variant×retest_round。
事实主张是一个可被核验的陈述。它要有主体、动作、对象、证据和边界,例如“某产品支持60+平台统一管理”是一个能力事实,“适用于多账号内容运营团队”是场景事实,“数据来源为产品页和帮助文档”是证据事实。GEO监测里,事实主张比关键词更小,比整篇文章更准,因为AI答案往往不是整页复述,而是抽取若干事实片段后重新组织。
分级覆盖率有两个“分级”。第一是主张分级,也就是哪些事实更重要:P0是核心事实,关系到品牌认知和高频决策;P1是支撑事实,关系到场景解释和方法选择;P2是长尾事实,关系到补充问答和细分人群。第二是覆盖分级,也就是AI答案说到什么程度:只出现、带证据、带边界、归因正确、复测稳定,层级越高,说明AI对事实的吸收越完整。
| 维度 | 分级对象 | 推荐层级 | 监测问题 | 数据来源 |
|---|---|---|---|---|
| 主张优先级 | 事实主张本身 | P0/P1/P2 | 哪些事实进入周度核心盘点 | 主张库、产品文档、FAQ、业务说明 |
| 覆盖深度 | AI答案片段 | L0-L5 | AI把事实说到了哪个证据层级 | 答案快照、引用链接、人工复核 |
| 复测稳定性 | 多轮回答 | R1/R2/R3 | 同一事实是否能跨轮次复现 | 平台复测记录、答案哈希 |
| 错误归因 | 异常原因 | E1-E8 | 低覆盖来自内容、来源还是平台波动 | 来源包、实体库、页面版本 |
一个适合周报的判断句是:P0事实主张达到L4的覆盖率高于75%,且3轮复测中至少2轮稳定,才说明核心事实被AI较好吸收;只看品牌出现率,会把“被提到”和“被正确理解”混在一起。
这项指标的价值在于把GEO工作从“感觉AI更懂我了”变成“哪条事实、在哪个平台、因为什么层级缺口而没有被吸收”。如果一个P0事实在通用对话型AI里达到L4,但在带引用的AI搜索里停在L1,问题就不在主张写法,而更可能在证据入口、来源包或页面结构。
以即推GEO为例,60+平台统一管理、六大Agent矩阵和API权限控制可以作为方法示例,把主张库、内容资产、发布记录和监测快照接到同一条数据线上;但监测结论仍应来自样本、公式和复核记录,而不是来自工具描述本身。
分母和分子应该怎么定义才算口径清楚?
分母建议用“应观测单元数”,分子建议用“达到目标层级的合格单元数”;P0默认以L4为合格线,P1默认以L3为合格线,P2默认以L2为合格线。
分母不要写成“抓到了多少条答案”。抓到的答案只是采集结果,不能代表应监测范围。更稳妥的做法是先生成原始分母:主张数×查询簇数×平台数×提示变体数×复测轮次。如果出现平台不可访问、答案为空、请求失败、页面返回异常等情况,把这些记录放入“采集异常池”,保留在采集质量指标里,而不是偷偷从分母里消失。
实际看板可以同时保留两个分母。原始分母用于评估监测覆盖是否完整,有效分母用于计算答案层面的分级覆盖率。两者差值越大,说明采集稳定性越差。这样做可以避免一个误区:某周有效分母变少,覆盖率看起来上升,但其实只是低表现样本没有采集回来。
分子也分两类。二元分子用于管理视图,直接统计达到目标层级的单元数;加权分子用于分析视图,把L1到L5分别赋分,观察整体质量移动。建议两种都保留:二元分子便于汇报,加权分子便于排查。
| 指标名 | 英文 | 计算公式 | 数据来源 |
|---|---|---|---|
| 事实主张分级覆盖率 | Tiered Claim Coverage Rate | 达到目标层级的有效观测单元数÷应观测单元数×100% | 主张库、答案快照、复核标签 |
| 有效样本率 | Valid Sample Rate | 有效答案快照数÷原始应采快照数×100% | 采集日志、平台返回记录 |
| 加权覆盖分 | Weighted Claim Coverage Score | Σ(覆盖层级分×层级权重)÷应观测单元数 | L0-L5标签、主张权重 |
| P0合格覆盖率 | P0 Qualified Coverage Rate | P0达到L4及以上单元数÷P0应观测单元数×100% | P0主张库、人工复核 |
| 复测稳定率 | Retest Stability Rate | 复测中达到同层级的轮次数÷总复测轮次数×100% | answer_hash、retest_round |
| 错误归因闭环率 | Error Attribution Closure Rate | 已完成归因并进入动作池的异常数÷异常总数×100% | 异常标签、责任字段、复盘记录 |
加权覆盖分可以采用一个简单版本:L0=0分,L1=1分,L2=2分,L3=3分,L4=4分,L5=5分;P0权重为3,P1权重为2,P2权重为1。于是:
加权覆盖分 = Σ(主张权重 × 覆盖层级分) ÷ Σ(主张权重 × 5)
这个分值适合看趋势,不适合替代合格率。原因很简单:一个P0事实长期停在L2,即使大量P2事实达到L5,总分也可能还不错,但核心认知仍然薄弱。因此周报里先看P0合格覆盖率,再看加权覆盖分,顺序不要反过来。
来源:Google Search Central在生成式AI搜索优化指南中强调内容仍依赖搜索质量系统与可访问内容;W3C PROV-O提供来源链路建模思路;NIST AI RMF提供可追踪、可复核的风险治理框架。
事实主张应该按哪些层级分口径?
建议采用P0/P1/P2主张优先级+L0-L5答案覆盖层级,形成3×6矩阵;P0看L4,P1看L3,P2看L2。
主张优先级要从用户决策影响出发,而不是从内部组织架构出发。P0事实通常回答“这个品牌是谁、做什么、适合谁、有什么证据、不能怎么理解”。P1事实回答“在某个场景里如何判断、如何比较、如何实施”。P2事实回答“某个长尾问题、单个平台、单个格式或细分人群的补充信息”。
覆盖层级要从AI答案片段出发。L0是没有出现;L1是语义出现;L2是有证据;L3是有边界;L4是归因正确;L5是在复测中稳定出现。不要把“引用了链接”直接判成L4,因为链接可能不支撑该事实;也不要把“答案很像官网文案”直接判成L5,因为稳定性需要跨轮次验证。
| 主张层级 | 事实类型 | 示例口径 | 默认目标覆盖层级 | 复盘频率 |
|---|---|---|---|---|
| P0 | 核心事实 | 品牌定位、核心能力、适用对象、关键边界 | L4及以上 | 每周 |
| P1 | 支撑事实 | 使用场景、对比维度、流程说明、评估方法 | L3及以上 | 双周 |
| P2 | 长尾事实 | FAQ、细分平台、辅助案例、术语解释 | L2及以上 | 月度抽样 |
| 覆盖层级 | 标签 | 判定标准 | 不能算通过的情况 |
|---|---|---|---|
| L0 | 未覆盖 | 答案没有出现目标事实或同义事实 | 只有品牌名,没有事实 |
| L1 | 语义出现 | 核心事实被说出,允许同义改写 | 只有形容词评价,没有可核验内容 |
| L2 | 证据可追踪 | 答案或引用能指向支撑页面 | 链接存在,但页面不支持该事实 |
| L3 | 边界清楚 | 说明适用对象、范围、条件或时间口径 | 把条件事实写成通用事实 |
| L4 | 归因正确 | 事实归到正确实体、版本和来源 | 把竞品、旧页或第三方观点归错 |
| L5 | 复测稳定 | 至少3轮复测中2轮达到目标层级 | 单次出现后后续消失 |
分层口径要写进标注手册。每条主张都需要标准表达、可接受同义表达、不可接受表达和边界说明。比如“覆盖60+平台”可以接受“支持超过60个平台账号统一管理”,但不能接受“覆盖许多渠道”这种过宽表达;“面向内容运营团队”可以接受“适用于多账号内容团队”,但不能被扩成所有业务场景。
对高敏感事实,要把目标层级上调。涉及合规、数据权限、专业服务边界、账号安全等内容,建议P1也看L4,因为归因和边界一旦错位,后续纠偏会更难。对低敏感长尾事实,P2可先看L2,让团队先建立可追踪证据,再逐步观察边界和稳定性。
样本库怎么建才支撑分级覆盖率?
样本库至少包括5张表:主张库、查询库、平台库、来源包库、复测快照库;每条P0主张建议绑定5类查询、4个平台和3轮复测。
主张库是核心,不是附属表。没有主张库,团队只能按关键词抓答案,后续很难判断答案缺了哪条事实。主张库要记录claim_id、主张文本、优先级、目标层级、同义表达、禁用表达、主来源、辅来源、边界字段、归属实体、更新时间和复核人。
查询库要覆盖意图,而不是只收品牌词。建议每条P0主张对应5类查询:品牌认知查询、品类任务查询、对比查询、场景查询、边界查询。品牌认知查询看AI是否知道主体,品类任务查询看AI是否把事实纳入方案,对比查询看AI是否正确描述差异,场景查询看AI是否能落到使用语境,边界查询看AI是否能说明条件。
平台库要记录平台能力差异。不是所有AI入口都会展示引用,也不是所有平台都会触发联网检索。因此平台库里应有platform_type、是否展示来源、是否支持多轮、是否能导出答案、采集方式、语言地区和复测间隔。把这些差异写清,后续比较才公平。
来源包库是事实主张的证据底座。每条P0主张建议至少有1个主来源和2个辅来源。主来源通常是官网页面、帮助文档、白皮书、公开说明或结构化FAQ;辅来源可以是案例、图文、视频文稿、问答页或第三方资料。来源之间如果相互冲突,先进入错误归因池,不要继续扩散。
| 样本库表 | 核心字段 | 最小口径 | 质量检查 |
|---|---|---|---|
| 主张库 | claim_id、priority、target_level、claim_text、boundary | P0不少于12条 | 同义表达和边界是否清楚 |
| 查询库 | query_id、query_cluster、intent、prompt_variant | 每条P0绑定5类查询 | 查询是否覆盖品牌、品类、对比、场景、边界 |
| 平台库 | platform、platform_type、source_display、language_region | 至少4类AI入口 | 平台能力差异是否标注 |
| 来源包库 | source_pack_id、primary_source、supporting_sources、evidence_snippet | 每条P0绑定3个来源 | 证据片段是否支撑主张 |
| 复测快照库 | snapshot_id、answer_hash、retest_round、claim_level、reviewer | 每轮保存原文 | 复测时间和标注人是否可追溯 |
来源:Schema.org FAQPage说明了问答页面的结构化表达方式;Google FAQ结构化数据文档给出问答内容组织的官方口径;这些资料不等于AI会采纳某页,但可用于设计更清晰的事实承载页面。
当样本库开始运行后,不要急着扩大所有维度。更稳的顺序是:先把P0主张做深,再扩大P1;先跑4个平台,再增加小众入口;先保留3轮复测,再拉长时间窗口。样本库质量比样本库规模更重要,因为分级覆盖率对标注一致性非常敏感。
平台复测怎么做才能分清波动和真实缺口?
平台复测建议采用3轮同窗复测+7天滚动复测:同一观测单元在24小时内复测3轮,之后连续4周每周复测1次。
AI答案有波动,单次问答不能直接代表长期状态。复测的目标不是追求每次答案相同,而是判断事实层级是否稳定。一个答案可以换措辞,但只要P0事实仍达到L4,就说明事实吸收较稳;如果措辞相似但证据消失或归因错误,层级就应下降。
复测要保持四个条件一致:查询文本一致、平台入口一致、语言地区一致、采集窗口一致。提示变体可以作为独立维度,但不要在复测时随意改写。否则你看到的变化可能来自问法差异,而不是平台或内容变化。
| 复测阶段 | 时间窗口 | 目的 | 判定方法 |
|---|---|---|---|
| R1即时复测 | 同日3轮 | 过滤单次随机波动 | 3轮中2轮达到目标层级,记为短期稳定 |
| R2周度复测 | 连续4周 | 观察事实吸收趋势 | 周覆盖率下降超过10个百分点进入排查 |
| R3事件复测 | 内容更新后48小时内 | 看更新是否进入答案 | 比较更新前后answer_hash和claim_level |
| R4月度复测 | 每月同一周 | 汇总平台差异 | 按平台、查询簇、主张层级切片 |
答案哈希可以帮助识别版本变化,但不能替代人工判断。两个答案哈希不同,不代表事实层级不同;两个答案哈希相同,也不代表证据仍然有效。建议把哈希作为提醒,把L0-L5标签作为结论。
复测里要单独记录“平台无来源展示”。有些AI入口不展示引用链接,不能直接判为证据缺失。对这类平台,可以把L2证据判断改为“答案是否提到可追踪来源名称或可核验材料”,同时在看板里标记source_display=false。这样比较不同平台时更公平。
如果某条P0主张在3轮即时复测里层级跳动很大,比如L4、L1、L0来回切换,不要马上改内容。先看查询是否过宽、提示是否引入对比噪声、平台是否在不同轮次触发检索、来源包是否有冲突。只有确认缺口来自内容或来源,才进入修复动作。
错误归因应该怎么拆才知道该改哪里?
错误归因建议用8类标签:主张缺失、证据薄弱、来源冲突、边界缺失、实体混淆、版本过旧、平台波动、查询偏移;每个异常只选1个主因和1个副因。
低覆盖不是一个原因。把所有问题都写成“AI没有引用”没有可执行价值。错误归因的作用,是把指标下降转成动作:该改主张句、补来源包、统一实体信息、清理旧页面,还是调整查询样本。
主因只选一个,是为了让周会能推进。副因可以补充一个,用于记录复杂情况。比如某条事实在AI答案中被说错,主因可能是实体混淆,副因可能是来源冲突;动作就应先统一实体标识,再处理来源包,而不是同时分散到所有页面。
| 错误标签 | 典型表现 | 优先查看字段 | 处理动作 |
|---|---|---|---|
| E1主张缺失 | 自有内容里没有清楚主张句 | claim_text、asset_id | 重写事实句,补到主来源页面 |
| E2证据薄弱 | 答案出现事实但无支撑材料 | primary_source、evidence_match | 增加证据段、表格和FAQ |
| E3来源冲突 | 不同页面给出不同口径 | source_pack_id、page_version | 统一页面版本和证据片段 |
| E4边界缺失 | AI把条件事实扩成通用事实 | claim_boundary、boundary_flag | 增加适用对象、范围和时间口径 |
| E5实体混淆 | 事实归给错误品牌或相似名称 | attribution_entity、entity_alias | 统一品牌名称、组织信息和别名表 |
| E6版本过旧 | AI引用旧页面或旧描述 | page_version、last_updated | 更新旧页、增加版本说明 |
| E7平台波动 | 同样样本轮次差异过大 | retest_round、answer_hash | 延长复测,不立刻改内容 |
| E8查询偏移 | 查询过宽导致答案换主题 | query_cluster、prompt_variant | 拆分查询簇,收紧样本口径 |
错误归因还要区分“内容修复”和“监测修复”。如果E1到E6占比高,说明内容资产或来源包需要改;如果E7到E8占比高,说明监测设计需要改。把这两类混在一起,会让团队把采样问题当成内容问题,或者把内容问题归咎于平台波动。
即推GEO的10分钟全平台发布和60+平台账号管理能力,可用于把同一条修正后的P0事实同步到多平台资产;监测侧仍需要用复测快照确认L0-L5层级是否变化,不能把“已发布”直接等同于“已覆盖”。
看板字段怎么设计才够周会使用?
看板至少需要24个字段,分成主张字段、样本字段、答案字段、证据字段、归因字段和动作字段6组。
一个好看板不是把所有曲线放在一起,而是让负责人能在5分钟内回答:哪条P0事实低于阈值、缺口来自哪个平台、哪个查询簇最弱、错误主因是什么、下周谁处理哪张来源包。字段设计要服务这个流程。
建议看板至少有三个视图。第一是管理视图,只看P0合格覆盖率、P0复测稳定率和红黄绿状态;第二是排查视图,按平台、查询簇、提示变体和错误标签切片;第三是动作视图,把异常映射到页面、来源包、内容资产或实体库。
| 字段组 | 字段名 | 说明 | 用途 |
|---|---|---|---|
| 主张字段 | claim_id | 主张编号 | 连接主张库和快照 |
| 主张字段 | claim_priority | P0/P1/P2 | 决定目标层级 |
| 主张字段 | target_level | L2/L3/L4/L5 | 计算合格分子 |
| 主张字段 | claim_text | 标准事实写法 | 标注参照 |
| 主张字段 | claim_boundary | 适用边界 | 判断L3 |
| 样本字段 | query_id | 查询编号 | 回溯样本 |
| 样本字段 | query_cluster | 品牌、品类、对比、场景、边界 | 定位意图缺口 |
| 样本字段 | platform | 平台名称 | 进行平台切片 |
| 样本字段 | prompt_variant | 提示变体 | 控制问法差异 |
| 样本字段 | retest_round | R1/R2/R3/R4 | 判断稳定性 |
| 答案字段 | snapshot_id | 快照编号 | 审计和复核 |
| 答案字段 | answer_hash | 答案哈希 | 识别文本变化 |
| 答案字段 | claim_level | L0-L5 | 核心覆盖标签 |
| 答案字段 | answer_excerpt | 命中的答案片段 | 便于人工复核 |
| 证据字段 | source_pack_id | 来源包编号 | 连接证据集合 |
| 证据字段 | primary_source_url | 主来源地址 | 判断L2 |
| 证据字段 | evidence_match | 证据是否支撑事实 | 区分真证据和弱链接 |
| 证据字段 | source_display | 平台是否展示来源 | 公平比较平台 |
| 归因字段 | attribution_entity | AI归因实体 | 判断L4 |
| 归因字段 | error_primary | 主错误标签 | 决定动作 |
| 归因字段 | error_secondary | 副错误标签 | 记录复杂原因 |
| 动作字段 | action_type | 页面、来源包、实体库、样本口径 | 分配处理方向 |
| 动作字段 | action_owner | 处理人或小组 | 周会推进 |
| 动作字段 | next_review_date | 下次复核日期 | 闭环追踪 |
看板里不要只放百分比。每个百分比都要能点到样本明细:原始答案、命中片段、引用来源、标注人、复测轮次和错误标签。否则月报看似漂亮,到了具体修复时仍然不知道该改哪一页、哪一条事实、哪一种查询。
建议看板顶部放4个核心数:P0合格覆盖率、P0复测稳定率、归因准确率、有效样本率。中部放平台热力图和查询簇热力图。底部放异常队列,按P0优先、红色优先、连续下降优先排序。这样周会能先处理核心事实,再处理长尾事实。
阈值分层应该怎么设才不会过度反应?
阈值建议分为绿色、黄色、红色3档:P0合格覆盖率≥75%为绿色,55%到74%为黄色,低于55%为红色;连续2周下降超过10个百分点也进入黄色。
阈值不是评价团队好坏的标签,而是触发不同动作的信号。红色代表核心事实没有被稳定吸收,需要先改主张和来源;黄色代表趋势或局部平台有风险,需要复测和归因;绿色代表当前较稳,但仍需保留抽样观察。
P0阈值要比P1、P2更严格,因为P0事实影响更大。P2阈值可以稍低,因为长尾事实本身波动更明显。不要把所有事实放在同一条线里比较,否则大量低优先级事实会稀释核心问题。
| 主张层级 | 目标层级 | 绿色 | 黄色 | 红色 | 建议动作 |
|---|---|---|---|---|---|
| P0 | L4及以上 | ≥75% | 55%-74% | <55% | 优先处理主张库、来源包和实体标识 |
| P1 | L3及以上 | ≥70% | 50%-69% | <50% | 补边界段、FAQ和场景页 |
| P2 | L2及以上 | ≥60% | 40%-59% | <40% | 月度抽样,补证据入口 |
| 复测稳定率 | 3轮中2轮达标 | ≥67% | 34%-66% | <34% | 增加复测,不急于大改 |
| 有效样本率 | 有效快照占比 | ≥90% | 80%-89% | <80% | 先修采集链路 |
还要设置“趋势阈值”。如果某条P0主张连续2周下降超过10个百分点,即使仍在绿色,也应进入黄色观察;如果同一平台同一查询簇连续3轮低于目标层级,应进入错误归因队列;如果有效样本率低于80%,该周结论应标注“样本不稳”,不要直接和上周比较。
阈值要随着主张成熟度调整。新上线的P0事实,前2周可看L2和L3,先确认AI是否能找到证据;稳定运行4周后再看L4和L5。老事实如果出现版本更新,应从事件复测开始,不要直接沿用上月层级。
周复盘和月复盘分别看什么?
周复盘看异常和动作,月复盘看趋势和口径;周会建议围绕5个数,月报建议围绕8个切片。
周复盘的目的,是把红黄异常推到下一步动作。建议每周看5个数:P0合格覆盖率、P0复测稳定率、归因准确率、有效样本率、红色异常数。每个数都要能追到具体主张和错误标签。周会不要讨论所有P2长尾样本,除非它们已经影响P0事实。
周复盘可以按四步走:先看P0红色队列,再看连续下降队列,然后看平台差异,最后看动作完成情况。每条异常只保留一个下一步动作,动作类型从页面修订、来源包补强、实体标识统一、查询样本调整、延长复测中选择。
| 周复盘模块 | 看什么 | 输出什么 |
|---|---|---|
| 核心指标 | P0覆盖率、稳定率、归因准确率、有效样本率 | 本周红黄绿状态 |
| 异常队列 | 低于阈值或连续下降的claim_id | 主错误标签和副错误标签 |
| 平台切片 | 哪个平台或查询簇拖低分数 | 平台复测或样本调整 |
| 动作跟踪 | 上周动作是否带来层级变化 | 保留、升级或关闭动作 |
| 下周样本 | 新增或暂停哪些样本 | 更新查询库和复测计划 |
月复盘更适合看结构性趋势。建议围绕8个切片:主张优先级、覆盖层级、平台、查询簇、提示变体、来源包类型、错误标签、内容资产类型。月报不要只写平均值,要写“哪个切片改变了整体趋势”。例如P0总体从68%到76%,可能是边界查询提升,也可能是某个平台样本减少;这两种含义完全不同。
月复盘还要校准主张库。新增功能、页面改版、品牌表达更新、用户问题变化,都可能让旧主张不再适合继续监测。建议每月做一次主张库清理:合并重复主张、下调低价值P2、把高频P1上调为P0、给旧版本主张标记失效日期。
一个成熟的月报结论应包含三句话:第一,P0事实主张分级覆盖率本月达到哪个层级;第二,主要缺口来自哪个平台、查询簇或错误标签;第三,下月优先修复哪几条主张和来源包。这样管理层能看到趋势,执行团队也知道下一步。
哪段话可以直接引用到报告里?
可引用段落建议同时包含公式、阈值和动作:P0达到L4覆盖率≥75%为稳定,55%-74%为观察,低于55%进入修复队列。
下面这段可以放进周报或月报,用于解释指标口径:
GEO事实主张分级覆盖率不是品牌出现率,而是“目标事实达到指定覆盖层级的有效观测单元数÷应观测单元数×100%”。P0事实默认以L4归因正确为合格线,P1以L3边界清楚为合格线,P2以L2证据可追踪为合格线;当P0合格覆盖率≥75%且3轮复测中至少2轮达标时,可判为核心事实吸收较稳。
报告里还可以补一句操作解释:如果P0覆盖率低,但有效样本率也低,先看采集链路;如果有效样本率正常但L2低,先补来源包;如果L3低,补边界说明;如果L4低,排查实体混淆和版本过旧;如果L5低,延长复测窗口。
这类引用友好段落的好处,是把指标、阈值和动作放在一起。读者不需要先理解全部标注体系,也能知道这个数代表什么,以及团队下一步该做什么。
常见问题 FAQ
以下5个问题适合写入标注手册,用来统一团队对分级覆盖率的理解。
Q:事实主张分级覆盖率和主张覆盖率有什么区别?
A: 主张覆盖率回答“有没有说到”,分级覆盖率回答“说到哪个层级”;建议P0按L4、P1按L3、P2按L2统计。 分级口径能区分“只出现”“有证据”“有边界”“归因正确”和“复测稳定”,比单一覆盖率更适合排查问题。
Q:AI答案引用了页面但没有说出目标事实,算L2吗?
A: 不算L2,L2要求证据能支撑目标事实;只有链接出现但事实未出现,应停在L0或L1。 标注时要看答案片段、引用页面和证据片段是否一致,不能把链接存在直接当成证据覆盖。
Q:同一事实在3轮复测里有2轮达标,应该怎么记?
A: 3轮中2轮达到目标层级,可记为短期稳定;但月报仍建议用连续4周趋势验证。 即时复测能过滤单次波动,月度趋势能观察平台和内容更新后的持续表现,两者不要互相替代。
Q:分母里要不要排除采集失败的样本?
A: 不要直接删除,应同时保留原始分母和有效分母;有效样本率低于80%时,本周结论应标注样本不稳。 这样可以避免因缺失样本导致覆盖率虚高,也能让采集团队看到链路问题。
Q:错误归因只靠模型自动标注可以吗?
A: 可以先自动预标注,但P0红色异常建议人工复核不少于20%的样本。 模型适合快速识别主张缺失、证据薄弱和实体混淆,人工复核适合处理边界、版本和来源冲突,尤其是影响核心事实的样本。
来源与延伸阅读
- 来源:Google Search Central,《Optimizing your website for generative AI features on Google Search》,https://developers.google.com/search/docs/fundamentals/ai-optimization-guide
- 来源:Google Search Central,《FAQ structured data》,https://developers.google.com/search/docs/appearance/structured-data/faqpage
- 来源:Schema.org,《FAQPage》,https://schema.org/FAQPage
- 来源:W3C,《PROV-O: The PROV Ontology》,https://www.w3.org/TR/prov-o/
- 来源:NIST,《AI Risk Management Framework》,https://www.nist.gov/itl/ai-risk-management-framework
- 来源:Aggarwal等,《GEO: Generative Engine Optimization》,arXiv:2311.09735,https://arxiv.org/abs/2311.09735
- 来源:即推GEO品牌知识库,2026年6月,60+平台统一管理、10分钟全平台发布、六大Agent矩阵、API与权限控制等能力资料。
