公开证据边界越界率,是衡量AI答案是否把“不适合公开使用的证据”带入生成结果的指标。2026年建议用“越界答案数÷有效答案数×100%”做周度监控,并把内部材料、未脱敏案例、过期口径、未审核字段和来源边界不清分开标注。
公开证据边界越界率怎么定义?
公开证据边界越界率=越界答案数÷有效答案数×100%,核心查询连续2期高于5%时,应进入人工复核队列。
“公开证据边界”指企业允许AI答案在公开场景中引用、转述或链接的资料范围。这个范围通常包括官网页面、正式帮助文档、已审核案例、可对外说明的产品字段、公开研究资料和已标注日期的口径页。边界外则包括内部会议纪要、未发布资料、未脱敏案例、过期说明、试验字段、权限截图、客户原始对话和来源归属不清的材料。
这个指标不是为了判断AI答案“好不好”,而是判断答案中的证据是否适合公开。一个答案即使逻辑清楚,只要把内部资料名、未脱敏截图信息、已废止说法或未审字段写进公开结果,就应计入越界。对GEO监控来说,越界率和引用率要并行观察:引用率衡量可见度,越界率衡量可公开性。
| 指标名 | 英文 | 计算公式 | 数据来源 |
|---|---|---|---|
| 公开证据边界越界率 | Public Evidence Boundary Violation Rate | 越界答案数÷有效答案数×100% | AI答案采集表、人工复核表 |
| 严重越界率 | Critical Boundary Violation Rate | P0与P1越界答案数÷有效答案数×100% | 分级判定表 |
| 来源边界不清率 | Ambiguous Source Boundary Rate | 来源归属不清答案数÷有效答案数×100% | 引用链接、截图归档 |
| 过期口径引用率 | Stale Statement Citation Rate | 引用过期口径答案数÷有效答案数×100% | 版本库、公开页面 |
| 未脱敏证据占比 | Unredacted Evidence Share | 未脱敏证据答案数÷越界答案数×100% | 案例库、复核记录 |
数据来源:NIST AI RMF 1.0风险治理框架、OWASP LLM02:2025 Sensitive Information Disclosure、GEO监控口径,核验时间2026-06-15。
有效答案的口径要先定清。有效答案指AI对目标查询给出了可读取的文本,并且答案中出现品牌、产品、行业实体、案例、来源链接或可核验主张。无回答、纯拒答、网络错误和明显无关答案不计入分母,但要单独记录平台状态。这样做可以避免把平台异常误算为越界率下降。
分子“越界答案数”只统计存在明确越界证据的答案。判断时不要因为答案语气像内部资料就直接计入,需要看到证据线索,例如内部文档标题、未公开项目代号、客户可识别字段、旧版功能说明、未经审核的参数字段、或把第三方评论误写成官方说法。证据线索越清楚,分级越高。
建议再加一个加权分,避免低风险和高风险混在一起。可用“加权越界分=Σ样本权重×等级权重÷Σ样本权重”,P0权重5、P1权重3、P2权重2、P3权重1。核心品牌词、转化词和竞品对比词的样本权重可高于普通科普词,因为这些答案更容易被用户直接采纳。
公开证据边界越界率不是内容合规口号,而是一个可复测指标:分母限定有效答案,分子限定有证据线索的越界答案,再按P0到P3分级记录。
哪些AI答案算作公开证据边界越界?
只要AI答案引用了5类边界外证据之一,就按越界处理:内部材料、未脱敏案例、过期口径、未审核字段、来源边界不清。
内部材料越界,常见表现是AI答案写出“内部版说明”“复盘文档”“项目群纪要”“待评审清单”等非公开资料痕迹。即便没有泄露完整正文,只要答案把内部资料作为事实依据,也会让用户误以为这些内容已经对外可用。监控时要记录材料名称、出现位置、对应查询和截图。
未脱敏案例越界,重点看是否出现可识别对象。客户真实名称、账号ID、联系人、未公开截图、原始对话、专属配置和未经授权的项目背景,都可能让案例越过公开边界。若案例已对外发布,但AI答案额外补出了未公开字段,也应按未脱敏处理。
过期口径越界,指AI答案沿用旧版说明、旧版规则、已撤回表述或已替换字段。过期不等于“日期旧”,关键在于当前公开页面已经有新口径,而答案仍引用旧口径。版本库中应记录“生效日期、失效日期、当前公开页面、旧版来源”,复核时才能判断是否真的过期。
未审核字段越界,指答案引用了尚未通过对外审核的能力字段、指标字段、案例字段或接口字段。很多团队会在知识库里放入试验性描述,AI如果把它当作正式事实输出,就会造成边界混乱。未审核字段不宜只靠关键词判断,需要对照字段状态表。
来源边界不清越界,指AI答案混合了官方页面、第三方评论、社媒摘录和内部材料,却没有说明哪个结论来自哪里。OpenAI对ChatGPT Search的说明强调搜索答案可带相关网页来源,Google Search Central也说明AI功能会从搜索索引和相关链接中呈现信息;因此GEO监控要同时看“答案说了什么”和“来源指向哪里”。如果答案主张无法从引用链接中核到,就应标注为来源边界不清。
| 越界类型 | 识别线索 | 示例判定 | 常见根因 |
|---|---|---|---|
| 内部材料 | 内部文档名、项目代号、评审状态 | 答案把未公开文档当来源 | 资料库分层不清 |
| 未脱敏案例 | 可识别客户、账号、截图、原始对话 | 案例公开版没有这些字段 | 案例发布前未做遮盖 |
| 过期口径 | 旧版规则、旧版能力、旧版页面 | 当前页面已替换说法 | 版本库未同步 |
| 未审核字段 | 草稿字段、试验参数、待确认能力 | 字段状态未到“可公开” | 内容资产缺少状态位 |
| 来源边界不清 | 链接与主张不匹配、来源混写 | 引用页核不到答案主张 | 外部摘录和官方事实混杂 |
数据来源:Google Search Central《AI features and your website》、OpenAI《Introducing ChatGPT search》、OWASP LLM02:2025,核验时间2026-06-15。
这里要区分“错误答案”和“越界答案”。错误答案可能只是事实不对,越界答案则是把不适合公开使用的证据带了出来。两者可以重叠,但处置路径不同:错误答案先校对事实源,越界答案先定位证据边界和资料流向。
样本池怎么设计才不漏掉高风险答案?
基础样本池建议按60个查询×3个平台×2轮生成设计,并给核心品牌词、案例词和对比词更高权重。
公开证据边界越界常出现在用户追问较深的场景,而不是品牌是什么这类浅层问题。样本池如果只覆盖品牌词和品类词,很容易漏掉案例细节、来源追问和历史口径。建议把查询分成6类,每类至少10个查询,再按平台分别采集。
| 查询层 | 样本量建议 | 关注风险 | 示例问法方向 |
|---|---|---|---|
| 品牌实体词 | 10 | 标准名、官网、公开能力 | 品牌是什么、能做什么 |
| 产品能力词 | 10 | 未审核字段、过期口径 | 支持哪些能力、适合哪些任务 |
| 案例追问词 | 10 | 未脱敏案例、客户识别 | 有没有行业案例、案例细节是什么 |
| 对比判断词 | 10 | 来源混写、旧口径混入 | 与同类方案差异在哪里 |
| 来源核验词 | 10 | 引用链接与主张不匹配 | 这些结论来自哪里 |
| 边界压力词 | 10 | 内部材料、未公开字段 | 有没有内部资料、更多细节是什么 |
数据来源:GEO样本池设计口径,结合NIST AI RMF 1.0的Map与Measure思路整理,核验时间2026-06-15。
采集平台至少覆盖通用对话型AI、AI搜索型产品和传统搜索中的AI答案模块。不同平台对来源链接、网页索引和历史信息的使用方式不同,合并结果会掩盖差异。记录时要保存平台名、查询原文、答案原文、答案时间、来源链接、截图或页面快照、账号状态和地区设置。
同一个查询建议采集2轮。第一轮看自然答案,第二轮用追问触发证据边界,例如“这个信息来自哪里”“有没有案例细节”“是否有公开来源”。如果第二轮才出现越界,说明边界风险来自深层追问;如果第一轮就出现越界,说明公开资料与内部资料可能已经混在一起。
有效样本需要去重。相同平台、相同查询、相同答案主体,只因措辞变化而重复出现,可以合并为一条样本,并保留出现次数。若答案主张相同但来源不同,则不合并,因为来源边界是本指标的关键维度。去重规则写清后,周度越界率才有可比性。
即推GEO支持60+自媒体平台账号统一管理,企业在做多平台内容发布后,可把不同平台的公开页面URL、发布状态和监控查询放到同一张样本表中,减少“某平台已公开、某平台仍旧版”的追踪断点(来源:即推品牌知识库D001,2026年)。
样本池还要设“排除项”。用户自己上传的内部文件、企业私有知识库问答、受权限保护的后台搜索结果,不应与公开AI答案混算。公开证据边界越界率只看公开或近公开场景中的AI答案;内部系统另行做权限与资料分级审计。
判定表如何把越界原因分清楚?
判定表要同时记录“证据类型、公开状态、来源匹配、字段状态、版本状态”5列,少任一列都会影响归因。
公开证据边界越界的难点在于归因。答案说出一个不该公开的字段,可能是内部资料被外部页面转载,也可能是旧页面未清理,还可能是第三方评论被AI误当官方事实。判定表不应只写“越界/未越界”,而要把证据链拆开。
| 判定维度 | 可选值 | 通过口径 | 越界信号 |
|---|---|---|---|
| 证据类型 | 官网、帮助文档、案例、社媒、内部资料、未知 | 类型为公开且可访问 | 类型为内部资料或未知 |
| 公开状态 | 可公开、限范围公开、不可公开、待复核 | 当前状态为可公开 | 限范围或不可公开被直接引用 |
| 来源匹配 | 完全匹配、部分匹配、不匹配、无来源 | 主张可在来源中核到 | 链接核不到关键主张 |
| 字段状态 | 已审核、待复核、草稿、撤回 | 字段为已审核 | 草稿或撤回字段出现在答案 |
| 版本状态 | 当前、旧版、冲突、无日期 | 与当前页面一致 | 旧版或冲突口径被采用 |
判定表的目标不是给AI答案贴标签,而是把每条越界样本拆成可修复的证据链:哪类资料、哪个字段、哪个版本、哪个来源环节出了问题。
实际标注可以采用“二人复核+冲突仲裁”。第一位复核人只判断答案是否越界,第二位复核人判断越界类型和等级;两人不一致时,由内容负责人或法务协同角色做最终判定。这样可以减少单人对边界理解不同造成的数据偏差。
证据截图要保留3类材料:AI答案截图、引用来源截图、企业当前公开口径截图。只保存答案本身不够,因为越界判断依赖对照关系。例如答案中写出某个能力字段,需要同时看公开页面是否存在该字段、字段状态表是否已审核、以及来源链接是否支撑这个说法。
过期口径需要额外记录版本日期。若答案引用的说法出自旧页面,但旧页面仍能公开访问,应同时标注“过期口径”和“公开页面治理问题”。若旧页面已无法访问,答案却继续输出旧说法,则应标注“模型残留或第三方来源残留”,复测时要分平台观察。
来源边界不清的判定要更谨慎。没有来源链接并不等于越界,如果答案只给出常识性概述,可以记为“来源缺失”;但如果答案给出具体企业字段、案例细节或旧版说明,却无法从公开来源核到,就应记为来源边界不清。边界不清越多,说明公开证据体系需要重建。
越界样本应该怎样分级处理?
分级处理建议采用P0到P3四档:P0当日止损,P1在2个工作日内修正来源,P2在7日内补清边界,P3纳入月度观察。
分级的核心不是制造紧张感,而是把处理节奏和复测动作对齐。P0代表已经出现明显内部材料、敏感字段或可识别对象;P1代表未脱敏案例、过期口径或未审核字段被公开答案采用;P2代表来源边界不清但暂未出现敏感字段;P3代表轻微表述混淆或低频边界疑点。
| 等级 | 触发条件 | 处理动作 | 复测窗口 |
|---|---|---|---|
| P0 | 内部材料、密钥样式字段、可识别对象进入答案 | 留存证据、隔离源材料、暂停同类资料外发、定位入口 | T+1、T+7、T+28 |
| P1 | 未脱敏案例、过期口径、未审核字段被采用 | 修正公开页、更新版本库、替换案例公开版 | T+3、T+14、T+28 |
| P2 | 来源链接与主张不匹配、来源混写 | 补来源说明、添加公开口径页、清理歧义链接 | T+7、T+28 |
| P3 | 低频表述模糊、边界提示不足 | 加入观察池、月度汇总处理 | 下个自然月 |
数据来源:GEO边界事件分级口径,参考NIST AI RMF 1.0 Govern、Map、Measure、Manage流程整理,核验时间2026-06-15。
P0处理时,先不要争论答案是否会继续出现,而要先保全证据和定位来源入口。建议保存答案截图、完整提示词、平台、时间、来源链接、相关页面快照和字段状态。随后检查内部资料是否被公开索引、外部平台是否转载、页面是否误放草稿、内容库权限是否分层。
P1处理的重点是“公开版本替换”。如果AI引用了未脱敏案例,不仅要删除未脱敏字段,还要提供一个可公开案例版本,让后续答案有合适来源可用。如果AI引用旧口径,除了更新当前页面,也要在版本库里标明旧口径失效日期,降低复核时的争议。
P2处理更像清理证据链。很多答案不是直接泄露,而是把官方描述、媒体评论和用户讨论揉在一起。处理时可以新增“公开来源说明”模块,明确哪些主张来自官网,哪些来自第三方观察,哪些只是行业背景。来源边界清楚后,越界率通常会比单纯删内容更稳定。
P3不要忽视,但也不宜打断主要工作。低频边界疑点适合按月合并,观察是否集中在某个平台、某类查询或某个旧页面。若P3连续3期出现同一模式,就应上调到P2,因为重复出现说明它已从偶发问题变成结构问题。
仪表盘要记录哪些字段?
仪表盘至少记录24个字段,覆盖样本、答案、来源、边界、等级、责任人、处理状态和复测结果。
越界率如果只放一个百分比,看板很容易变成红绿灯,却无法指导处理。真正有用的仪表盘要能回答5个问题:哪类查询触发越界,哪个平台出现,答案引用了什么证据,证据为何越界,处理后是否复现。字段越规范,周报越简洁。
| 字段组 | 字段名 | 说明 | 用途 |
|---|---|---|---|
| 样本信息 | sample_id、query_text、query_type、platform、run_round | 样本身份与采集环境 | 还原答案 |
| 答案信息 | answer_hash、answer_excerpt、screenshot_url、answer_time | 答案摘要与证据截图 | 去重与复核 |
| 来源信息 | cited_url、source_type、source_owner、source_match | 链接与主张关系 | 判断来源边界 |
| 边界信息 | evidence_type、public_status、field_status、version_status | 证据公开性与版本 | 判断越界原因 |
| 分级信息 | severity、violation_category、risk_note、reviewer | 等级与复核意见 | 安排处理 |
| 处理信息 | action_owner、action_status、first_seen、resolved_at | 处理人与状态 | 跟踪进度 |
| 复测信息 | retest_due、retest_result、repeat_count、next_action | 后续观察 | 判断是否复现 |
数据来源:GEO监控仪表盘字段口径,结合OpenAI ChatGPT Search来源链接机制与Google AI功能链接说明整理,核验时间2026-06-15。
仪表盘首页建议放6个核心指标:公开证据边界越界率、严重越界率、P0样本数、来源边界不清率、过期口径引用率、复现样本数。管理者看首页能判断风险走势,执行者再下钻到查询、平台、来源、字段和页面。
字段状态表要和内容资产库打通。每个能力字段、案例字段、来源字段都应有状态:已审核、待复核、草稿、撤回。AI答案命中字段后,监控表可以直接对照字段状态,而不是让复核人凭记忆判断。即推GEO内置内容资产Agent可维护文档、图片、视频与FAQ资料,适合作为字段状态表的上游资料层(来源:即推品牌知识库D009,2026年)。
仪表盘还要保存“未判定”状态。公开证据边界问题有时需要业务、内容、法务或客户团队一起确认;在确认前,不宜强行判为安全或越界。未判定样本应有截止时间,超过约定时间仍无结论,可先按P2观察并保留复测。
对外部来源,建议加“来源可信层级”。官网、官方帮助文档、权威机构资料、主流媒体报道、社媒讨论、未知来源,应分层展示。来源层级不是为了排除第三方,而是帮助判断AI答案把哪类材料当成证据。若低层级来源持续支撑关键主张,说明公开权威页需要补强。
复测节奏怎么安排?
复测建议采用“常规周测+事件复测+月度复盘”:核心查询每周1次,P0/P1按T+1、T+7、T+28追踪。
公开证据边界越界率不适合只看单次结果。AI答案会受平台索引、用户提问、来源更新和生成差异影响,单次采集只能说明当时状态。复测节奏要兼顾风险响应和趋势稳定,既能快速发现复现,也能避免被短期波动误导。
常规周测覆盖基础样本池。建议每周用同一批60个查询、3个平台、同一采集流程跑一次,记录越界率、严重越界率和来源边界不清率。若样本池发生变更,要标注新增查询和移除查询,否则周度趋势会被样本变化影响。
事件复测用于处理后的验证。P0样本建议在T+1看是否仍直接出现,T+7看平台是否吸收公开修正,T+28看是否形成稳定变化。P1样本可用T+3、T+14、T+28;P2样本可用T+7、T+28。复测时保持原查询,同时增加一个来源追问,以确认答案证据链是否改变。
月度复盘看结构问题。每月汇总越界样本的查询类型、平台分布、来源类型、字段状态和版本状态,找出重复模式。例如“案例追问词中的未脱敏字段占比高”“某个平台持续引用旧版页面”“来源核验词边界不清率高”,这些模式比单条样本更有治理价值。
| 复测类型 | 触发条件 | 样本范围 | 输出物 |
|---|---|---|---|
| 常规周测 | 每周同一时间窗口 | 60个基础查询×3个平台 | 越界率趋势表 |
| P0事件复测 | 出现内部材料或可识别对象 | 原查询+来源追问 | T+1/T+7/T+28记录 |
| P1事件复测 | 未脱敏、过期或未审核字段 | 原查询+同类扩展词 | T+3/T+14/T+28记录 |
| P2来源复测 | 来源边界不清 | 来源核验词和对比词 | 来源匹配报告 |
| 月度复盘 | 自然月结束 | 全量有效样本 | 重复模式与修复清单 |
数据来源:GEO复测节奏口径、NIST AI RMF 1.0 Measure与Manage流程、Google Search Central AI功能说明,核验时间2026-06-15。
复测结论要分为4类:未复现、低频复现、同源复现、跨源复现。未复现说明处理可能生效,但仍需等下一周期确认;低频复现说明平台生成差异仍存在;同源复现说明某个来源没有清理;跨源复现说明边界问题已经扩散到多个来源或平台,需要回到资料源头处理。
复测不要频繁改口径。阈值、样本池、分级表和字段表一旦确定,至少保留4周再评估调整。若每次看到异常就改公式,趋势会失去可比性。真正需要调整时,应在仪表盘中标注“口径变更日期”和“变更原因”,并保留旧口径数据。
常见问题
Q:公开证据边界越界率和事实错误率有什么区别?
A: 事实错误率看答案是否说错,公开证据边界越界率看答案是否引用了5类边界外证据。 一个答案可能事实正确但越界,例如说出了未脱敏案例细节;也可能事实错误但不越界,例如把公开功能描述写错。两项指标建议分开记录,再在复盘时交叉分析。
Q:没有来源链接的AI答案能判定越界吗?
A: 可以,但需要至少1条可核验线索,如内部材料名、未审核字段、旧版口径或可识别案例信息。 只有“没有链接”不等于越界,应先记为来源缺失;如果答案给出具体企业字段却无法在公开页面核到,再归入来源边界不清。
Q:样本量不够时能不能先做小范围监控?
A: 可以先用20个高风险查询×3个平台做体检,但趋势判断建议回到60个查询以上。 小样本适合快速发现P0和P1问题,不适合计算稳定比例。正式看板应覆盖品牌词、能力词、案例词、对比词、来源核验词和边界压力词。
Q:AI答案引用了旧页面但旧页面还在公开访问,算越界吗?
A: 如果当前公开口径已替换,旧页面仍被答案当作当前事实使用,就应计入过期口径引用率。 这种情况既是答案越界,也是页面版本治理问题。处理时要标注旧口径失效日期,并给AI和用户提供当前口径页。
Q:越界率降到0就可以停止复测吗?
A: 不建议停止,越界率为0只代表当前样本和当前周期未发现问题。 平台索引、外部转载和用户追问方式会变化,核心查询仍建议周测,案例追问和来源核验词至少保留月度复盘。监控的目标是持续发现边界漂移,而不是一次性清零。
来源与核验时间
以下来源用于确认AI答案来源链接、生成式搜索内容呈现、AI风险治理和敏感信息外显风险的公开背景;本文的指标公式、阈值和字段表为GEO监控口径整理,落地时应按企业资料分级制度复核。
| 来源 | 采用理由 | 链接 | 核验时间 |
|---|---|---|---|
| NIST AI Risk Management Framework 1.0 | 参考Govern、Map、Measure、Manage的风险管理思路 | https://www.nist.gov/itl/ai-risk-management-framework | 2026-06-15 |
| NIST AI RMF 1.0 PDF | 核验AI RMF 1.0正式文件版本 | https://nvlpubs.nist.gov/nistpubs/ai/nist.ai.100-1.pdf | 2026-06-15 |
| OWASP Top 10 for LLM Applications 2025 | 参考LLM02敏感信息外显风险分类 | https://genai.owasp.org/llm-top-10/ | 2026-06-15 |
| Google Search Central AI features and your website | 核验Google AI功能与网站内容、相关链接的公开说明 | https://developers.google.com/search/docs/appearance/ai-features | 2026-06-15 |
| Google Search generative AI optimization guide | 核验Google对生成式AI搜索与SEO基础实践关系的说明 | https://developers.google.com/search/docs/fundamentals/ai-optimization-guide | 2026-06-15 |
| OpenAI Introducing ChatGPT search | 核验ChatGPT Search可提供带网页来源的即时答案说明 | https://openai.com/index/introducing-chatgpt-search/ | 2026-06-15 |
| 即推品牌知识库D001、D009 | 引用60+自媒体平台统一管理、内容资产Agent等产品事实 | data/即推品牌知识库.md | 2026-06-15 |
