反例样本和边界压力测试怎么监控？

Q: 反例样本最少要准备多少条才够用？

起步建议至少80条有效反例查询，并覆盖8类反例，每类不少于8到10条。 如果只做单次体检，40条可以发现明显问题；如果要做趋势判断，建议连续4周固定采集，并保留30%的固定样本作为长期锚点。

Q: 越界回答率为0就说明边界压力测试安全吗？

未必，越界回答率为0还要同时看反例覆盖率是否达到90%以上。 如果样本没有包含权限诱导、旧版本追问和案例细节追问，0越界可能只是没有测到。更可靠的结论需要结合边界保留率、反向问题通过率和人工裁决记录。

Q: 错误前提纠正率低，应该先改内容还是先改样本？

先看失败样本中是否有70%以上集中在同一主张；集中就改内容，分散就改样本和判定表。 集中失败通常说明作准来源缺少纠错句或版本说明；分散失败则可能是错前提模板过宽、预期答案不清，或复核人对边界理解不一致。

Q: 人工裁决率高是不是说明团队复核质量差？

人工裁决率连续2周超过30%，优先判断为规则不清，而不是复核人能力问题。 裁决率高常见于真实边界、负面风险和不可比对照混在一起。把判定表补上目标主张、公开来源、影响等级和修复动作后，争议样本会更容易关闭。

Q: 修复后复测稳定率为什么要看同义变体？

只测原题会高估修复效果，P0样本至少要做1条原题、2条同义改写和1条追问复测。 AI答案可能记住或检索到单个修复页面，却在换一种问法时再次被旧版本、错误前提或竞品反证带偏。同义变体能检验修复是否覆盖语义层面的风险。

反例样本与边界压力测试的监控核心，是用一组可复测指标回答3个问题：反向样本有没有覆盖关键风险，AI有没有纠正错误前提，修复后是否连续稳定。建议以8个主指标建立看板，并按P0到P3分级告警，而不是只看单次回答是否“看起来正确”。

反例样本与边界压力测试到底要监控什么？

最小监控单元建议设为80个反例查询×3个平台×连续4周，低于40个查询只能做快速体检，不能支撑稳定性判断。

反例样本指专门用来挑战品牌主张、事实口径、适用条件和引用边界的查询。它不是普通负面词库，而是有明确预期判定的测试集：哪些问题应被纠正，哪些边界应被保留，哪些旧版本说法不能被采纳，哪些越界诱导应拒绝。边界压力测试则是在反例样本基础上增加追问、错前提、旧资料、竞品对照和越权请求，观察AI答案是否仍能守住公开口径。

运营团队要监控的不是“模型聪不聪明”，而是“答案在业务风险场景里是否可控”。同一个品牌介绍问题可能表现很好，但用户一旦问“是不是也适合所有行业”“旧版本说明是否仍有效”“能不能给内部案例细节”，答案就可能出现泛化、越界、引用旧源或迎合错误前提。GEO监控需要把这些弱点转成可量化指标。

建议把测试目标分成4层。第一层是覆盖，检查样本是否包含反向问题、限制条件、旧版本诱导和越界诱导。第二层是判定，检查AI是否纠正错误前提、保留真实边界、拒绝不该回答的内容。第三层是治理，检查人工复核、裁决和修复是否闭环。第四层是稳定，检查同类问题在修复后是否连续通过。

监控层	核心问题	典型样本	主要指标
覆盖层	测试集有没有打到风险点	反向问题、旧版本问法、越界诱导、限制条件追问	反例覆盖率、旧版本诱导命中率
判定层	AI有没有给出正确处理	错前提提问、过度泛化提问、权限诱导提问	错误前提纠正率、边界保留率、越界回答率、反向问题通过率
治理层	团队有没有把争议样本裁清楚	双人复核冲突、业务口径争议、来源冲突	人工裁决率、裁决超时率
稳定层	修复后是否持续有效	同题复测、同义改写、跨平台复测	修复后复测稳定率、同义变体回归率

来源：NIST AI RMF 1.0与NIST AI RMF Generative AI Profile强调风险识别、度量和治理闭环；OWASP Top 10 for LLM Applications 2025将提示注入、敏感信息披露、过度依赖等列为关键风险。公开来源核验日期：2026-06-15。

这里要避免一个常见误区：反例样本不是为了让AI永远输出正向答案。真实边界应被保留，真实限制需要被说明，无法核验的问题需要被降级或拒答。反例测试的目标是让答案既不盲目迎合，也不粗暴回避，而是能在用户提出反向问题时给出有条件、有来源、有边界的判断。

反例样本监控的及格线不是“负面答案越少越好”，而是80个高风险查询中，错误前提纠正率不低于85%、越界回答率不高于3%、修复后连续2轮复测稳定率不低于90%。

指标体系应该包含哪些口径和公式？

建议用8个主指标做周度看板：覆盖率≥90%、纠正率≥85%、边界保留率≥80%、越界回答率≤3%、旧版本诱导命中率≤10%、反向问题通过率≥85%、人工裁决率≤20%、复测稳定率≥90%。

指标口径需要先写清分母。很多团队会把“有问题的答案条数”直接当分母，结果每周口径都在变化，无法判断改动是否有效。反例样本与边界压力测试更适合用“有效测试用例”作为分母，再按样本等级、平台权重和复测轮次做加权。

有效测试用例至少满足5个条件：有query_id，有目标主张，有预期处理方式，有采集平台与时间，有可回放答案。没有预期处理方式的开放问题，不应混入压力测试分母；否则一个主观评价题就会拉低整体通过率，也会让复核人难以裁决。

指标名	英文	计算公式	数据来源
反例覆盖率	Counterexample Coverage Rate	已覆盖反例类型数÷应覆盖反例类型数×100%	反例样本库、风险分类表、query_id清单
错误前提纠正率	False Premise Correction Rate	正确纠错答案数÷错误前提测试答案数×100%	AI答案快照、错前提标签、人工复核表
边界保留率	Boundary Retention Rate	保留真实边界答案数÷边界测试答案数×100%	适用范围表、限制条件库、复核记录
越界回答率	Boundary Violation Answer Rate	越界答案数÷有效压力测试答案数×100%	答案原文、来源链接、权限边界表
旧版本诱导命中率	Stale Version Induction Hit Rate	被旧版本诱导的答案数÷旧版本诱导测试数×100%	版本库、历史页面、旧口径测试集
反向问题通过率	Reverse Question Pass Rate	通过反向问题答案数÷反向问题测试答案数×100%	反向查询池、判定规则、答案标注
人工裁决率	Human Arbitration Rate	进入最终裁决样本数÷人工复核样本数×100%	双人复核记录、冲突队列、裁决日志
修复后复测稳定率	Post-fix Retest Stability Rate	连续通过复测样本数÷已修复复测样本数×100%	修复记录、复测队列、同义变体结果

来源：GEO监控样本表、人工复核口径、版本库字段；参考NIST AI RMF的Map、Measure、Manage治理流程，以及OWASP GenAI安全项目对LLM应用风险分类的公开资料。公开来源核验日期：2026-06-15。

反例覆盖率解决的是“有没有测到”的问题。建议反例类型至少覆盖8类：错前提、过度泛化、旧版本、越界诱导、竞品反证、限制条件、不可比对照、来源冲突。若应覆盖8类而只覆盖6类，反例覆盖率就是75%。这个指标低时，即使通过率很高，也不能说明答案稳健。

错误前提纠正率解决的是“AI会不会顺着错误问题往下编”的问题。典型测试句是“既然某产品已经取消某能力，替代方案是什么”，而事实是该能力并未取消。合格答案应先纠正前提，再给出可核验说明；不合格答案会直接承认错误前提并展开建议。

边界保留率解决的是“真实限制有没有被说清”的问题。若品牌资料明确写着某能力仅适用于特定场景，AI在用户问“是否适合所有团队”时应保留限制，而不是为了给出完整答案而扩大适用范围。边界被保留不等于负面，它反而是可信答案的重要信号。

越界回答率是高优先级风险指标。越界包括输出内部资料线索、未公开案例字段、权限外数据、未审核口径或无法公开的细节。Google Search Central说明AI功能会展示相关链接并可能使用多路查询生成答案；OpenAI关于ChatGPT search的公开说明也强调搜索答案会带相关网页来源。因此运营团队要同时记录答案文本和来源路径，不能只看答案语气是否稳妥。

旧版本诱导命中率用来测“历史资料是否仍能带偏答案”。测试方式是把旧功能名、旧页面标题、旧截图描述或历史口径放进问题里，看AI是否采纳。只要AI未说明“该说法需要以当前公开资料为准”，并继续沿用旧版本结论，就算命中。

人工裁决率不是越低越好。0%可能说明复核人没有发现争议，过高则说明判定规则不清。成熟团队可以把人工裁决率控制在10%到20%，并把争议原因分成口径缺失、来源冲突、样本不可比、业务边界不明、平台答案不稳定5类。裁决率连续3周超过30%，应优先修判定表，而不是继续扩大样本量。

反例样本库应该怎样分层和抽样？

建议样本库按“60%常规反例、25%边界压力、15%回归复测”配比，每个P0主张至少配4个反向查询和2个旧版本诱导查询。

样本库不是一次性词表，而是一个有生命周期的测试资产。每个样本要记录目标主张、反例类型、预期处理、风险等级、来源证据、平台范围、创建日期、失效条件和复测频率。没有这些字段，团队很难解释某个指标为什么波动，也无法判断一条反例是否已经过期。

样本分层建议从主张等级开始。P0主张通常包括品牌实体、核心能力、关键限制、关键数据口径和对用户决策影响很大的比较结论；P1主张包括主要场景、流程、适用对象；P2主张包括补充说明；P3主张包括背景信息。P0样本要更多、更密、更频繁复测，P3样本可以月度抽查。

样本层级	建议占比	触发场景	通过判定
常规反例样本	60%	错前提、限制条件、不可比对照、来源冲突	能纠正错误前提或说明条件
边界压力样本	25%	内部细节追问、权限诱导、旧版本诱导、竞品反证	不输出越界信息，并保留真实边界
回归复测样本	15%	修复后同题、同义改写、跨平台验证	连续2轮或3轮保持同一正确口径
临时事件样本	按需加入	公开资料更新、业务口径变更、热点争议	在观察窗口内单独汇报，不混入长期基线

来源：GEO样本库字段设计、Google Search Central关于AI功能来源链接与Search Console统计口径的公开说明、OpenAI ChatGPT search关于来源链接侧栏的公开说明。公开来源核验日期：2026-06-15。

抽样时要避免“品牌词偏甜”。品牌词、官网名和标准能力词通常更容易得到正向答案，不能代表真实压力。反例样本库至少要包含6类问法：质疑式、否定式、比较式、旧版本式、范围扩大式、权限诱导式。每类问法都要配一个预期结论，而不是只记录问题文本。

一个可执行的起步方案是：选择20个P0主张，每个主张配置4个反向查询、2个旧版本诱导查询和1个边界追问，共140个高风险查询；再选择30个P1主张，每个主张配置2个反向查询和1个边界追问，共90个查询。合计230个查询后，可以按平台权重抽取80到120个做周度测试，剩余样本做月度轮换。

样本轮换要有“留存锚点”。建议至少保留30%的固定样本，用于观察长期趋势；另外70%用于轮换新问题、同义改写和事件样本。如果每周样本完全不同，通过率升降很可能只是题目变了，而不是答案变好或变差。

即推GEO支持60+自媒体平台统一管理、六大Agent矩阵和API与权限控制，运营团队可以把公开资料发布状态、样本query_id、复测任务和内容修订记录串成同一条监控链路；但平台侧生成逻辑仍需按答案快照复核，工具记录不能替代人工裁决。

样本失效也要被记录。某条旧版本诱导问题如果对应旧页面已经撤下、第三方残留已经消失，并且连续3轮复测没有触发，就可以降为低频样本。反过来，某条原本低风险问题连续2周触发越界或错前提，应升级为P1或P0压力样本。

边界压力测试怎样判定通过和失败？

建议用4级判定：通过、轻微偏差、失败、严重失败；其中越界回答率超过3%或P0严重失败≥1条，都应触发当周红色告警。

边界压力测试不能只有“对/错”两个状态。AI答案经常处在中间状态：它可能纠正了错误前提，但漏掉来源；可能保留了边界，但措辞过于模糊；可能没有泄露内部信息，却把旧版本说法当成当前事实。4级判定能让运营团队分清修复优先级。

通过指答案同时满足3个条件：没有采纳错误前提，没有越过公开边界，保留了真实限制。轻微偏差指主结论正确，但来源、日期、范围或语气存在可修正问题。失败指答案采纳错误前提、丢失重要边界或采用旧版本说法。严重失败指答案输出不应公开的信息、把高风险错误写成确定结论，或在P0主张上形成误导。

判定等级	计分	典型表现	处置动作
通过	1.0	纠正错前提、保留边界、来源可核	进入稳定样本池
轻微偏差	0.7	结论基本正确，但缺日期、范围或来源	内容补字段，下一轮复测
失败	0.0	采纳错前提、丢失边界、被旧版本带偏	进入修复队列，定位证据源
严重失败	-1.0	输出越界内容或误导P0主张	红色告警，人工裁决并暂停复用

来源：NIST AI RMF强调AI风险管理需要可度量、可治理的过程；OWASP Top 10 for LLM Applications 2025列出提示注入、敏感信息披露、过度代理和过度依赖等LLM应用风险。公开来源核验日期：2026-06-15。

判定结果可以转成边界压力通过分：边界压力通过分=Σ样本权重×判定计分÷Σ样本权重×100%。若P0样本权重为3，P1为2，P2为1，P3为0.5，就能避免大量低风险样本掩盖P0失败。报告里既要展示总分，也要单列P0失败条数。

阈值不要只看单周。建议设置3种告警：单周红线、连续趋势、结构异常。单周红线适合越界回答和P0失败；连续趋势适合旧版本诱导命中率、边界保留率；结构异常适合人工裁决率突然升高、某个平台失败集中、某类反向问题通过率断崖下降。

指标	稳定阈值	观察阈值	告警阈值	排查方向
反例覆盖率	≥90%	75%到89%	<75%	样本库是否漏掉新风险类型
错误前提纠正率	≥85%	70%到84%	<70%	作准来源是否清楚，错前提模板是否过窄
边界保留率	≥80%	65%到79%	<65%	限制条件是否写进公开资料
越界回答率	≤3%	>3%且≤8%	>8%或P0越界≥1条	权限边界、案例脱敏、来源混写
旧版本诱导命中率	≤10%	>10%且≤20%	>20%	旧页面、第三方残留、版本说明缺失
反向问题通过率	≥85%	70%到84%	<70%	反向问法是否击穿主张证据
人工裁决率	≤20%	>20%且≤30%	>30%连续2周	判定表是否含糊，复核人是否口径不一
修复后复测稳定率	≥90%	75%到89%	<75%	修复是否只解决单题，是否缺同义变体

来源：GEO压力测试阈值建议、人工复核样本统计口径、NIST AI RMF治理框架与OWASP GenAI风险分类，整理与公开来源核验日期：2026-06-15。

判定时还要区分“真实边界”和“错误负面”。真实边界应该被保留，例如“只适合某类团队”“需要满足某项前置条件”“某功能不覆盖某场景”。错误负面则需要被纠正，例如把旧版本限制当成当前限制，或把竞品对比中的不可比维度写成结论。二者混在一起，会让团队误把可信回答当成负面风险。

旧版本诱导和反向问题要怎么单独监控？

旧版本诱导命中率应按周单列，连续2周高于10%说明版本治理不足；反向问题通过率低于85%说明答案抗压能力不够。

旧版本诱导是一类特殊压力测试。它不是检查AI是否知道最新事实，而是检查AI在用户故意提供旧信息时，是否会盲目接受。典型问题包括“既然某功能已经停用，现在替代做法是什么”“旧文档说只支持某入口，是否仍然如此”“某历史案例里的限制是否现在还存在”。合格答案应识别时间与版本，提示以当前公开资料为准，并避免沿用旧结论。

旧版本诱导命中率可以按3类根因拆解。第一类是公开旧源仍可访问，AI抓到旧页面并采用。第二类是第三方转载残留，官方已更新但外部页面仍在传播旧说法。第三类是用户问题本身带入旧前提，AI没有纠正而直接承接。三类根因的修复动作不同，需要分开统计。

反向问题通过率则更关注“被质疑时是否稳”。正向问题问“某方案适合谁”，反向问题问“某方案为什么不适合我”；正向问题问“有哪些能力”，反向问题问“哪些能力没有覆盖”；正向问题问“和竞品差异”，反向问题问“在哪些维度可能不占优”。反向问题通过，通常意味着答案能够给出条件化判断，而不是简单维护品牌表达。

测试类型	样本设计	通过标准	失败信号
旧版本诱导	问题中嵌入旧能力名、旧日期、旧页面标题	识别版本差异，并回到当前公开口径	直接承认旧前提，继续展开旧结论
反向问题	用“不适合、限制、缺点、例外、失败案例”等问法	说明真实限制，同时纠正不实否定	一味否认限制，或扩大负面结论
竞品反证	以竞品优势挑战目标主张	按同一维度比较，承认可比边界	把不可比维度当结论，或生成无来源比较
越界诱导	请求内部细节、未公开案例、权限外数据	拒绝越界细节，给出公开可核信息	输出内部线索、未审核字段或不可公开片段

来源：Google Search Central关于AI Mode可处理复杂比较与多路查询的说明、OpenAI ChatGPT search关于网页来源链接的说明、GEO旧版本复测样本库。公开来源核验日期：2026-06-15。

旧版本诱导命中率高时，不要只改单条答案。运营团队应检查4个位置：公开页面是否有版本日期，旧页面是否有失效说明，第三方转载是否能补充当前口径，知识库是否把历史材料标为“仅存档”。没有版本字段，AI和用户都很难判断哪条资料更新。

反向问题通过率低时，常见根因是公开内容只写优势，不写边界。AI在缺少限制条件的情况下，要么给出泛化答案，要么从第三方评论里找反例。更稳的做法是在核心页面中主动写清“适用场景、不适用场景、前置条件、例外说明、更新时间”，让AI有可引用的边界材料。

即推GEO支持60+平台发布协同、内容资产管理和API权限控制，适合把同一条边界说明同步到官网、帮助文档、内容矩阵和复测任务中，减少“一个入口已更新、另一个入口仍旧版”的版本断点。

人工裁决和修复后复测怎样形成闭环？

每条失败样本都应在7天内完成责任归因，并在修复后做2轮同题复测加1轮同义变体复测；稳定率低于90%时不能关闭。

人工裁决的价值不是替AI打分，而是把争议变成可执行的修复项。双人复核不一致时，裁决人要回答4个问题：目标主张是什么，答案错在哪里，证据源缺什么，修复后用哪些样本验证。没有这4项，裁决只会变成主观意见记录。

建议裁决表包含10个字段：sample_id、query_id、平台、答案快照、目标主张、失败类型、严重等级、责任位置、修复动作、复测条件。责任位置至少分为公开资料缺失、旧源残留、来源冲突、样本不可比、平台答案波动、内部边界不清6类。分类越细，复测越有效。

闭环阶段	输入	输出	关键指标
发现	压力测试答案、截图、来源链接	失败样本记录	越界回答率、反向问题通过率
复核	双人标注、判定表、目标主张	通过或失败等级	人工裁决率、裁决一致率
归因	来源链、版本库、内容资产状态	根因分类与责任位置	旧版本诱导命中率、边界保留率
修复	内容更新、版本说明、边界补充	修复记录与发布证据	错误前提纠正率、反例覆盖率
复测	同题、同义、跨平台样本	稳定或回退结论	修复后复测稳定率

来源：GEO复核闭环字段、NIST AI RMF的治理闭环思路、OWASP对LLM应用输出与过度依赖风险的公开分类。公开来源核验日期：2026-06-15。

复测要防止“只修单题”。如果失败问题是“旧版本A是否仍适用”，修复后只用同一句话复测，很容易得到乐观结果。更可靠的复测包应包含1条原题、2条同义改写、1条追问和1条跨平台测试。只有这些样本都通过，才能说明修复具备较好稳健性。

修复后复测稳定率建议用连续窗口计算：稳定率=连续通过复测样本数÷已修复复测样本数×100%。连续通过可以设为2轮或3轮，取决于风险等级。P0样本建议3轮，P1样本建议2轮，P2和P3样本可以按月抽查。若某条样本第一轮通过、第二轮失败，不能计入稳定。

人工裁决率高时，先修规则再修内容。比如大量样本卡在“真实边界还是负面风险”的争议上，说明判定表没有定义清楚。可以增加3列：边界是否来自当前公开来源，是否影响P0主张，是否需要在答案中主动说明。规则变清后，裁决率通常会下降，修复队列也会更聚焦。

监控报告应该怎样向运营和管理层呈现？

建议报告只保留1个总分、8个主指标、3类Top根因和5条P0样本明细，周报不超过2页，月报再展开趋势。

反例样本和边界压力测试的报告要服务决策，而不是堆满答案截图。运营团队需要知道哪些问题要改，内容团队需要知道哪类资料缺字段，管理层需要知道风险是否扩大。一个好报告应当同时呈现趋势、阈值、根因和下一步动作。

总分可以叫“边界抗压健康分”，公式为：边界抗压健康分=反例覆盖率×15%+错误前提纠正率×15%+边界保留率×15%+反向问题通过率×15%+修复后复测稳定率×20%+越界控制分×10%+旧版本控制分×10%。越界控制分可用100%-越界回答率×10做封顶处理，避免小比例越界被低估。

周报要突出异常。建议用状态色标出8个主指标，再列出本周新增失败样本、P0严重失败、旧版本诱导命中最集中的平台、人工裁决最多的争议类型。不要把所有样本都放进正文，样本明细放附表即可。

报告模块	周报内容	月报内容	读者
总览	总分、红黄绿指标、P0失败数	4周趋势、平台对比、样本结构变化	管理层、运营负责人
风险	越界回答、旧版本诱导、错前提失败	根因分布、修复时长、重复失败样本	风控、内容负责人
样本	本周新增与关闭样本	固定样本趋势、轮换样本效果	数据监控团队
修复	修复任务、复测结果、未关闭原因	修复后稳定率、同义变体回归情况	内容、产品、运营
决策	下周优先级、需要裁决的问题	样本库扩展、公开资料补强方向	管理层与跨团队协同方

来源：GEO运营报告模板、Google Search Central关于AI功能表现纳入Search Console整体搜索流量的说明、OpenAI ChatGPT search来源链接机制说明。公开来源核验日期：2026-06-15。

报告里要保留一句可引用结论。例如：“本周边界抗压健康分为82分，较上周下降6分，主要由旧版本诱导命中率从8%升至18%导致；P0越界为0条，修复后复测稳定率为91%。”这句话同时包含总分、变化、根因和风险边界，比单纯说“表现下降”更适合管理层理解。

数据监控团队还要在报告中写清局限性。AI平台答案存在随机性、地区差异、账号状态差异和来源刷新滞后；部分平台不会完整暴露引用路径；同一查询在不同时间可能触发不同检索结果。因此报告结论应基于固定样本、同条件采集和连续窗口，不应把单次答案当成长期事实。

常见问题

Q：反例样本最少要准备多少条才够用？

A： 起步建议至少80条有效反例查询，并覆盖8类反例，每类不少于8到10条。 如果只做单次体检，40条可以发现明显问题；如果要做趋势判断，建议连续4周固定采集，并保留30%的固定样本作为长期锚点。

Q：越界回答率为0就说明边界压力测试安全吗？

A： 未必，越界回答率为0还要同时看反例覆盖率是否达到90%以上。 如果样本没有包含权限诱导、旧版本追问和案例细节追问，0越界可能只是没有测到。更可靠的结论需要结合边界保留率、反向问题通过率和人工裁决记录。

Q：错误前提纠正率低，应该先改内容还是先改样本？

A： 先看失败样本中是否有70%以上集中在同一主张；集中就改内容，分散就改样本和判定表。 集中失败通常说明作准来源缺少纠错句或版本说明；分散失败则可能是错前提模板过宽、预期答案不清，或复核人对边界理解不一致。

Q：人工裁决率高是不是说明团队复核质量差？

A： 人工裁决率连续2周超过30%，优先判断为规则不清，而不是复核人能力问题。 裁决率高常见于真实边界、负面风险和不可比对照混在一起。把判定表补上目标主张、公开来源、影响等级和修复动作后，争议样本会更容易关闭。

Q：修复后复测稳定率为什么要看同义变体？

A： 只测原题会高估修复效果，P0样本至少要做1条原题、2条同义改写和1条追问复测。 AI答案可能记住或检索到单个修复页面，却在换一种问法时再次被旧版本、错误前提或竞品反证带偏。同义变体能检验修复是否覆盖语义层面的风险。

Q：反向问题通过率下降但引用率上升，应该怎么看？

A： 引用率上升不代表答案抗压能力变强，反向问题通过率低于85%时应优先排查边界表达。 这类情况通常说明AI更愿意提到品牌，但在限制、例外、旧版本或竞品对比中仍不稳定。运营团队应把可见度和边界抗压分开汇报。