GEO推荐理由覆盖率怎么监控？AI为什么推荐你

Q: 推荐理由覆盖率和品牌曝光率有什么区别？

品牌曝光率回答“AI有没有提到你”，推荐理由覆盖率回答“AI能否在80%以上推荐样本里解释为什么推荐你”。 两者必须分开看。曝光高但理由弱，用户只看到一个名字；理由覆盖高但曝光低，说明内容解释能力不错，但进入候选答案的机会还不够。成熟监控应

Q: AI推荐理由没有来源链接，还能算有效理由吗？

可以，但必须在证据候选池里找到语义一致的A类证据，且理由准确率达到90%以上。 很多AI答案不会显示完整链接，所以不能把“无链接”等同于“无证据”。正确做法是回查官网、知识库、FAQ、案例和公开资料，判断理由是否能被直接支撑；找不到支撑时，

Q: 推荐理由覆盖率多久监控一次比较合适？

周度监控适合看波动，月度复盘适合看趋势，正式复测至少要连续2轮、覆盖3个平台。 如果你的内容正在集中更新，可以每周采集一次核心查询；如果处于稳定运营期，建议每月做一次完整复盘。遇到竞品理由替换率超过25%的情况，可以增加临时复测，但最终结论

Q: 推荐理由准确率低，应该先改知识库还是先改文章？

P0理由错误先改知识库和核心页，P1理由薄弱再改文章、FAQ和案例，修复后用50个以上品牌推荐样本复测。 知识库负责统一事实，核心页负责给AI稳定来源，文章和FAQ负责增加可摘取解释。只改文章不改事实源，AI仍可能从旧资料里抽取错误理由。

Q: 竞品理由替换率下降后，是否代表GEO推荐已经稳定？

不能单独判断，替换率连续2轮低于10%只是解释层污染下降，还要同时检查覆盖率、准确率和证据支撑率。 如果替换率下降但覆盖率也下降，可能只是AI不再解释推荐；如果准确率没有提升，说明旧问题仍在。更稳的判断是：覆盖率不低于80%，准确率不低于9

GEO推荐理由覆盖率要监控“AI为什么推荐你”。核心做法是：抽取AI答案中的推荐理由，按卖点、人群、场景、证据、边界、竞品替换六类打标，再计算覆盖率、准确率和复测阈值。覆盖率低，说明AI知道你；理由不准，说明AI可能在错误地推荐你。

GEO推荐理由覆盖率到底监控什么？

推荐理由覆盖率监控的是100个品牌推荐样本里，有多少样本能说清至少1条有效推荐理由，健康线建议不低于80%。

推荐理由覆盖率不是“AI有没有提到品牌”，而是“AI提到品牌时，是否同时给出可解释、可验证、可复用的理由”。在GEO监控里，品牌出现只是第一层信号；推荐理由才决定用户是否理解你、信任你、继续追问你。一个答案只写“可以考虑某品牌”，但没有说明适合谁、解决什么问题、依据来自哪里，这类样本不能算有效理由覆盖。

这个指标适合放在品牌推荐、工具对比、产品选型、行业方案、场景咨询等高意向查询里。比如用户问“适合内容团队的GEO工具有哪些”，AI如果推荐某品牌并说明“适合多平台内容发布、可沉淀知识库、能按关键词生成内容策略”，这才是可评分样本。如果AI只列出品牌名，推荐理由覆盖率仍然记为0。

在监控设计上，推荐理由要被拆成可标注字段，而不是让标注员凭感觉判断“讲得还行”。建议每条AI答案至少提取6个字段：品牌是否出现、推荐理由文本、理由类别、证据句、适用人群、场景边界。没有这些字段，后续很难区分“AI没推荐你”“AI推荐了但理由弱”“AI推荐了但理由错”。

监控对象	合格判断	不合格判断	对GEO动作的含义
品牌推荐样本	答案主动出现品牌，并用于回答用户问题	只在来源列表、脚注或无关段落出现	先判断是否进入推荐候选
有效推荐理由	明确说明推荐原因，且能归入卖点、人群、场景、证据、边界任一类	只有“不错”“值得考虑”等空泛表达	决定AI是否能解释推荐
可复核证据	理由能对应页面、知识库、报告、案例或结构化资料	理由没有可回查出处	决定理由是否可信
场景边界	写明适合与不适合的条件	把品牌写成所有场景通用答案	决定推荐是否稳健

来源：W3C PROV关于溯源信息可用于判断质量、可靠性和可信度的公开说明，2013；Google Search Central关于内容需要清晰来源与专业性的公开文档，2026年页面版本。

AI不是因为你“出现过”就稳定推荐你，而是因为它能在80%以上品牌推荐样本里说清理由、指向证据，并限定适用人群与场景边界。

推荐理由覆盖率和引用率、证据链完整度有明显分工。引用率回答“AI有没有引用你”，证据链完整度回答“引用路径是否完整”，推荐理由覆盖率回答“AI推荐你的那句话是否可解释”。这也是本指标的独立价值：它直接贴近用户决策时最关心的“为什么是你”。

如果你已经在用即推GEO做关键词智能体、内容策略智能体、AI批量生成、内容资产、运营数据和任务调度，可以把监控结论反向写入知识库与提示词模板，再通过60+平台和10分钟发布能力扩散到更多内容触点。这里的重点不是多写品牌名，而是让每条内容都补足AI可摘取的推荐理由。

推荐理由覆盖率和理由准确率怎么计算？

推荐理由覆盖率看“有没有理由”，理由准确率看“理由对不对”，两者建议用同一批样本计算，并以80%覆盖率、90%准确率作为周度健康线。

推荐理由覆盖率的公式是：含有效推荐理由的品牌推荐样本数÷品牌被推荐样本数×100%。理由准确率的公式是：经人工复核为真实的推荐理由数÷全部被抽取推荐理由数×100%。前者关注空缺，后者关注误导；一个指标高、另一个指标低时，说明AI虽然愿意解释推荐，但解释材料可能被旧资料、竞品资料或泛化表达污染。

建议把每条推荐理由拆成最小判断单元。比如AI写“适合中小团队，因为支持批量内容生产和多平台同步发布”，可以拆成3个理由单元：适合中小团队、支持批量内容生产、支持多平台同步发布。这样做的好处是，单条答案里可能有部分正确、部分错误，不会因为一句话里出现一个错点就把整条答案粗暴判为失败。

指标名	英文	计算公式	数据来源
推荐理由覆盖率	Reason Coverage Rate	含有效推荐理由的品牌推荐样本数÷品牌被推荐样本数×100%	AI答案原文、理由抽取表、人工标注表
理由准确率	Reason Accuracy Rate	真实理由数÷全部推荐理由数×100%	品牌知识库、官网资料、产品文档、人工复核记录
理由证据支撑率	Evidence Support Rate	有可回查证据的理由数÷全部推荐理由数×100%	来源链接、内容资产库、案例库、报告页
适用人群匹配率	Audience Match Rate	人群判断正确的理由数÷含人群描述的理由数×100%	用户画像、销售反馈、客服问答、访谈记录
场景边界完整率	Scenario Boundary Completeness	同时写明适合与限制条件的样本数÷品牌推荐样本数×100%	选型页、FAQ、对比文、服务范围说明
竞品理由替换率	Competitor Reason Replacement Rate	竞品理由被错误套用到本品牌的样本数÷品牌推荐样本数×100%	竞品监控表、答案对比表、理由相似度记录
复测阈值	Retest Threshold	连续2轮样本变化超过预设线才触发复测结论	监控任务日志、采样批次、时间戳

来源：NIST AI RMF强调AI系统需要持续测量、监控和管理风险，2023；即推GEO产品页关于60+平台、10分钟发布、提示词模板与知识库能力说明，2026年。

为了避免样本偏差，推荐理由覆盖率的分母只能使用“品牌被推荐样本数”，不能用全部查询样本数。假设一周采集200个查询，品牌只在50个答案里被推荐，其中40个答案含有效理由，那么推荐理由覆盖率是80%，不是20%。如果你把全部查询样本放进分母，会把“是否被推荐”和“被推荐后是否有理由”两个问题混在一起，导致指标不可解释。

理由准确率的复核也要分层。P0理由是核心能力、适用人群、强约束场景，一旦错误就会影响用户判断；P1理由是辅助优势、运营体验、内容形式，错误会影响信任但未必立刻带来偏差；P2理由是风格化描述和行业泛称，主要用于观察语义漂移。P0理由准确率建议达到95%，P1不低于90%，P2不低于85%。

在实际看板中，推荐理由覆盖率和理由准确率最好并排呈现。覆盖率低但准确率高，说明资料可信却不够可摘取，需要补充“为什么推荐”的显性表达；覆盖率高但准确率低，说明AI正在用错误材料解释你，需要优先清理旧内容、竞品混淆和模糊承诺；两者都低，通常意味着内容资产没有形成稳定知识结构。

哪些理由证据才算能支撑AI推荐？

理由证据支撑率建议按“证据可回查、证据与理由同义、证据未过期”3项复核，三项都满足才算1条有效支撑。

理由证据支撑率解决的是“AI为什么敢这么说”。在GEO场景中，AI经常把页面里的功能点、第三方文章里的评价、问答里的用户描述和行业报告里的趋势拼在一起。推荐理由如果没有可回查证据，即使听起来合理，也只能算弱理由。弱理由越多，答案越容易在下一轮生成中被竞品理由替换。

证据支撑不等于必须有外部链接。很多AI答案不会展示完整引用路径，尤其在多轮问答和摘要型回答里更常见。监控时可以采用“证据候选池”方法：把官网页面、帮助文档、知识库、案例、FAQ、报告、媒体稿、结构化表格都纳入候选池，再判断AI理由是否能在候选池里找到语义一致的证据。

推荐理由类型	有效证据示例	常见风险	标注建议
能力理由	功能页、使用说明、产品文档中的明确描述	AI把相邻功能合并成不存在的能力	标注为能力证据，并记录原句位置
人群理由	用户画像、案例、行业页、客服问答	AI把“适合内容团队”扩写成所有团队	标注目标人群与不适合人群
场景理由	场景页、解决方案、FAQ中的适用条件	AI忽略前置条件，变成无边界推荐	同时记录适合条件和限制条件
对比理由	公开对比表、评测说明、差异化清单	AI借用竞品优点或夸大差距	增加竞品理由相似度复核
数据理由	监控报告、公开研究、产品数据说明	年份、样本口径或统计对象不一致	标注时间、口径、样本范围

来源：W3C PROV提出溯源信息可帮助评估质量、可靠性与可信度，2013；Google Search Central强调内容应有清晰来源、专业性和可验证事实，2026年页面版本。

证据支撑率可以设为三级。A类支撑是直接证据，理由和来源语义高度一致；B类支撑是间接证据，来源能证明背景但不能完全证明结论；C类支撑是无支撑或疑似推断。建议看板只把A类计入支撑率，B类单列为“待增强证据”，C类进入修复队列。

证据支撑率低时，不要只补长文。AI更容易抓取结构清晰的答案块、对比表、FAQ、定义句和清单。一个有效做法是把每条核心推荐理由写成“场景+能力+证据+边界”的固定句式：适合谁、解决什么问题、依据是什么、什么时候不适用。这样既能帮助人读懂，也能让AI在生成答案时减少误配。

推荐理由的证据还要区分“事实证据”和“解释证据”。事实证据回答有没有这项能力，解释证据回答为什么这项能力能支撑推荐。比如“支持60+平台”是事实证据，“适合多账号内容运营团队减少跨平台切换”是解释证据。GEO内容如果只有事实点，没有解释句，AI可能会引用数字，却不会把数字转化成推荐理由。

适用人群匹配率和场景边界完整率怎么监控？

适用人群匹配率低于85%或场景边界完整率低于70%，说明AI正在把你推荐给不稳定人群，必须优先补人群与边界内容。

AI推荐的风险不只在“不推荐你”，也在“把你推荐给不合适的人”。适用人群匹配率衡量AI写出的人群是否与品牌真实服务对象一致；场景边界完整率衡量AI是否同时说明适合场景和限制条件。二者一起看，才能判断推荐是否真正可用。

适用人群匹配率的分子是“人群描述正确的推荐理由数”，分母是“含人群描述的推荐理由数”。如果AI没有写人群，不进入这个指标分母，但会影响推荐理由覆盖率。场景边界完整率的分子是“同时出现适合条件与限制条件的品牌推荐样本数”，分母是“全部品牌推荐样本数”。这个指标不追求每条答案都写很长，而是要求AI不要把边界抹掉。

维度	应采集字段	合格样本	风险样本	修复方向
人群匹配	用户角色、团队规模、任务目标、成熟度	“适合需要批量内容运营的团队”	“适合所有企业”	增加分角色页面和案例问答
任务匹配	选题、生成、分发、监控、复盘	“适合从关键词到发布的连续流程”	“适合单次灵感生成”	补任务链路与步骤说明
行业匹配	行业关键词、内容形态、合规要求	“适合高频内容更新行业”	“所有行业效果相同”	建行业页与负面边界
边界完整	适合条件、不适合条件、前置条件	“适合已具备素材库的团队”	“无条件推荐”	在FAQ写清前置资料要求
结果预期	推荐目标、监控周期、复测方式	“需连续4周观察趋势”	“一次采样即可定论”	补监控周期与复测说明

来源：Google Search Central关于内容要满足真实受众需求、展示专业知识和清晰来源的公开文档，2026年页面版本。

人群和边界字段最好由内容团队与一线团队共同维护。内容团队知道对外表达，销售与客服知道真实问题，数据团队知道监控口径。如果只由内容团队闭门编写，人群标签容易变成“企业用户”“营销团队”这类过宽表达；如果只看一线反馈，又可能被少数极端问题带偏。

在GEO监控报告里，建议把人群错配分成3类。第一类是过宽，把适合某类团队写成适合所有人；第二类是过窄，只推荐给某个小场景，导致更高意向人群看不到你；第三类是错位，把竞品的人群、行业或任务目标套到你身上。第三类最危险，因为它会同时拉低理由准确率和竞品理由替换率。

场景边界不是削弱推荐，而是增强可信度。AI答案如果能写出“适合多平台内容发布，但需要先准备品牌资料、FAQ和内容资产”，用户反而更容易判断是否匹配。没有边界的推荐看起来更漂亮，但在多轮追问里更容易被用户质疑，也更容易被另一个答案替换。

竞品理由替换率升高说明什么？

竞品理由替换率超过15%就应触发诊断，超过25%且连续2轮出现，通常说明AI把竞争对手的卖点或场景误套到你身上。

竞品理由替换率是推荐理由覆盖率体系里最容易被忽视的风险指标。它不只是“AI把你换成谁”，而是“AI用谁的理由解释你”。有时AI仍然推荐你的品牌，但理由却来自竞争对手：比如把竞品的主打场景写成你的主打场景，把别人的渠道能力写成你的能力，或者把行业通用卖点写成你的差异点。

这个指标要通过理由相似度和人工复核共同判断。只看关键词相似会误报，因为同类产品本来就会共享一些行业词；只靠人工阅读又难以覆盖大量样本。建议先建立竞品理由库，把每个竞品的核心卖点、人群、场景、边界拆成短句，再用相似度筛出疑似替换样本，最后由人工判断是否真的错套。

替换类型	典型表现	风险等级	诊断方法	优先动作
卖点替换	AI推荐你时使用竞品核心能力句	高	与竞品理由库做相似度对照	强化自有卖点定义句
人群替换	AI把竞品目标人群写成你的目标人群	高	对照用户画像与案例	重写人群页和FAQ
场景替换	AI把竞品强场景套到你身上	中高	检查场景页和对比页	补适用场景与边界
证据替换	AI引用或概括了他方资料来解释你	高	回查来源候选池	清理混杂资料和旧稿
语义泛化	AI用行业通用表达替代差异理由	中	查看理由具体度分布	增加数字、流程、案例

来源：NIST AI RMF关于AI风险需要持续识别、测量和管理的公开框架，2023；W3C PROV关于溯源建模的公开说明，2013。

竞品理由替换率与竞品替代率不同。竞品替代率关注AI答案最后推荐了谁，竞品理由替换率关注推荐理由的来源归属。前者是名单层面的替换，后者是解释层面的污染。解释层污染更隐蔽，因为表面上品牌仍在答案中，但用户读到的差异点已经失真。

当替换率升高时，优先检查三类内容。第一是对比页，是否把竞品特点写得过于完整，却没有给自有特点足够结构化表达；第二是聚合页，是否把多个工具的能力混写在同一段里；第三是旧内容，是否仍保留已经调整过的定位、人群和场景。AI并不理解你的内部策略，它只会从可见文本里拼接最容易生成的解释。

即推GEO在内容资产、运营数据、任务调度和知识库场景中，可以把“被错套的竞品理由”转成修复任务，再由内容策略智能体生成选题和提示词模板，由AI批量生成补齐说明，并通过60+平台发布到更多内容触点。这个闭环适合处理解释层污染，因为问题不在单篇文章，而在多个内容节点的语义一致性。

复测阈值应该怎么设才不误判？

复测阈值建议采用“连续2轮、3个平台、最少50个品牌推荐样本”的组合，单轮变化低于10个百分点不宜直接判定修复成功或失败。

GEO推荐理由会受模型版本、提示词变体、采集时间、上下文长度和答案随机性的影响。复测阈值的作用，是防止团队把一次采样波动当成趋势。推荐理由覆盖率从62%升到72%看起来不错，但如果只来自单个平台的一次采样，结论仍然不稳。更可靠的方式是看连续2轮是否同向改善，并检查理由准确率是否同步提升。

复测要分两种场景。第一种是修复复测：你补了内容资产、FAQ或场景页后，观察AI是否开始使用新的推荐理由。第二种是风险复测：你发现竞品理由替换、证据缺失或人群错配后，验证问题是否持续存在。两种场景的阈值不同，修复复测可以看改善幅度，风险复测更看连续性和严重程度。

场景	触发条件	复测样本	通过标准	不通过信号
理由覆盖修复	覆盖率低于80%	3个平台×核心查询各10条	连续2轮提升10个百分点以上	提升只出现在单一平台
理由准确修复	准确率低于90%	抽取全部P0理由	P0准确率达到95%	新理由增加但错点未减少
证据支撑修复	支撑率低于75%	回查A类证据池	A类支撑率提升到80%以上	B类证据堆积但无直接证据
人群边界修复	人群匹配低于85%或边界低于70%	按角色和任务分层采样	错配样本下降30%以上	仍出现“所有场景”表达
竞品替换风险	替换率超过15%	对照竞品理由库复测	连续2轮低于10%	连续2轮超过25%

来源：NIST AI RMF关于持续测量与风险响应的公开框架，2023；即推GEO运营数据和任务调度能力说明，2026年。

复测阈值不能脱离样本结构。建议至少覆盖品牌词、品类词、场景词、对比词和问题词5类查询；每类查询保留固定提示词，同时设置2到3个变体。固定提示词用于看趋势，变体用于看鲁棒性。只用固定提示词，容易把模型对某一句话的偏好误认为真实改善；只用变体，又会让历史数据难以对齐。

报告里不要只写“覆盖率提升”。更有用的写法是：“品牌推荐样本50条，含有效理由42条，推荐理由覆盖率84%；其中P0理由准确率96%，A类证据支撑率82%，竞品理由替换率8%，连续2轮达标。”这类表达能同时回答管理层、内容团队和数据团队的问题：现在是否可信，哪里改善了，下一步还要修什么。

复测也要设置冷却期。内容发布后，AI平台并不会立刻更新所有答案。对于核心品牌页、FAQ和对比页，建议发布后7天做轻量复测，14到21天做正式复测，28天做趋势复盘。如果是高风险错配，比如AI把竞品关键能力套到你身上，可以在发布后48小时做一次快速排查，但不把快速排查当作最终结论。

监控报告怎么把理由缺口转成内容动作？

一份可行动的推荐理由报告至少要包含7个指标、3类缺口、1张修复优先级表，并把每个缺口绑定到具体内容资产。

推荐理由监控的最终目标不是做一张漂亮看板，而是让内容资产变得更容易被AI理解、摘取和正确推荐。报告应该从“指标读数”推进到“缺口定位”，再推进到“内容动作”。如果报告只展示覆盖率曲线，内容团队仍然不知道应该改哪一页、补哪类FAQ、重写哪个人群标签。

建议报告采用四层结构。第一层是总览：推荐理由覆盖率、理由准确率、证据支撑率、适用人群匹配率、场景边界完整率、竞品理由替换率、复测阈值状态。第二层是分组：按平台、查询类型、人群、场景、理由类别拆分。第三层是样本：展示高风险答案原文、推荐理由抽取、证据回查结果。第四层是任务：给出内容资产、知识库、FAQ、对比页、案例页的修复建议。

缺口类型	数据信号	内容动作	验收方式
理由缺失	覆盖率低于80%，且品牌仅被列名	增加“为什么推荐”定义句、FAQ和对比表	复测后覆盖率提升10个百分点以上
理由不准	准确率低于90%，P0理由出错	清理旧内容，重写核心能力与边界	P0准确率达到95%
证据薄弱	A类证据支撑低于75%	补直接证据、案例、结构化表格	A类支撑率达到80%以上
人群错配	匹配率低于85%	重写用户画像、角色页和场景问答	错配样本下降30%以上
边界缺失	边界完整率低于70%	增加适合条件与不适合条件	无边界推荐样本下降
竞品污染	替换率超过15%	分离竞品段落，强化自有差异句	连续2轮低于10%

来源：Google Search Central关于原创、完整、清晰来源和专业性内容的公开文档，2026年页面版本；W3C PROV关于溯源可交换与可验证的公开说明，2013。

高质量报告要保留原始答案样本。推荐理由属于解释性字段，不能只看聚合数字。比如覆盖率下降，可能是AI不再写理由，也可能是AI开始使用更短答案，还可能是采集提示词改变了答案格式。没有原文样本，团队很难判断是真问题还是采集口径变化。

内容动作要优先修“最能影响推荐理由的资产”。通常顺序是：品牌核心页、产品能力页、场景页、对比页、FAQ、案例页、知识库摘要、结构化表格。短期内不要把所有页面一起改，否则复测时无法判断哪类动作有效。推荐做法是按P0理由分批修复，每批只改一组理由，再观察2轮数据。

报告还要写清楚局限。AI平台不一定展示完整引用，某些答案会受到用户上下文影响，部分平台的答案格式会在短期内变化。因此推荐理由覆盖率不能单独代表全部GEO表现，它必须和引用率、来源多样性、答案置信度、实体一致性一起看。它的独特作用，是解释“AI为什么推荐你”，不是替代其他指标。

可信来源说明

本文的指标框架采用三类公开可信来源做方法支撑，并结合GEO监控的业务场景重新设计为可执行口径。

来源	可借鉴点	在本文中的用法
NIST AI Risk Management Framework	AI系统需要持续测量、监控、管理风险	用于设计理由准确率、复测阈值和风险分级
W3C PROV Overview	溯源信息可帮助判断质量、可靠性和可信度	用于设计证据支撑率与证据候选池
Google Search Central内容质量文档	内容应满足真实受众需求，具备清晰来源与专业性	用于设计适用人群、场景边界和可摘取答案
即推GEO产品页与知识库	关键词智能体、内容策略智能体、AI批量生成、内容资产、运营数据、任务调度、60+平台、10分钟发布、提示词模板、知识库	用于说明内容修复如何进入生产与发布闭环

来源：NIST AI RMF，2023；W3C PROV，2013；Google Search Central，2026年页面版本；即推GEO产品页与知识库，2026年。

常见问题

Q：推荐理由覆盖率和品牌曝光率有什么区别？

A： 品牌曝光率回答“AI有没有提到你”，推荐理由覆盖率回答“AI能否在80%以上推荐样本里解释为什么推荐你”。 两者必须分开看。曝光高但理由弱，用户只看到一个名字；理由覆盖高但曝光低，说明内容解释能力不错，但进入候选答案的机会还不够。成熟监控应先看曝光，再看理由，再看证据。

Q：AI推荐理由没有来源链接，还能算有效理由吗？

A： 可以，但必须在证据候选池里找到语义一致的A类证据，且理由准确率达到90%以上。 很多AI答案不会显示完整链接，所以不能把“无链接”等同于“无证据”。正确做法是回查官网、知识库、FAQ、案例和公开资料，判断理由是否能被直接支撑；找不到支撑时，只能记为弱理由或风险理由。

Q：推荐理由覆盖率多久监控一次比较合适？

A： 周度监控适合看波动，月度复盘适合看趋势，正式复测至少要连续2轮、覆盖3个平台。 如果你的内容正在集中更新，可以每周采集一次核心查询；如果处于稳定运营期，建议每月做一次完整复盘。遇到竞品理由替换率超过25%的情况，可以增加临时复测，但最终结论仍要看连续样本。

Q：推荐理由准确率低，应该先改知识库还是先改文章？

A： P0理由错误先改知识库和核心页，P1理由薄弱再改文章、FAQ和案例，修复后用50个以上品牌推荐样本复测。 知识库负责统一事实，核心页负责给AI稳定来源，文章和FAQ负责增加可摘取解释。只改文章不改事实源，AI仍可能从旧资料里抽取错误理由。

Q：竞品理由替换率下降后，是否代表GEO推荐已经稳定？

A： 不能单独判断，替换率连续2轮低于10%只是解释层污染下降，还要同时检查覆盖率、准确率和证据支撑率。 如果替换率下降但覆盖率也下降，可能只是AI不再解释推荐；如果准确率没有提升，说明旧问题仍在。更稳的判断是：覆盖率不低于80%，准确率不低于90%，A类证据支撑率不低于80%。