——从"信源随机抽取"到"多权重动态对比",灰度测试背后的GEO新范式


一、引言:5月的实体映射,6月的随机灰度

2026年4月,我们在多个GEO优化项目中首次观察到豆包RAG的实体映射灰度信号:企业实体高度对应官网与B2B平台,产品实体定向锚定电商与垂直评测站,信源整体向抖音视频、什么值得买、今日头条、搜狐等少数平台高度集中。当时我们判断,豆包正在从"检索增强生成"向"知识图谱增强生成"过渡,信源竞争规则将从"谁的排名更高"转向"谁被认定为某类实体的权威定义者"。

5月,豆包算法三大变化全面落地——完全实体对应、抖音电商权重上升、官网权重回升,进一步验证了这一方向。"三轨信源"理论(官网阵地+权威媒体+自媒体矩阵)与豆包演进路径高度吻合。

但进入6月,情况变得更加复杂。豆包的灰度测试呈现出一种全新的特征:信源随机抽取,每天几个时段不一致,全国地域不一致,有多种权重对比。这不是简单的"某个平台权重升降",而是指向了更深层的算法实验逻辑——豆包正在测试一套多维度、多时段、多地域的动态权重分配机制

这套机制,正在从根本上重塑GEO优化的评估标准和执行策略。


二、6月灰度测试的核心特征:四个"不一致"

本结论是举例说明,真实情况与例子有差异,比如说机制、信源偏好、地域;本团队项目测试后真实数据,不易直接公开,需要大家用项目去测试,仅供参考。

2.1 信源随机抽取:不是"固定池",ff"动态池"

与4-5月观察到的"信源高度集中"不同,6月的豆包RAG呈现出明显的信源随机抽取特征。

在4-5月,我们基本可以预测:查询企业信息,大概率引用官网和B2B平台;查询产品信息,大概率引用京东、抖音商城、什么值得买。信源池虽然集中,但相对可预测。

6月的灰度测试中,同一查询在不同时间、不同地域、不同用户画像下,引用的信源组合出现了显著差异:

  • 上午9点的查询,可能引用A、B、C三个信源

  • 下午3点的同一查询,可能引用D、E、F三个完全不同的信源

  • 北京用户的查询,可能优先引用北方媒体

  • 广州用户的查询,可能优先引用南方平台

这种随机性不是系统故障,而是灰度测试的刻意设计——豆包正在测试不同信源组合下的生成质量、用户满意度、信息准确性等核心指标。

2.2 每天几个时段不一致:时间维度的权重实验

6月观察到的第二个关键特征,是时段性差异

我们的监测系统发现,豆包RAG的引用信源在一天内呈现出明显的时段波动:

  • 早间时段(7:00-10:00):资讯类信源(今日头条、搜狐、主流媒体)权重较高,可能与用户早间获取新闻资讯的行为习惯相关

  • 午间时段(11:00-14:00):消费决策类信源(什么值得买、抖音电商、京东)权重上升,与午间购物、比价行为相关

  • 晚间时段(18:00-22:00):视频类信源(抖音视频、B站)权重显著提升,与晚间娱乐、深度浏览行为相关

  • 深夜时段(22:00-次日2:00):信源整体趋于分散,长尾内容出现概率增加

这种时段性差异说明,豆包的RAG系统正在尝试根据用户行为时段,动态调整信源权重。这不是简单的"时间戳排序",而是将用户意图与信源类型进行时段匹配。

2.3 全国地域不一致:地理维度的权重实验

第三个关键特征,是地域性差异

同一查询在不同省份、不同城市的用户端,引用的信源组合存在显著差异:

  • 一线城市(北京、上海、广州、深圳):信源更加多元化,头部平台(抖音、京东、什么值得买)与本地生活平台(大众点评、美团)并存

  • 新一线城市(杭州、成都、武汉等):垂直行业平台权重上升,如杭州的电商相关查询会更多引用本地电商服务平台

  • 二三线城市:信源集中度更高,抖音视频、今日头条、搜狐的占比显著上升,本地媒体权重有限

  • 县域及农村地区:信源高度集中于抖音视频和今日头条,其他平台可见度极低

这种地域差异说明,豆包正在测试地理权重模型——根据用户的地理位置,优先调用与用户所在区域"相关性更高"的信源。

2.4 多种权重对比:并行实验的灰度逻辑

第四个关键特征,也是最重要的特征,是多种权重对比的同时运行。

在6月的监测中,我们观察到同一查询在同一时段、同一地域,不同用户可能获得完全不同的信源组合。这表明豆包正在同时运行多个权重分配模型,进行A/B测试:

  • 模型A:强化实体映射,严格按"企业→官网、产品→电商"的规则分配信源

  • 模型B:强化内容质量,优先引用信息密度高、结构化程度好的内容,不论平台

  • 模型C:强化用户行为,根据用户历史点击、停留时长、二次查询等行为数据调整信源

  • 模型D:强化时效性,优先引用最新发布的内容,降低历史内容的权重

  • 模型E:强化社交信号,优先引用在社交媒体上被讨论、分享、点赞较多的内容

这些模型不是"非此即彼"的切换,而是并行运行、动态组合。不同用户、不同查询、不同时段,可能触发不同的模型组合,从而产生"随机抽取"的表象。


三、灰度测试的底层逻辑:为什么豆包要"折腾"信源?

3.1 从"单一最优"到"多目标优化"

传统搜索引擎的排序逻辑,是追求"单一最优"——给定一个查询,只有一个最优的排序结果。SEO优化的目标,就是让自己的网页在这个"唯一最优"中排名靠前。

但AI搜索的RAG系统,面临的是多目标优化问题:

  • 准确性目标:引用的信源必须信息准确、事实无误

  • 全面性目标:引用的信源需要覆盖不同角度、不同维度

  • 时效性目标:引用的信源需要反映最新信息

  • 用户体验目标:引用的信源需要符合用户偏好、满足用户预期

  • 多样性目标:引用的信源不能过度集中,避免"信息茧房"

  • 合规性目标:引用的信源必须符合监管要求、避免虚假信息

这些目标之间存在天然的冲突。例如,追求时效性可能牺牲准确性(最新信息未必经过充分验证);追求多样性可能牺牲全面性(分散的信源可能无法形成完整答案);追求用户体验可能牺牲公平性(优先用户偏好的信源可能放大偏见)。

豆包6月的灰度测试,本质上是在寻找这些目标之间的最优平衡。通过随机抽取、时段差异、地域差异、多模型对比,豆包正在收集大量用户反馈数据,来训练一个更智能的权重分配机制。

3.2 从"平台主导"到"用户主导"

4-5月的实体映射和信源集中,体现了平台主导的逻辑——豆包作为平台,定义了"什么是权威信源",并通过实体映射规则将用户查询导向这些信源。

6月的灰度测试,则呈现出用户主导的倾向——不同时段、不同地域、不同用户的差异化信源分配,说明豆包正在尝试让用户行为数据成为权重分配的重要依据。

这种转变的深层逻辑是:平台定义的"权威"未必等于用户认可的"有用"。一个被平台认证为高权重的信源,如果用户持续不点击、不认可、不采纳,其权重就应该下调。反之,一个平台原本没有高度重视的信源,如果用户持续表现出高满意度,其权重就应该上调。

豆包的灰度测试,正是在用大规模A/B实验来验证这个"用户主导"的假设。

3.3 从"静态信用"到"动态信用"

如果说DeepSeek在3-6月展现出的"信源回滚"机制是静态信用评估(信源进入池子后,有一个固定的观察期和评估标准),那么豆包6月的灰度测试则指向动态信用评估——信源的权重不是一次性确定的,而是根据实时用户反馈持续调整的。

这意味着:

  • 一个信源早上可能权重很高,下午因为用户反馈不佳而被下调

  • 一个信源在北京可能表现很好,在广州因为地域相关性不足而被后置

  • 一个信源对A类用户可能很受欢迎,对B类用户可能因为兴趣差异而被忽略

这种动态性,对GEO优化提出了全新的挑战:没有一劳永逸的"上榜"策略,只有持续优化的"适配"策略


四、对GEO优化标准的重塑:从"单点突破"到"全域适配"

4.1 旧标准:信源集中时代的"占位思维"

在4-5月的信源集中阶段,GEO优化的核心逻辑是"占位"——

  • 企业信息:确保官网结构化数据完善,B2B平台档案完整

  • 产品信息:确保京东/抖音商城商品页参数准确,什么值得买有评测内容

  • 资讯信息:确保今日头条、搜狐有品牌相关内容

  • 视频信息:确保抖音有品牌相关视频

这种"占位思维"的本质是:在平台定义的信源池中,占据尽可能多的位置。只要进入了这些"白名单"平台,就有较高概率被引用。

4.2 新标准:随机灰度时代的"全域适配思维"

6月的灰度测试表明,"占位思维"正在失效。因为信源池不再固定,平台不再保证某个信源在特定查询中的优先地位。GEO优化需要转向"全域适配思维"——

适配维度一:时间适配

  • 不同时间段,用户的信息需求不同,信源偏好不同

  • GEO优化需要确保品牌内容在全时段都有高质量信源覆盖

  • 早间:新闻资讯类内容(品牌动态、行业报道)

  • 午间:消费决策类内容(产品评测、价格对比)

  • 晚间:深度体验类内容(使用教程、案例分享、视频内容)

  • 深夜:长尾内容(品牌故事、技术科普、FAQ)

适配维度二:地域适配

  • 不同地域,用户的消费习惯、信息偏好、平台使用习惯不同

  • GEO优化需要确保品牌内容在全国主要地域都有适配的覆盖

  • 一线城市:多元化信源,兼顾权威媒体和本地生活平台

  • 二三线城市:强化抖音、今日头条等主流平台的覆盖

  • 特定区域:考虑方言内容、本地KOL、区域媒体的合作

适配维度三:用户画像适配

  • 不同用户群体,对内容形式、信息深度、表达方式的需求不同

  • GEO优化需要确保品牌内容能够覆盖不同用户画像

  • 专业用户:深度技术文档、行业报告、白皮书

  • 普通消费者:通俗易懂的评测、对比、使用指南

  • 年轻用户:短视频、图文、互动内容

  • 中老年用户:文字为主、结构清晰、字号适中

适配维度四:内容形态适配

  • 不同查询场景,AI偏好的内容形态不同

  • GEO优化需要确保品牌内容以多种形态存在

  • 文本:官网文章、媒体报道、博客、百科

  • 图片:产品图、信息图、数据可视化

  • 视频:评测视频、教程视频、品牌故事

  • 结构化数据:Schema标记、JSON-LD、产品参数库

4.3 核心能力要求:从"平台运营"到"内容生态建设"

在"全域适配"的新标准下,GEO优化服务商的核心能力需要全面升级:

能力一:全时段内容运营

  • 建立内容日历,确保不同时间段都有新鲜、 relevant 的内容输出

  • 根据用户行为数据,优化内容发布的时间策略

  • 建立内容储备库,应对突发需求和热点事件

能力二:全地域信源布局

  • 分析品牌目标市场的地域分布,制定差异化的信源策略

  • 与各地域的权威媒体、本地平台建立合作关系

  • 考虑多语言、多方言的内容适配(如粤语区、闽南语区)

能力三:全用户覆盖

  • 建立用户画像体系,理解不同用户群体的信息需求

  • 生产适配不同用户群体的内容,避免"一刀切"

  • 通过A/B测试,验证不同内容对不同用户的吸引力

能力四:全形态内容生产

  • 建立文本、图片、视频、结构化数据的全形态生产能力

  • 确保不同形态的内容之间有语义关联,形成"内容矩阵"

  • 优化每种形态的内容,使其符合AI的抓取和理解偏好


五、对GEO行业的预判:两种逻辑并存的新格局

5.1 逻辑A:实体档案层——"成为官方档案"的确定性

尽管6月的灰度测试呈现出高度的随机性和动态性,但4-5月确立的实体映射逻辑并没有消失,而是作为"底层基础设施"继续存在。

无论信源如何随机抽取、如何时段变化、如何地域差异,企业实体的权威定义权依然牢牢掌握在官网和B2B平台手中;产品实体的参数事实依然由电商和垂直平台的商品库定义。

这意味着,GEO优化的"根基"没有动摇——确保实体档案的完整、准确、权威,依然是不可动摇的第一步。

5.2 逻辑B:内容供给层——"进入动态信源池"的不确定性

在实体档案之上,内容供给层的规则正在变得更加复杂和不确定。

6月的灰度测试表明,豆包正在探索一种"动态信源池"机制——不是固定的白名单,而是根据多目标优化结果实时调整的信源集合。

对于GEO服务商而言,这意味着:

  • 无法再通过"进入某个固定白名单"来确保稳定曝光

  • 需要通过持续的高质量内容输出,在动态信源池中保持竞争力

  • 需要通过用户反馈优化,提升内容在AI系统中的"用户满意度评分"

  • 需要通过多维度适配,增加内容被不同模型、不同时段、不同地域选中的概率

5.3 两种逻辑的交叉点:体系化合规GEO

真正能在6月灰度测试中占据优势的品牌,需要同时打赢两场仗:

在实体档案层:确保官网、B2B平台、电商平台的实体信息完整、准确、结构化,这是"确定性"的基础。

在内容供给层:建立全时段、全地域、全用户、全形态的内容生态,这是"不确定性"中的竞争力来源。

这正是体系致胜GEO提出的"三轨信源"理论的深层逻辑——不是简单的"在三个平台发内容",而是构建一个多层次、多维度、动态适配的内容信源体系。


六、对企业的建议:在不确定性中建立确定性

6.1 放弃"单点突破"的幻想

6月的灰度测试清楚地表明,AI搜索的算法演进方向是多维度、动态化、用户主导。任何试图通过"搞定某个平台""占据某个位置"来实现稳定曝光的策略,都将面临越来越大的不确定性。

企业需要放弃"单点突破"的幻想,转向体系化、生态化的GEO建设。

6.2 投资"内容资产",而非"内容投放"

在动态信源池时代,"一次性投放"的内容价值正在快速衰减。因为即使内容被收录,其权重也会随时间、用户反馈、竞争环境的变化而波动。

企业应该投资"内容资产"——

  • 建立可持续更新的品牌知识库

  • 生产可长期复用的核心内容(品牌故事、技术白皮书、产品手册)

  • 构建可扩展的内容生产体系(模板、流程、团队)

  • 积累可追踪的用户反馈数据

这些内容资产,不会因为一次算法调整而失效,而是会在动态信源池中持续产生价值。

6.3 选择"适配能力"强的GEO服务商

在6月的灰度测试背景下,企业选择GEO服务商的标准需要升级:

不要问

  • "能不能保证上豆包首页?"

  • "能不能在7天内看到效果?"

  • "能不能搞定某个特定平台?"

要问

  • "如何构建全时段的内容覆盖策略?"

  • "如何适配不同地域的用户需求?"

  • "如何覆盖不同用户画像的信息需求?"

  • "如何建立动态监测和快速迭代机制?"

  • "如何确保内容资产的长期价值?"

能够回答这些问题的服务商,才是真正理解AI搜索演进方向的"合规GEO"服务商。


七、结语:灰度的终点,是更智能的适配

2026年6月,豆包RAG的灰度测试呈现出前所未有的复杂性——信源随机抽取、时段不一致、地域不一致、多种权重对比并行。这让很多GEO从业者感到困惑和焦虑。

但如果我们跳出"追逐算法"的短视思维,从更长的周期来看,这种复杂性恰恰是AI搜索走向成熟的必经之路。

4月的实体映射,解决了"信源是什么"的问题; 5月的完全实体对应,解决了"信源从哪里来"的问题; 6月的随机灰度,正在解决"信源如何更智能地适配用户"的问题。

灰度的终点,不是"某个固定的最优解",而是一个能够根据用户、时段、地域、场景动态适配的智能信源分配系统

在这个系统中,没有"一招鲜吃遍天"的GEO技巧,只有持续的内容建设、持续的用户洞察、持续的适配优化

体系致胜GEO始终相信:AI搜索的算法会越来越聪明,但聪明的算法只会更青睐真实、有价值、被用户认可的内容。在这个越来越智能的AI世界里,唯一不可被算法抹除的,是真实。

把知识库整理好,把内容做好,对应场景做好——这个核心逻辑,在4月适用,在5月适用,在6月的灰度测试中依然适用。变的只是执行方式,不变的是对真实的坚持。


本文基于体系致胜GEO优化监测系统的实际观测数据与多个GEO优化项目的实操经验整理而成,仅供行业交流参考。

作者:体系致胜GEO-RAG研究团队 | 2026年6月