LLM Ad Retrieval:LLM Retrieval for Stable and Predictable Ad Recommendations

2026-05-22 每日论文精读同步页

Paper NoteDaily Research

LLM Ad Retrieval:LLM Retrieval for Stable and Predictable Ad Recommendations

这里精读一篇 2026-05-21 公开在 arXiv 的论文《LLM Retrieval for Stable and Predictable Ad Recommendations》。中文可以叫《用于稳定且可预测广告推荐的 LLM 检索》。论文链接:arXiv:2605.21969。作者为 Vinodh Kumar Sunkara 等,机构/团队为 Meta Platforms, Inc.;公开版本标注 SIGIR 2026 AgentSearch Workshop。代码/项目页本轮未核验到独立仓库。本地 PDF 为 多校-LLMAdRetrieval.pdf。

这篇论文把 LLM 放到广告候选生成链路中,但关注点不是“用大模型替代广告排序”,而是让 LLM 抽取广告语义、构建可遍历图结构,并用稳定性与可预测性指标评估候选质量。它适合用来观察工业广告系统如何把生成式语义能力接入可控检索模块。

1. 背景和问题

广告推荐的难点不只是点击率或转化率。广告主关心预算是否稳定消耗、相似 creative 是否得到可解释的相似投放、轻微文案或素材变化是否导致巨大波动,平台也关心候选生成是否能覆盖冷启动广告和低曝光广告。传统候选生成依赖历史点击、转化、类目、关键词和协同信号,在已有曝光充分的广告上可靠,但面对新 creative 或语义相近而历史交互稀少的广告时容易覆盖不足。

LLM 为这个问题提供了新信号。广告 creative 往往包含标题、描述、图片、落地页语义、品牌和类目线索,LLM 可以把这些内容转成更结构化的属性和类别。然而直接让 LLM 在线排序并不现实:成本高、延迟不稳、输出不可控,而且广告链路还要满足审核、预算、频控、地域、竞价和合规约束。更可行的位置是候选生成或语义基础设施,让 LLM 在离线或批处理中抽取属性,再由传统检索/排序系统消费。

论文强调 stable 和 predictable,是因为广告系统的体验高度依赖可重复性。两个 A/A prime 广告如果只是轻微变化,却在投放上表现差异很大,广告主会认为系统不可控;一个候选生成方法如果只增加很多语义相似但无法通过后续链路的广告,也不会真正改善投放。LLM Ad Retrieval 因此同时看候选对齐、增量召回和 A/A prime daily impression relative difference,而不是只报告一个 Recall@K。

2. 方法

2.1 LLM 广告表示与 Ad-to-Ad 生成

方法第一步是 LLM-driven ads representation learning。系统从广告 creative 中抽取层级类别、属性和语义标签,把原本稀疏、短文本、噪声较多的广告内容变成可索引的 ad-level representation。论文还强调这一步需要分布式批处理和高吞吐基础设施,因为广告库存规模很大,LLM 处理不能成为在线瓶颈。

Figure 1:LLM Ad to Ad Generator

Figure 1(原文图 1)展示 Ad-to-Ad generator 的核心链路。输入广告 Ad_x 先经过 LLM 生成 candidate retrieval 所需的类别、specific category 和 related category;随后系统计算 Ad_x 与候选广告之间的 relevance scoring,包括 Brand-Product Relevance、Temporal Relevance 和 Personalized Relevance;最后输出带 relevance score 的 related ads。读这张图时要注意,LLM 并不直接给出最终排序,而是把广告语义组织成可以进入检索服务的中间表示。这样的中间表示可以被阈值、去重、质量过滤和后续 ranking model 检查,降低生成式模型不可控输出对投放链路的冲击。

2.2 Contextual category graph 与图遍历

第二步是把 LLM 提取的类别和属性组织成 contextual category graph。广告或类别节点之间可以表示 sub-category、related category 或 contextual relation。图遍历用于从一个广告或上下文出发扩展候选,找到语义相近、属性相关或互补的广告集合。与纯向量近邻相比,图结构更容易审计:节点是什么类别、边代表什么关系、遍历深度和阈值如何设置,都可以被工程团队检查和回滚。

Figure 2:LLM Contextual Category Graph

Figure 2(原文图 2)展示一个简单的上下文类别图。顶层 Category 连接到 Specific Category 1 和 Specific Category 2,两侧再连接 related categories。图里的边既有 has sub category,也有 related to,说明 LLM 输出被转成结构化关系而不是自由文本。对广告推荐而言,这一点很重要:如果 LLM 只是生成一段描述,系统难以判断它是否可以影响候选;如果输出变成类别图,后续就能设置遍历范围、过滤条件和审计规则。这个图也说明候选扩展不是盲目扩大 K,而是在语义邻域中找 baseline 可能遗漏的广告。

2.3 实时候选服务与排序兼容

论文还描述了 real-time candidate retrieval and service layer。LLM 表示和图遍历结果需要进入高吞吐候选服务,并与下游 ranking modules 兼容。实际广告系统里,候选生成只是一层,后续还要经过质量过滤、竞价、预算、频控、审核和个性化排序。因此该方法的价值取决于能否把 LLM 候选作为独立召回路接入,而不是替代已有广告 ranking stack。

3. 实验结果

3.1 评价框架

公开版本使用 open-source text-only Llama3-8B Instruct 作为大模型示例,并在 canonical ad performance metrics、A/A prime predictability 和 online A/B test 方向上评估。论文定义 Recall Alignment Ratio,用来衡量 LLM 候选与 baseline 高质量候选的重合/对齐;定义 Incremental Recall Potential,用来衡量 LLM 候选是否提供 baseline 没覆盖的新语义邻域;还用 Median Absolute Deviation 量化 daily impression relative difference 的波动。

3.2 候选质量:对齐和增量召回要一起看

Table 1:投放性能改进

Table 1(原文表 1)列出不同 Top-K 下的 Recall Alignment Ratio 和 Incremental Recall Potential。Top-5 的 Recall Alignment Ratio 为 0.51X,说明 LLM 召回最靠前的候选与 baseline 高质量候选有较强对齐;随着 K 增大到 200,对齐比例下降到 0.07X,但 Incremental Recall Potential 上升到 1.89Y。这组数字不能简单理解为“大 K 更好”或“小 K 更好”。小 K 高对齐意味着 LLM 在最可信候选上接近已有高质量系统;大 K 增量潜力更高,说明它能补充 baseline 未覆盖的语义相关广告。实际系统需要在两者之间设阈值:前排候选可以更直接进入下游排序,后排增量候选则要经过更严格过滤,避免引入不可投放或商业目标不匹配的广告。

3.3 投放稳定性与 A/A prime predictability

Figure 3:A/A prime 日曝光相对差异

Figure 3(原文图 3)比较 w/o LLM 与 with LLM 时 A/A prime 广告对的 daily impression relative difference。蓝线波动较大,在若干日期出现明显尖峰或低谷;红线更平滑,表示加入 LLM 语义召回后,相似广告对的日曝光差异更可控。这个图支撑的是 predictability,而不是传统意义上的点击率提升。广告系统中,predictability 的业务价值很高:它影响广告主对系统的信任,也影响预算消耗和投放诊断。如果一个方法提升了 recall 却让相似广告每天表现剧烈波动,广告主很难判断素材优化是否有效。该图说明 LLM 语义属性可能帮助系统把轻微 creative 变化映射到更稳定的语义邻域。

3.4 在线结果边界

论文提到在线验证与 top-line A/A difference 的相对下降,但公开版本没有给出完整绝对业务指标和所有线上细节。因此这篇更像工业经验论文,而不是可完全复现实验论文。阅读时应把它的主要证据理解为:LLM 语义候选在候选质量和可预测性上有公开指标支撑;但最终 CTR、CVR、收入、预算消耗和广告主体验仍需要在具体平台环境下验证。

3.5 指标之间可能存在张力

Recall Alignment Ratio、Incremental Recall Potential 和 predictability 三个指标并不总是同向。一个候选生成器可以在 Top-5 与 baseline 高度对齐,却几乎没有增量;也可以在 Top-200 带来很多新候选,却让下游审核和排序压力变大;还可能让 A/A prime 更稳定,但牺牲一部分探索。广告系统必须把这些指标放进同一个决策面:前排候选看质量和可投放性,中后排候选看增量覆盖和过滤成本,稳定性指标看相似广告对的长期表现,而不是单日峰值。论文的表和曲线给出了这种多目标评估框架,但没有完全展开如何在真实系统中设阈值、如何按广告主行业分层、如何处理预算不足或频控导致的曝光差异。

4. 总结

4.1 我的判断

这篇论文的亮点是把 LLM 用在正确位置。它没有宣称 LLM 可以端到端接管广告推荐,而是让 LLM 做离线语义理解、类别图构建和候选扩展。这个位置既能利用 LLM 对 creative 语义的理解,又能保留广告系统对延迟、合规、竞价和预算的控制。

另一个价值是评价指标。Recall Alignment Ratio 和 Incremental Recall Potential 分别回答“LLM 是否能找到 baseline 认为高质量的候选”和“LLM 是否能补充 baseline 没覆盖的候选”;A/A prime daily impression difference 则回答“投放是否更可预测”。这比只报 Recall 或 NDCG 更符合广告系统需求。

4.2 工程启发与复现建议

复现可以从一个独立召回路做起。先让 LLM 对广告 creative 抽取类别、属性、品牌、产品和上下文标签;再构建类别图和 related category 边;接着用图遍历产生候选,并与现有 baseline 候选做交集和增量分析。离线阶段不必马上接入线上排序,可以先看 top-K 对齐、增量覆盖、审核通过率和候选重复率。若这些指标稳定,再把 LLM 召回作为 shadow traffic 召回路观察。

线上前还要加入商业约束。语义相似的广告未必有相同预算、地域、频控、落地页质量或合规状态;LLM 图遍历产生的候选必须经过完整广告链路,而不能只在语义空间里看相似度。建议同时记录 LLM 候选贡献了哪些 baseline 没有的广告、这些广告是否通过审核和竞价、最终是否稳定消耗预算。

4.3 局限与后续跟进

局限方面,第一,公开论文没有开放代码和完整数据,外部复现只能模拟指标而不能复刻 Meta 广告链路。第二,LLM 标签可能固化或放大语义偏见,例如误解创意意图、遗漏细分人群或把商业目标不同的广告连在一起。第三,A/A prime 稳定性改善不等于最终转化或收入提升,还需要预算、竞价和用户反馈闭环验证。第四,LLM 批处理成本、更新频率和标签过期风险没有充分展开,库存变化快时语义图可能滞后。

后续我会关注三点:一是是否有更多 workshop 或工业版本公开绝对线上指标;二是 LLM 语义图与传统广告 taxonomy、审核标签、用户兴趣标签之间如何融合;三是该方法在多语言、多模态 creative 和强冷启动场景下是否仍然保持稳定,而不是只在文本广告或特定平台上有效。

4.4 对推荐系统的迁移边界

这篇论文的思想可以迁移到商品推荐、内容推荐和本地生活推荐,但迁移时要区分“语义相似”和“业务可替代”。商品看起来相似不代表价格、库存、配送、售后和用户预算相同;内容主题相似不代表用户愿意连续消费;本地生活商户类别相同也不代表地理距离、营业时间和优惠可替代。因此 LLM 语义召回最好作为候选扩展,而不是最终决策。工程上可以把 LLM 候选打上来源标记,观察它们在后续排序、审核、转化和用户负反馈中的表现;如果某类语义边经常带来低质量候选,就应调整图遍历权重或直接屏蔽对应 relation。

4.5 隐私、合规与可解释性

广告 creative 和用户行为都可能涉及敏感属性。LLM 抽取标签时如果生成与受保护属性相关的类别,或者把用户画像和广告语义做过细绑定,可能引入合规风险。论文主要讨论稳定性和候选质量,没有深入隐私与公平性。实际部署时需要对 LLM 生成的类别和边做审核,保留可追溯日志,并允许策略团队解释某个广告为什么被扩展到某个候选邻域。可解释性不是给用户展示一段自然语言理由,而是让内部系统能追踪候选来自哪个节点、哪条边、哪个阈值和哪个版本的 LLM 标签。