ICML 2026 推荐、广告与 LLM4Rec 筛选论文汇总

从 ICML 2026 官方列表中核验 35 篇推荐、广告、RAG、Agent、可靠推荐相关论文;有 arXiv 版本的条目优先使用 arXiv abs 入口。

ICML 2026Recommender SystemsLLM4RecAds

ICML 2026 推荐、广告与 LLM4Rec 筛选论文汇总笔记

资料状态说明:本笔记是面向约 30 篇 ICML 2026 相关论文的批量汇总,不是每篇 8000-14000 字的单篇 PDF 精读。事实源为 ICML 2026 官方论文列表、ICML 2026 poster 页面和 arXiv 官方检索;ICML 页面内保留 OpenReview 按钮,但当前 OpenReview forum 页面会跳转登录。本轮未批量下载 PDF,也未裁剪论文图表,因此图表部分只给后续精读计划。

0. 导读

用户给出的标题共 35 篇,经 ICML 2026 官方数据逐一匹配,35 篇均能定位到官方 poster 页面。去重后,本轮新汇总 32 篇;已有完整本地笔记和主页页面的 2 篇不重复生成,分别是 CausalDPO 和 SynGR。CFlower 目前只定位到官方元数据,因全文/PDF 未公开,暂不生成单篇笔记。需要特别说明的是,用户列表中的 “Hyperbolic RQ-VAE enhanced Generative Recommendation with Differential-Length Codebook Strategy” 在 ICML 2026 官方页面对应 HG-Rec,OpenReview ID 为 BpVBWp3PZx;它不是本站已有的 ICLR withdrawn 版本 HypRQ-VAE 笔记,因此本轮作为新论文纳入。

官方入口:ICML 2026 论文列表 https://icml.cc/virtual/2026/papers.html。ICML 页面是 JavaScript 渲染;本轮使用其公开数据文件 icml-2026-orals-posters.jsonicml-2026-abstracts.json 做标题、作者、机构和摘要核验。OpenReview forum 链接当前会跳转登录,因此本轮又用 arXiv 官方 API 按题名检索:高置信匹配到 arXiv 的条目改用 arXiv abs 入口;未匹配到 arXiv 的条目继续保留 ICML 官方 poster 入口。每篇论文在同一输出面只保留一个入口链接。

已有完整笔记与暂缓项

  • Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation:已有本地笔记 东北大学-CausalDPO.md,主页 主页
  • Improving LLM-Based Recommenders with Conservative Generative Flow Networks:全文/PDF 未公开,已删除资料不足版旧笔记,暂不生成主页页面。
  • SynGR: Unleashing the Potential of Cross-Modal Synergy for Generative Recommendation:已有本地笔记 北航-SynGR.md,主页 主页

1. 背景与问题

这批 ICML 2026 论文集中在推荐系统与大模型交叉的几个核心问题:第一,广告与拍卖系统正在受到自动出价和生成式创意的共同影响,模型质量、机制激励、预算约束和 LLM 推理成本需要联合分析;第二,推荐系统的生成式路线继续沿着 semantic ID、LLM 后训练、GFlowNet、偏好优化和合成数据扩展,但分布偏移、reward hacking、长尾编码和 reference policy 质量成为新瓶颈;第三,图推荐仍在重估对比学习、负采样、多行为去噪以及 LLM 语义增强,而多模态推荐也暴露出跨模态协同投毒等安全面;第四,可靠推荐从“更准”转向“可校准、可控、可遗忘、差分隐私、可约束”,这些主题更接近真实平台部署。

从工程角度看,这批论文的共同信号是:推荐系统不再只是一个离线排序模型,而是一个由数据、模型、机制、用户反馈和平台约束共同组成的闭环系统。模型能力提升会改变出价者行为,推荐曝光会反过来改变未来训练数据,偏好优化会利用奖励漏洞,合成数据会影响 scaling law,联邦和隐私约束会改变可观测偏好的形态。因此逐篇阅读时,不能只看指标提升,还要问它控制了什么反馈环、假设了什么数据支持、会不会把历史偏差固化或放大。

2. 核心方法

下面按主题逐篇记录核心问题、方法直觉和工程判断。每条摘要都来自官方标题、作者机构和公开摘要的交叉核验;没有 PDF 的公式、表格和具体数值,本笔记不做伪造。

广告拍卖与机制设计

Autobidding Auctions with LLM-Powered Creatives

  • 机构:中国人民大学 / 清华
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/65017
  • 笔记:把 LLM 创意增强纳入自动出价拍卖,核心变量不再只是 pCTR/pCVR,而是平台是否值得为某些广告实时调用 LLM 生成或增强素材。论文把平台作为 Stackelberg leader,把广告主 autobidder 作为预算约束下的 follower,并显式考虑推理成本。工程上它提示我们:如果素材生成会改变质量分和竞价响应,就不能把 GenAI 当成独立创意工具,而要和拍卖机制、预算消耗、延迟成本一起建模。

Incentivized Exploration with Stochastic Covariates: A Two-Stage Mechanism Design for Recommender System

  • 机构:UCLA / Meta
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/64632
  • 笔记:这篇从推荐系统里的探索激励出发:用户协变量在线随机到达,平台既想探索新商品,又要让自利用户愿意接受推荐。它延续 Bayesian Incentive Compatibility 视角,但不再只处理固定设计线性 bandit,而是设计两阶段机制利用线性结构,在满足激励约束的同时争取次线性 regret。对推荐冷启动和新品探索有价值,因为它把“用户为什么会配合探索”作为机制约束,而不是只靠 ε-greedy 或流量配额。

Model Monotonicity in Autobidding Auctions: When Do Better Predictions Lead to Better Outcomes?

  • 机构:Uber
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/60993
  • 笔记:论文问了广告系统里很关键但常被默认成立的问题:pCTR/pCVR 预测变好后,平台收入、福利或 liquid welfare 一定更好吗?它用 cluster refinement 定义模型改进,再分析不同 auction format 和 autobidder 行为下 ECM 是否单调。工程含义很直接:提升预估 AUC 不等于拍卖目标自动改善,尤其当广告主预算、约束和自动出价策略共同响应模型变化时,离线模型评估必须和机制指标联动。

Risk-Averse and Optimistic Advertiser Incentive Compatibility in Auto-bidding

  • 机构:Google
  • 论文入口(arXiv):https://arxiv.org/abs/2508.16823
  • 笔记:这篇继续讨论 auto-bidding incentive compatibility。既有 AIC 定义要求真实报告的最坏结果不差于任意偏离的最好结果,过于严格;论文引入 risk-averse 与 optimistic 视角,处理存在多个均衡时广告主如何比较真实报告和偏离。对广告平台有两层意义:机制性质要考虑广告主风险偏好;平台给 autobidder 暴露的约束输入也会改变策略性报告空间。

排序、偏好学习与基础模型

Learning to Rank from Incomplete Rankings

  • 机构:Politecnico di Milano
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/65280
  • 笔记:目标是在只有不完整排序反馈时学习 top-k。传统 incomplete ranking 模型常同时假设潜在排序服从 PL/Mallows、缺失机制是 MCAR 等强条件;这篇试图放松这些刚性假设。它适合推荐和搜索反馈,因为真实用户很少给完整排序,更多是局部比较、点击、停留或少量候选偏好。要重点看它如何识别 censoring 机制,以及在稀疏反馈下能否稳定恢复 top-k。

An Efficient Joint Learning Approach for Item Response Theory

  • 机构:IIT Bombay
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/62728
  • 笔记:IRT 在教育、心理测量和推荐里都用于建模用户能力与任务难度。论文针对 Rasch model,指出现有联合 MLE 小数据表现不稳且缺理论保证;相比两阶段估计,它提出更高效的联合学习方式。对推荐的意义在于,用户能力/偏好和 item 难度/吸引力的双边参数估计常见于测评、内容推荐和题目推荐,小样本稳定性会直接影响个性化路径。

An Exterior Method for Nonnegative Matrix Factorization

  • 机构:清华 / UCLA / eBay
  • 论文入口(arXiv):https://arxiv.org/abs/2605.19325
  • 笔记:eNMF 反常规地不在整个优化过程中强制可行,而是先从无约束最优低秩分解出发,再通过旋转把因子映射到最接近非负正交象限的外部点。它批评 interior methods 在非凸地形中可能因约束过强而慢或陷入次优。虽然不是推荐专用,但 NMF 是协同过滤基础模型之一;这个思路提醒我们,先解结构主问题再施加可行性,有时比全程硬约束更有效。

Pseudo-Mallows for Efficient Probabilistic Preference Learning

  • 机构:Cheffelo / University of Oslo / SINTEF
  • 论文入口(arXiv):https://arxiv.org/abs/2205.13911
  • 笔记:Pseudo-Mallows 用一组单变量离散 Mallows-like 分布近似 Bayesian Mallows 后验,以提升高度不完整用户偏好数据下的实时推断可扩展性。Bayesian Mallows 适合推荐中的个人偏好学习,但原始推断不够快。它的价值在于把可解释的概率排序模型推近在线应用;风险是近似质量依赖 factorization order,需要看 variational order 优化是否稳定。

RAG、重排与 Agent 选择

Ranking Free RAG: Replacing Re-ranking with Selection in RAG for Sensitive Domains

  • 机构:UMBC / Liberty Mutual / eBay 等
  • 论文入口(arXiv):https://arxiv.org/abs/2505.16014
  • 笔记:提出 METEORA,用 rationale-driven selection 替代黑盒相似度 top-k 加 reranking。敏感领域 RAG 的问题不是只要召回更多文档,而是需要解释“为什么选这些证据”,并抵抗数据投毒。方法通过偏好调优 LLM 生成证据需求 rationale,再做自适应选择。它适合医疗、保险、合规问答等场景:证据选择本身要可审计,不能只输出相似度分数。

Very Efficient Listwise Multimodal Reranking for Long Documents

  • 机构:MTRI / PRAII Foundation
  • 论文入口(arXiv):https://arxiv.org/abs/2605.11864
  • 笔记:提出 ZipRerank,目标是长文档、多模态检索和 M-RAG 中的高效 listwise reranking。它同时压缩长视觉 token 输入,并避免自回归多步生成,通过单次 forward 给候选集合打分。这个方向很实用:VLM reranker 准确但慢,尤其长文档截图、页面或 PDF 场景延迟很高。ZipRerank 的关键看点是 early query-image interaction 如何保留证据,以及文本预训练到视觉文档的迁移效果。

AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation

  • 机构:UTS / Rutgers / 阿里等
  • 论文入口(arXiv):https://arxiv.org/abs/2603.03761
  • 笔记:AgentSelect 把“选哪个 LLM agent 配置”表述为 query-to-agent recommendation。现有排行榜多评模型或工具组件,缺少面向用户叙述请求的端到端 agent 选择监督;这篇构造 capability profiles 和候选配置,把 backbone model 与 toolkit 组合纳入推荐。它更接近未来 agent marketplace 的检索排序问题:用户给自然语言任务,系统推荐可执行 agent,而非只推荐单个模型。

图推荐与多模态安全

CCLRec: Consensus-driven Contrastive Learning for LLM-enhanced Graph Recommendation

  • 机构:中北大学 / 哈工大 / Penn State 等
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/65594
  • 笔记:CCLRec 针对 LLM 增强图推荐里的“结构邻近”和“语义相关”监督断裂。GNN 擅长高阶 user-item 交互,LLM 能提供语义推理,但很多方法把二者分开处理,导致结构表示和语义知识不一致。论文用 consensus-driven contrastive learning 让图结构和 LLM 语义形成共识监督。实践上应关注它如何构造正负样本:如果共识定义不稳,LLM 语义可能反过来污染协同信号。

VENOMREC: Cross-Modal Interactive Poisoning for Targeted Promotion in Multimodal LLM Recommender Systems

  • 机构:NTU / 北航 / 阿里等
  • 论文入口(arXiv):https://arxiv.org/abs/2602.06409
  • 笔记:VENOMREC 把多模态 LLM 推荐的安全面拆开:跨模态共识能缓解单模态或交互日志投毒,但同步多模态投毒会沿稳定语义方向操控融合表示。论文提出 Exposure Alignment 找高曝光区域,再做 Cross-modal Interactive Perturbation 实现目标推广。它对多模态推荐上线很重要,因为攻击者不一定只改图像或文本,而可能协同改标题、图片、描述和交互诱导。

图推荐与多行为学习

GCIB: Graph Contrastive Information Bottleneck for Multi-Behavior Recommendation

  • 机构:天津大学 / 安徽大学
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/62097
  • 笔记:多行为推荐常借助点击、收藏、加购等辅助图缓解目标行为稀疏,但辅助行为里有大量噪声和与目标无关的交互。GCIB 用图对比信息瓶颈同时做辅助行为去噪和目标行为表示增强。这个问题非常工程化:辅助行为不是越多越好,核心是哪些跨行为信号对目标任务有充分信息且不过拟合噪声。要看它的瓶颈约束能否在稀疏目标行为下稳定工作。

图推荐与负采样

Negative Sampling From the Ground Up: A Redesign for Graph-based Recommendations

  • 机构:Cornell / Meta
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/61482
  • 笔记:负采样是图推荐训练的基础组件,但常被经验规则支配。论文把重点从手工设计 negative distribution 转向逼近潜在“真实”负分布,提出更原则化的负采样方案。它的价值在于提醒推荐模型的很多收益来自训练分布,而不是模型结构本身。实际复现要看 oracle-like true negative 如何近似,以及该分布是否会把未曝光但潜在喜欢的 item 错当负样本。

图推荐与对比学习

Rethinking Contrastive Learning for Graph Collaborative Filtering: Limitations and A Simple Remedy

  • 机构:KAIST
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/60957
  • 笔记:论文展开 GCF 的预测机制,指出用户-物品分数实质上聚合了多跳邻居对的可学习权重;因此 CL/SSM 是否有效,取决于训练时上调了哪些邻居对。作者发现有效推荐依赖选择性提升 informative neighbor pairs,而不是一般意义上的图增强对比。它可能给 LightGCN 系列训练目标一个更细粒度解释:不要只问用不用 CL,要问 CL 在优化哪些路径。

个性化对齐与生成式推荐

Federated Variational Preference Alignment with Gumbel-Softmax Prior for Personalized User Preferences

  • 机构:POSTECH / National AI Research Lab
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/62725
  • 笔记:FedVPA-GP 处理联邦 LLM 对齐中的偏好异质性。传统 FL 往往学习单一 reward model,把 helpfulness、harmlessness 等冲突偏好平均化;VPL 可个性化但在本地数据稀疏和异构下容易 posterior collapse。论文用 Gumbel-Softmax prior 来解缠不同偏好。它和推荐系统相关之处在于:个性化偏好不是单点标签,隐私约束下更需要保留多种可能偏好而非全局平均。

Mitigating Reward Hacking in LLM-based Recommendation: A Preference Optimization Approach

  • 机构:中国科学技术大学
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/66384
  • 笔记:论文指出 LLM 推荐的偏好优化会 reward hacking:训练指标上升,但真实推荐排序没改善。它从梯度角度定义 epsilon-insensitive region,说明 pairwise updates 可能无法改变正样本与未采样负样本的排序;再在 Bradley-Terry 框架下分析问题。工程启发是,DPO 类目标不能只看 pairwise loss 下降,需要同时监控全候选排序、未采样负例和在线目标,否则模型可能学会利用奖励缺陷。

Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation

  • 机构:Meta
  • 论文入口(arXiv):https://arxiv.org/abs/2602.07298
  • 笔记:这篇把推荐 LLM 的 scaling law 问题归因于原始交互数据噪声、偏差和不完整,提出分层 synthetic data curriculum。若结论成立,它说明 LLM4Rec 的可预测扩展不一定来自更多日志,而来自更干净、可教学的数据生成。实际价值在资源规划:模型规模、数据规模和任务质量之间如果有稳定 scaling law,团队可以更理性地决定继续堆模型、清洗数据还是做合成课程。

生成式推荐与 Semantic ID

Hyperbolic RQ-VAE enhanced Generative Recommendation with Differential-Length Codebook Strategy

  • 机构:南京大学 / 南京邮电大学
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/65614
  • 笔记:官方标题对应 HG-Rec,不是本地已有 ICLR withdrawn 的 HypRQ-VAE 笔记。它同样把 RQ-VAE 放进双曲空间,但摘要强调两点:显式建模 codebook 层级关系,以及利用双曲空间指数体积增长设计 differential-length/pyramidal codebook,压缩 codebook size 并提升利用率。对生成式推荐来说,这是 semantic ID tokenizer 方向的新变体,重点看可变码本长度是否比固定每层等宽 codebook 更适合树状 item 目录。

隐私、联邦与不确定性

Beyond Single Embedding: Modeling User Preferences as Distribution in Federated Recommendation

  • 机构:吉林大学 / UTS
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/65849
  • 笔记:联邦推荐中每个客户端只看到有限且碎片化的本地行为,用单个 user embedding 表示偏好会过度确定。论文把用户偏好建模为分布,让多个兼容偏好表示共存,以保留不确定性和多样性。这个视角适合跨端、跨 silo 推荐:隐私限制下观测少,不应把偏好压成一个点;后续排序可以显式考虑方差、置信区间和探索价值。

Differentially Private Cross-Silo Recommendation from Implicit Feedback

  • 机构:香港理工 / 香港浸会
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/64111
  • 笔记:这篇处理隐式反馈跨 silo 推荐的差分隐私。隐式反馈是一类、稀疏、敏感的数据,不能像显式评分那样直接套用已有 DP 方法。论文目标是在多方数据不可集中时训练协同模型,同时提供隐私保护。工程重点会是隐式负样本、缺失非随机和 DP 噪声之间的冲突:隐私越强,稀疏反馈越难学,必须看效用损失和通信/计算成本。

Obliviate: Efficient Unlearning in Recommender Systems

  • 机构:Sony Research India / IIT Roorkee 等
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/64974
  • 笔记:Obliviate 是推荐系统机器遗忘框架,目标是在删除指定交互及其影响时避免全量重训,同时保留推荐质量。它采用两阶段 unlearning,应对既有方法在完整性、可扩展性、效用和内存开销上的权衡。合规价值很高:推荐模型直接训练用户行为,删除请求不能只删日志,还要处理模型参数和下游影响。重点看可验证遗忘程度如何定义。

可靠推荐与校准

CARE: Adaptive Calibration for Reliable Recommendations

  • 机构:University of Technology Sydney
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/62132
  • 笔记:CARE 是包裹任意 backbone recommender 的自适应校准框架,输出可变大小推荐集合,并在交互流上提供有限样本性能保证。它包含基于损失的行为变化监控和在线聚合阈值重校准。应用场景是离线训练、线上固定参数的模型遇到用户行为漂移。相比频繁重训,CARE 更像一层可靠性外壳:检测分布变了就调整输出集合与阈值。

CORAL: Uncertainty-Aware Regulation of Exposure Concentration in Recommender Systems

  • 机构:University of Technology Sydney
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/63919
  • 笔记:CORAL 处理反馈驱动的 exposure concentration:系统反复优化 engagement,曝光坍缩到少数类别,长期覆盖和学习质量下降。它把曝光调控建模为带约束的序列决策,并用不确定性感知风险估计控制 category-level saturation。工程上这比后处理多样性更前置,因为它承认曝光会反过来塑造未来数据分布。关键看点是 UCB 风险界如何避免过度保守。

可控推荐与即时编辑

CRAMER: Control via Request-Aware Masking for Editing Recommenders

  • 机构:中国人民大学 / Dalhousie
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/62968
  • 笔记:CRAMER 让序列推荐模型响应用户即时自然语言请求,但不重训整网,也不依赖大 LLM prompt 推理。它用 request-aware masking 来编辑 recommender,使推荐能立即适配“我现在想要更便宜/更轻量/更正式”这类短期意图。工程上它介于传统序列推荐和 LLM agent 推荐之间:保留大规模服务效率,同时给用户请求一个可控入口。

自进化与合成数据

Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control

  • 机构:中国科学技术大学 / 华为
  • 论文入口(arXiv):https://arxiv.org/abs/2602.15659
  • 笔记:RSIR 用闭环自举缓解推荐训练数据稀缺:当前模型生成可能的用户交互序列,fidelity control 过滤与用户近似偏好流形一致的样本,再训练后继模型。它不依赖外部 teacher 或新数据。价值在于把推荐里的 self-training 做成受控递归过程;风险也明显,如果 fidelity 过滤不强,自生成数据会放大模型偏差并形成 self-consuming loop。

冷启动与偏好先验

Cold-Start Personalization via Training-Free Priors from Structured World Models

  • 机构:University of Washington / Meta FAIR / Ai2 等
  • 论文入口(arXiv):https://arxiv.org/abs/2602.15012
  • 笔记:PEP 认为冷启动个性化可利用跨人群偏好结构:例如重视详细解释的人往往也重视 worked examples。系统从结构化 world model 获得偏好相关先验,在极少交互下做 preference elicitation,而且强调 training-free decomposition。对推荐很实用,因为冷启动不是没有信息,而是缺用户特定历史;合理先验能减少提问次数和探索成本。

约束推荐与社会目标

Eating for a Sustainable Planet: Personalized Sustainable Diet Recommendation via Constraint-Aware Decision-Making Modeling

  • 机构:中科院计算所 / UCAS
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/61621
  • 笔记:这篇把可持续饮食推荐建成多约束个性化决策:营养充足、经济可负担、文化可接受、环境友好,同时适配个体偏好差异。它不是纯粹的点击推荐,而是把可学习约束并入 decision-making。对推荐系统很有启发:当目标涉及健康、环境或合规时,推荐结果必须满足约束集合,不能只做相关性排序。

跨域推荐与几何表示

HVAE: Hyperbolic Variational Autoencoder For Flexible Knowledge Transfer Across Multiple Domains

  • 机构:阿里 / 蚂蚁 / 中国海洋大学
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/61457
  • 笔记:HVAE 针对跨域推荐中的几何错配:真实 user-item 交互常有幂律和层级结构,欧氏 embedding 难以低失真表示,也妨碍 domain-invariant preference 与 domain-specific interest 解缠。它用双曲 VAE 做灵活知识迁移。可与 HG-Rec 对照:一个关注跨域用户偏好迁移,一个关注生成式推荐的 item semantic ID;共同趋势是用非欧几何表达推荐长尾和层级。

强化学习与主动推荐

ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation

  • 机构:复旦大学
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/61903
  • 笔记:Proactive Recommender Systems 要通过中间推荐路径引导用户偏好转移到目标 item。朴素 policy gradient 存在两类问题:长度依赖偏差让梯度偏向延长路径,path-level reward 加权每一步导致高方差。ProRL 用 rectified policy gradient 修正。它适合教育、内容消费、健康行为等“推荐不只是满足当前偏好,还要引导长期目标”的场景,但也要警惕操控性与用户自主权风险。

高效推荐模型结构

Sparse by Design: Relevance-Driven Scaling for Recommender Systems

  • 机构:Meta
  • 论文入口(ICML 官方):https://icml.cc/virtual/2026/poster/66202
  • 笔记:论文讨论把 Sparse MoE 用到推荐时为什么不如语言模型自然:token-level routing 与 user-item relevance prediction 不匹配,推荐相关性来自分布式、多阶段交互,而不是单一路由路径。它提出 relevance-driven scaling,让稀疏计算围绕相关性信号设计。对工业推荐很关键:MoE 不是直接照搬 LLM 架构,路由粒度、专家职责和训练目标都要重新适配推荐。

3. 图表解读

本轮没有生成图表截图,原因是任务规模是 35 篇批量筛选汇总,而不是单篇 PDF 精读。虽然 OpenReview 入口通常可以进一步取得 PDF,但逐篇下载、定位 Figure/Table、按坐标裁剪并写 8000 字以上精读,会变成 32 个独立手动论文任务;这会显著超出本次“汇总成笔记”的目标。

后续若要把其中论文升级为单篇精读,优先截图顺序建议如下:广告拍卖类先抓机制流程图、均衡/单调性定理表和实验 trade-off;生成式推荐类先抓 semantic ID/tokenizer 架构、后训练目标和主结果表;图推荐类先抓模型框架、正负样本/信息瓶颈构造和消融;可靠推荐类先抓在线反馈闭环、校准/约束模块和风险-效用曲线。最值得优先精读的图表对象是 HG-Rec、Reward Hacking in LLM-based Recommendation、Sparse by Design、VENOMREC、CARE/CORAL、Autobidding Auctions with LLM-Powered Creatives。

4. 实验与结果

从摘要层能确认的结果类型大致分为四类。第一类是理论或机制结果,例如 model monotonicity、auto-bidding incentive compatibility、incentivized exploration、pseudo-Mallows 和 IRT 估计。这类论文的结果不一定是推荐指标提升,而是刻画何时激励、单调性、近似后验或估计保证成立。第二类是离线推荐 benchmark 结果,例如 CCLRec、GCIB、HG-Rec、HVAE、ProRL、Sparse by Design,通常会报告 Recall/NDCG/HR、长尾分桶或效率指标。第三类是系统 trade-off,例如 ZipRerank 的延迟与准确率、CARE/CORAL 的保证与集合大小/曝光风险、DP cross-silo 的隐私预算与效用。第四类是安全和鲁棒性,例如 VENOMREC 的目标推广攻击成功率、reward hacking 论文里的训练指标与真实排序脱钩。

当前不写具体数值,除非已有单篇笔记已核验。原因是 ICML 摘要通常只描述相对改善,不完整公开数据集、baseline、显著性检验和超参数。对这批论文的初筛排序,我会按“是否改变推荐系统闭环假设”来判断优先级,而不是按摘要里的提升幅度:如果论文处理了机制激励、离线支持集、reward hacking、曝光反馈、隐私/遗忘或 MoE 路由这类部署时绕不开的问题,即使摘要指标尚不完整,也值得进入下一轮 PDF 精读。

5. 我的理解

这批论文最强的主线不是“LLM 可以改进推荐”,而是“LLM 进入推荐之后,原来被隐藏在系统里的约束重新变成一等问题”。例如 LLM 创意增强会消耗推理成本并改变拍卖质量分,不能只按生成质量评价;LLM 推荐的 DPO/GFlowNet 会遇到离线支持集和 reward hacking,不能只看 pairwise preference loss;多模态 LLM 推荐把视觉和文本融合后,攻击者也可以跨模态协同投毒;Agent 推荐则把推荐对象从 item 扩展到“模型加工具配置”。

另一个明显趋势是,推荐模型的表示空间正在从单点、欧氏、静态,转向分布化、双曲、可变长度和不确定性感知。HG-Rec、HVAE、Beyond Single Embedding、CARE、CORAL、FedVPA-GP 都在不同层面表达同一件事:用户偏好、item 层级、跨域迁移和线上行为漂移都不是一个固定向量能充分描述的。推荐系统如果继续把不确定性压扁成单个 embedding 或单个分数,就会在冷启动、长尾、隐私和反馈闭环里付出代价。

我会把这批论文分成两类阅读优先级。第一类是短期工程可试:ZipRerank、CRAMER、CARE、CORAL、Negative Sampling、Sparse by Design、Obliviate。它们比较容易落到现有链路的 rerank、mask/edit、校准层、采样器、MoE/routing 或遗忘模块。第二类是中长期框架:Autobidding + LLM creatives、HG-Rec/HVAE、Reward Hacking、Synthetic Scaling Laws、AgentSelect、VENOMREC。这些工作需要改变系统评估方式或训练数据构造,不适合直接作为一个小模块上线,但会影响下一代推荐平台的设计。

6. 工程启发与复现建议

如果要从这 32 篇里选择 5 篇进入单篇精读,我建议优先看:Sparse by DesignMitigating Reward Hacking in LLM-based RecommendationHyperbolic RQ-VAE enhanced Generative Recommendation with Differential-Length Codebook StrategyVENOMRECAutobidding Auctions with LLM-Powered Creatives。这五篇分别覆盖大模型推荐结构、后训练可靠性、semantic ID/tokenizer、多模态安全、广告机制与生成式创意,是最能影响推荐系统架构判断的组合。

复现时建议先建立一个统一评估表,而不是逐篇照代码跑。表里至少包含:数据支持假设、是否需要在线探索、是否依赖 LLM 生成或 VLM 输入、是否改变 item/user 表示、是否引入机制约束、是否有隐私或安全假设、主要指标、次要 trade-off、可上线位置、失败模式。这样可以把理论论文、系统论文和推荐 benchmark 放在同一张工程地图上比较。

对 LLM4Rec 方向,建议特别补三个评估维度。第一是未采样负例和全候选排序,避免 DPO 或 pairwise loss reward hacking。第二是支持集外生成率,尤其是 semantic ID 或 token-prefix DAG 生成时,统计模型落到非法、未支持或低置信区域的概率。第三是头部/尾部与曝光分布,避免 synthetic data、GFlowNet、双曲 tokenizer 或 MoE routing 在平均指标上提升,却把长尾、冷启动或内容生态问题转移到其他环节。

7. 局限与风险

1. 本笔记是摘要级批量汇总,未下载 32 篇新论文 PDF,未核验公式、完整实验表、附录和代码仓库。

2. ICML 2026 官方页面在 2026-05-21 已公开 poster/OpenReview 元数据,但后续作者可能更新 PDF、代码、项目页或机构信息;单篇精读时需要重新核验。

3. 对于理论论文,本笔记只概括问题和结论方向,不能替代证明阅读;机制设计和激励兼容的适用条件尤其需要看完整假设。

4. 对于推荐 benchmark 论文,本笔记不写数值提升,避免从摘要推断实验强度;真正排序优先级还要看主表、消融和训练成本。

5. 对已有重复论文,本轮按“已有完整笔记”跳过;对 CFlower 这类只有官方元数据、缺少全文/PDF 的论文,不再标记为已有完整笔记,也不保留资料不足版页面。

6. 批量汇总天然会压缩细节,一些论文的创新点可能藏在公式或附录里;如果要做研究引用,需要回到原文。

8. 后续跟进

1. 把 HG-Rec 单独做成精读,因为它与本站旧 HypRQ-VAE 笔记主题相近但不是同一篇,适合对比双曲 RQ-VAE、可变长度 codebook 和长尾 semantic ID。

2. 等 CFlower 全文/PDF 公开后再单独生成精读笔记;当前不保留资料不足版页面。

3. 从广告拍卖组里挑 2 篇做机制专题:LLM creatives 的推理成本如何进入 Stackelberg auction,以及 model monotonicity 何时不成立。

4. 从可靠推荐组里挑 CARE、CORAL、Obliviate 做部署专题:校准、曝光集中和机器遗忘分别对应线上推荐的三个治理层。

5. 对多模态与 Agent 方向跟踪 VENOMREC、ZipRerank、AgentSelect:它们分别代表安全、效率和“推荐对象从 item 到 agent 配置”的扩展。