ICML 2026 推荐、广告与 LLM4Rec 筛选论文汇总笔记

资料状态说明：本笔记是面向约 30 篇 ICML 2026 相关论文的批量汇总，不是每篇 8000-14000 字的单篇 PDF 精读。事实源为 ICML 2026 官方论文列表、ICML 2026 poster 页面和 arXiv 官方检索；ICML 页面内保留 OpenReview 按钮，但当前 OpenReview forum 页面会跳转登录。本轮未批量下载 PDF，也未裁剪论文图表，因此图表部分只给后续精读计划。

0. 导读

用户给出的标题共 35 篇，经 ICML 2026 官方数据逐一匹配，35 篇均能定位到官方 poster 页面。去重后，本轮新汇总 32 篇；已有完整本地笔记和主页页面的 2 篇不重复生成，分别是 CausalDPO 和 SynGR。CFlower 目前只定位到官方元数据，因全文/PDF 未公开，暂不生成单篇笔记。需要特别说明的是，用户列表中的 “Hyperbolic RQ-VAE enhanced Generative Recommendation with Differential-Length Codebook Strategy” 在 ICML 2026 官方页面对应 HG-Rec，OpenReview ID 为 BpVBWp3PZx；它不是本站已有的 ICLR withdrawn 版本 HypRQ-VAE 笔记，因此本轮作为新论文纳入。

官方入口：ICML 2026 论文列表 https://icml.cc/virtual/2026/papers.html。ICML 页面是 JavaScript 渲染；本轮使用其公开数据文件 icml-2026-orals-posters.json 与 icml-2026-abstracts.json 做标题、作者、机构和摘要核验。OpenReview forum 链接当前会跳转登录，因此本轮又用 arXiv 官方 API 按题名检索：高置信匹配到 arXiv 的条目改用 arXiv abs 入口；未匹配到 arXiv 的条目继续保留 ICML 官方 poster 入口。每篇论文在同一输出面只保留一个入口链接。

已有完整笔记与暂缓项

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation：已有本地笔记 东北大学-CausalDPO.md，主页主页。
Improving LLM-Based Recommenders with Conservative Generative Flow Networks：全文/PDF 未公开，已删除资料不足版旧笔记，暂不生成主页页面。
SynGR: Unleashing the Potential of Cross-Modal Synergy for Generative Recommendation：已有本地笔记 北航-SynGR.md，主页主页。

1. 背景与问题

这批 ICML 2026 论文集中在推荐系统与大模型交叉的几个核心问题：第一，广告与拍卖系统正在受到自动出价和生成式创意的共同影响，模型质量、机制激励、预算约束和 LLM 推理成本需要联合分析；第二，推荐系统的生成式路线继续沿着 semantic ID、LLM 后训练、GFlowNet、偏好优化和合成数据扩展，但分布偏移、reward hacking、长尾编码和 reference policy 质量成为新瓶颈；第三，图推荐仍在重估对比学习、负采样、多行为去噪以及 LLM 语义增强，而多模态推荐也暴露出跨模态协同投毒等安全面；第四，可靠推荐从“更准”转向“可校准、可控、可遗忘、差分隐私、可约束”，这些主题更接近真实平台部署。

从工程角度看，这批论文的共同信号是：推荐系统不再只是一个离线排序模型，而是一个由数据、模型、机制、用户反馈和平台约束共同组成的闭环系统。模型能力提升会改变出价者行为，推荐曝光会反过来改变未来训练数据，偏好优化会利用奖励漏洞，合成数据会影响 scaling law，联邦和隐私约束会改变可观测偏好的形态。因此逐篇阅读时，不能只看指标提升，还要问它控制了什么反馈环、假设了什么数据支持、会不会把历史偏差固化或放大。

2. 核心方法

下面按主题逐篇记录核心问题、方法直觉和工程判断。每条摘要都来自官方标题、作者机构和公开摘要的交叉核验；没有 PDF 的公式、表格和具体数值，本笔记不做伪造。

广告拍卖与机制设计

Autobidding Auctions with LLM-Powered Creatives

机构：中国人民大学 / 清华
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/65017
笔记：把 LLM 创意增强纳入自动出价拍卖，核心变量不再只是 pCTR/pCVR，而是平台是否值得为某些广告实时调用 LLM 生成或增强素材。论文把平台作为 Stackelberg leader，把广告主 autobidder 作为预算约束下的 follower，并显式考虑推理成本。工程上它提示我们：如果素材生成会改变质量分和竞价响应，就不能把 GenAI 当成独立创意工具，而要和拍卖机制、预算消耗、延迟成本一起建模。

Incentivized Exploration with Stochastic Covariates: A Two-Stage Mechanism Design for Recommender System

机构：UCLA / Meta
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/64632
笔记：这篇从推荐系统里的探索激励出发：用户协变量在线随机到达，平台既想探索新商品，又要让自利用户愿意接受推荐。它延续 Bayesian Incentive Compatibility 视角，但不再只处理固定设计线性 bandit，而是设计两阶段机制利用线性结构，在满足激励约束的同时争取次线性 regret。对推荐冷启动和新品探索有价值，因为它把“用户为什么会配合探索”作为机制约束，而不是只靠 ε-greedy 或流量配额。

Model Monotonicity in Autobidding Auctions: When Do Better Predictions Lead to Better Outcomes?

机构：Uber
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/60993
笔记：论文问了广告系统里很关键但常被默认成立的问题：pCTR/pCVR 预测变好后，平台收入、福利或 liquid welfare 一定更好吗？它用 cluster refinement 定义模型改进，再分析不同 auction format 和 autobidder 行为下 ECM 是否单调。工程含义很直接：提升预估 AUC 不等于拍卖目标自动改善，尤其当广告主预算、约束和自动出价策略共同响应模型变化时，离线模型评估必须和机制指标联动。

Risk-Averse and Optimistic Advertiser Incentive Compatibility in Auto-bidding

机构：Google
论文入口（arXiv）：https://arxiv.org/abs/2508.16823
笔记：这篇继续讨论 auto-bidding incentive compatibility。既有 AIC 定义要求真实报告的最坏结果不差于任意偏离的最好结果，过于严格；论文引入 risk-averse 与 optimistic 视角，处理存在多个均衡时广告主如何比较真实报告和偏离。对广告平台有两层意义：机制性质要考虑广告主风险偏好；平台给 autobidder 暴露的约束输入也会改变策略性报告空间。

排序、偏好学习与基础模型

Learning to Rank from Incomplete Rankings

机构：Politecnico di Milano
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/65280
笔记：目标是在只有不完整排序反馈时学习 top-k。传统 incomplete ranking 模型常同时假设潜在排序服从 PL/Mallows、缺失机制是 MCAR 等强条件；这篇试图放松这些刚性假设。它适合推荐和搜索反馈，因为真实用户很少给完整排序，更多是局部比较、点击、停留或少量候选偏好。要重点看它如何识别 censoring 机制，以及在稀疏反馈下能否稳定恢复 top-k。

An Efficient Joint Learning Approach for Item Response Theory

机构：IIT Bombay
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/62728
笔记：IRT 在教育、心理测量和推荐里都用于建模用户能力与任务难度。论文针对 Rasch model，指出现有联合 MLE 小数据表现不稳且缺理论保证；相比两阶段估计，它提出更高效的联合学习方式。对推荐的意义在于，用户能力/偏好和 item 难度/吸引力的双边参数估计常见于测评、内容推荐和题目推荐，小样本稳定性会直接影响个性化路径。

An Exterior Method for Nonnegative Matrix Factorization

机构：清华 / UCLA / eBay
论文入口（arXiv）：https://arxiv.org/abs/2605.19325
笔记：eNMF 反常规地不在整个优化过程中强制可行，而是先从无约束最优低秩分解出发，再通过旋转把因子映射到最接近非负正交象限的外部点。它批评 interior methods 在非凸地形中可能因约束过强而慢或陷入次优。虽然不是推荐专用，但 NMF 是协同过滤基础模型之一；这个思路提醒我们，先解结构主问题再施加可行性，有时比全程硬约束更有效。

Pseudo-Mallows for Efficient Probabilistic Preference Learning

机构：Cheffelo / University of Oslo / SINTEF
论文入口（arXiv）：https://arxiv.org/abs/2205.13911
笔记：Pseudo-Mallows 用一组单变量离散 Mallows-like 分布近似 Bayesian Mallows 后验，以提升高度不完整用户偏好数据下的实时推断可扩展性。Bayesian Mallows 适合推荐中的个人偏好学习，但原始推断不够快。它的价值在于把可解释的概率排序模型推近在线应用；风险是近似质量依赖 factorization order，需要看 variational order 优化是否稳定。

RAG、重排与 Agent 选择

Ranking Free RAG: Replacing Re-ranking with Selection in RAG for Sensitive Domains

机构：UMBC / Liberty Mutual / eBay 等
论文入口（arXiv）：https://arxiv.org/abs/2505.16014
笔记：提出 METEORA，用 rationale-driven selection 替代黑盒相似度 top-k 加 reranking。敏感领域 RAG 的问题不是只要召回更多文档，而是需要解释“为什么选这些证据”，并抵抗数据投毒。方法通过偏好调优 LLM 生成证据需求 rationale，再做自适应选择。它适合医疗、保险、合规问答等场景：证据选择本身要可审计，不能只输出相似度分数。

Very Efficient Listwise Multimodal Reranking for Long Documents

机构：MTRI / PRAII Foundation
论文入口（arXiv）：https://arxiv.org/abs/2605.11864
笔记：提出 ZipRerank，目标是长文档、多模态检索和 M-RAG 中的高效 listwise reranking。它同时压缩长视觉 token 输入，并避免自回归多步生成，通过单次 forward 给候选集合打分。这个方向很实用：VLM reranker 准确但慢，尤其长文档截图、页面或 PDF 场景延迟很高。ZipRerank 的关键看点是 early query-image interaction 如何保留证据，以及文本预训练到视觉文档的迁移效果。

AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation

机构：UTS / Rutgers / 阿里等
论文入口（arXiv）：https://arxiv.org/abs/2603.03761
笔记：AgentSelect 把“选哪个 LLM agent 配置”表述为 query-to-agent recommendation。现有排行榜多评模型或工具组件，缺少面向用户叙述请求的端到端 agent 选择监督；这篇构造 capability profiles 和候选配置，把 backbone model 与 toolkit 组合纳入推荐。它更接近未来 agent marketplace 的检索排序问题：用户给自然语言任务，系统推荐可执行 agent，而非只推荐单个模型。

图推荐与多模态安全

CCLRec: Consensus-driven Contrastive Learning for LLM-enhanced Graph Recommendation

机构：中北大学 / 哈工大 / Penn State 等
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/65594
笔记：CCLRec 针对 LLM 增强图推荐里的“结构邻近”和“语义相关”监督断裂。GNN 擅长高阶 user-item 交互，LLM 能提供语义推理，但很多方法把二者分开处理，导致结构表示和语义知识不一致。论文用 consensus-driven contrastive learning 让图结构和 LLM 语义形成共识监督。实践上应关注它如何构造正负样本：如果共识定义不稳，LLM 语义可能反过来污染协同信号。

机构：NTU / 北航 / 阿里等
论文入口（arXiv）：https://arxiv.org/abs/2602.06409
笔记：VENOMREC 把多模态 LLM 推荐的安全面拆开：跨模态共识能缓解单模态或交互日志投毒，但同步多模态投毒会沿稳定语义方向操控融合表示。论文提出 Exposure Alignment 找高曝光区域，再做 Cross-modal Interactive Perturbation 实现目标推广。它对多模态推荐上线很重要，因为攻击者不一定只改图像或文本，而可能协同改标题、图片、描述和交互诱导。

图推荐与多行为学习

GCIB: Graph Contrastive Information Bottleneck for Multi-Behavior Recommendation

机构：天津大学 / 安徽大学
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/62097
笔记：多行为推荐常借助点击、收藏、加购等辅助图缓解目标行为稀疏，但辅助行为里有大量噪声和与目标无关的交互。GCIB 用图对比信息瓶颈同时做辅助行为去噪和目标行为表示增强。这个问题非常工程化：辅助行为不是越多越好，核心是哪些跨行为信号对目标任务有充分信息且不过拟合噪声。要看它的瓶颈约束能否在稀疏目标行为下稳定工作。

图推荐与负采样

Negative Sampling From the Ground Up: A Redesign for Graph-based Recommendations

机构：Cornell / Meta
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/61482
笔记：负采样是图推荐训练的基础组件，但常被经验规则支配。论文把重点从手工设计 negative distribution 转向逼近潜在“真实”负分布，提出更原则化的负采样方案。它的价值在于提醒推荐模型的很多收益来自训练分布，而不是模型结构本身。实际复现要看 oracle-like true negative 如何近似，以及该分布是否会把未曝光但潜在喜欢的 item 错当负样本。

图推荐与对比学习

Rethinking Contrastive Learning for Graph Collaborative Filtering: Limitations and A Simple Remedy

机构：KAIST
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/60957
笔记：论文展开 GCF 的预测机制，指出用户-物品分数实质上聚合了多跳邻居对的可学习权重；因此 CL/SSM 是否有效，取决于训练时上调了哪些邻居对。作者发现有效推荐依赖选择性提升 informative neighbor pairs，而不是一般意义上的图增强对比。它可能给 LightGCN 系列训练目标一个更细粒度解释：不要只问用不用 CL，要问 CL 在优化哪些路径。

个性化对齐与生成式推荐

Federated Variational Preference Alignment with Gumbel-Softmax Prior for Personalized User Preferences

机构：POSTECH / National AI Research Lab
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/62725
笔记：FedVPA-GP 处理联邦 LLM 对齐中的偏好异质性。传统 FL 往往学习单一 reward model，把 helpfulness、harmlessness 等冲突偏好平均化；VPL 可个性化但在本地数据稀疏和异构下容易 posterior collapse。论文用 Gumbel-Softmax prior 来解缠不同偏好。它和推荐系统相关之处在于：个性化偏好不是单点标签，隐私约束下更需要保留多种可能偏好而非全局平均。

Mitigating Reward Hacking in LLM-based Recommendation: A Preference Optimization Approach

机构：中国科学技术大学
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/66384
笔记：论文指出 LLM 推荐的偏好优化会 reward hacking：训练指标上升，但真实推荐排序没改善。它从梯度角度定义 epsilon-insensitive region，说明 pairwise updates 可能无法改变正样本与未采样负样本的排序；再在 Bradley-Terry 框架下分析问题。工程启发是，DPO 类目标不能只看 pairwise loss 下降，需要同时监控全候选排序、未采样负例和在线目标，否则模型可能学会利用奖励缺陷。

Principled Synthetic Data Enables the First Scaling Laws for LLMs in Recommendation

机构：Meta
论文入口（arXiv）：https://arxiv.org/abs/2602.07298
笔记：这篇把推荐 LLM 的 scaling law 问题归因于原始交互数据噪声、偏差和不完整，提出分层 synthetic data curriculum。若结论成立，它说明 LLM4Rec 的可预测扩展不一定来自更多日志，而来自更干净、可教学的数据生成。实际价值在资源规划：模型规模、数据规模和任务质量之间如果有稳定 scaling law，团队可以更理性地决定继续堆模型、清洗数据还是做合成课程。

生成式推荐与 Semantic ID

Hyperbolic RQ-VAE enhanced Generative Recommendation with Differential-Length Codebook Strategy

机构：南京大学 / 南京邮电大学
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/65614
笔记：官方标题对应 HG-Rec，不是本地已有 ICLR withdrawn 的 HypRQ-VAE 笔记。它同样把 RQ-VAE 放进双曲空间，但摘要强调两点：显式建模 codebook 层级关系，以及利用双曲空间指数体积增长设计 differential-length/pyramidal codebook，压缩 codebook size 并提升利用率。对生成式推荐来说，这是 semantic ID tokenizer 方向的新变体，重点看可变码本长度是否比固定每层等宽 codebook 更适合树状 item 目录。

隐私、联邦与不确定性

Beyond Single Embedding: Modeling User Preferences as Distribution in Federated Recommendation

机构：吉林大学 / UTS
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/65849
笔记：联邦推荐中每个客户端只看到有限且碎片化的本地行为，用单个 user embedding 表示偏好会过度确定。论文把用户偏好建模为分布，让多个兼容偏好表示共存，以保留不确定性和多样性。这个视角适合跨端、跨 silo 推荐：隐私限制下观测少，不应把偏好压成一个点；后续排序可以显式考虑方差、置信区间和探索价值。

Differentially Private Cross-Silo Recommendation from Implicit Feedback

机构：香港理工 / 香港浸会
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/64111
笔记：这篇处理隐式反馈跨 silo 推荐的差分隐私。隐式反馈是一类、稀疏、敏感的数据，不能像显式评分那样直接套用已有 DP 方法。论文目标是在多方数据不可集中时训练协同模型，同时提供隐私保护。工程重点会是隐式负样本、缺失非随机和 DP 噪声之间的冲突：隐私越强，稀疏反馈越难学，必须看效用损失和通信/计算成本。

Obliviate: Efficient Unlearning in Recommender Systems

机构：Sony Research India / IIT Roorkee 等
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/64974
笔记：Obliviate 是推荐系统机器遗忘框架，目标是在删除指定交互及其影响时避免全量重训，同时保留推荐质量。它采用两阶段 unlearning，应对既有方法在完整性、可扩展性、效用和内存开销上的权衡。合规价值很高：推荐模型直接训练用户行为，删除请求不能只删日志，还要处理模型参数和下游影响。重点看可验证遗忘程度如何定义。

可靠推荐与校准

CARE: Adaptive Calibration for Reliable Recommendations

机构：University of Technology Sydney
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/62132
笔记：CARE 是包裹任意 backbone recommender 的自适应校准框架，输出可变大小推荐集合，并在交互流上提供有限样本性能保证。它包含基于损失的行为变化监控和在线聚合阈值重校准。应用场景是离线训练、线上固定参数的模型遇到用户行为漂移。相比频繁重训，CARE 更像一层可靠性外壳：检测分布变了就调整输出集合与阈值。

CORAL: Uncertainty-Aware Regulation of Exposure Concentration in Recommender Systems

机构：University of Technology Sydney
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/63919
笔记：CORAL 处理反馈驱动的 exposure concentration：系统反复优化 engagement，曝光坍缩到少数类别，长期覆盖和学习质量下降。它把曝光调控建模为带约束的序列决策，并用不确定性感知风险估计控制 category-level saturation。工程上这比后处理多样性更前置，因为它承认曝光会反过来塑造未来数据分布。关键看点是 UCB 风险界如何避免过度保守。

可控推荐与即时编辑

CRAMER: Control via Request-Aware Masking for Editing Recommenders

机构：中国人民大学 / Dalhousie
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/62968
笔记：CRAMER 让序列推荐模型响应用户即时自然语言请求，但不重训整网，也不依赖大 LLM prompt 推理。它用 request-aware masking 来编辑 recommender，使推荐能立即适配“我现在想要更便宜/更轻量/更正式”这类短期意图。工程上它介于传统序列推荐和 LLM agent 推荐之间：保留大规模服务效率，同时给用户请求一个可控入口。

自进化与合成数据

Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control

机构：中国科学技术大学 / 华为
论文入口（arXiv）：https://arxiv.org/abs/2602.15659
笔记：RSIR 用闭环自举缓解推荐训练数据稀缺：当前模型生成可能的用户交互序列，fidelity control 过滤与用户近似偏好流形一致的样本，再训练后继模型。它不依赖外部 teacher 或新数据。价值在于把推荐里的 self-training 做成受控递归过程；风险也明显，如果 fidelity 过滤不强，自生成数据会放大模型偏差并形成 self-consuming loop。

冷启动与偏好先验

Cold-Start Personalization via Training-Free Priors from Structured World Models

机构：University of Washington / Meta FAIR / Ai2 等
论文入口（arXiv）：https://arxiv.org/abs/2602.15012
笔记：PEP 认为冷启动个性化可利用跨人群偏好结构：例如重视详细解释的人往往也重视 worked examples。系统从结构化 world model 获得偏好相关先验，在极少交互下做 preference elicitation，而且强调 training-free decomposition。对推荐很实用，因为冷启动不是没有信息，而是缺用户特定历史；合理先验能减少提问次数和探索成本。

约束推荐与社会目标

Eating for a Sustainable Planet: Personalized Sustainable Diet Recommendation via Constraint-Aware Decision-Making Modeling

机构：中科院计算所 / UCAS
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/61621
笔记：这篇把可持续饮食推荐建成多约束个性化决策：营养充足、经济可负担、文化可接受、环境友好，同时适配个体偏好差异。它不是纯粹的点击推荐，而是把可学习约束并入 decision-making。对推荐系统很有启发：当目标涉及健康、环境或合规时，推荐结果必须满足约束集合，不能只做相关性排序。

跨域推荐与几何表示

HVAE: Hyperbolic Variational Autoencoder For Flexible Knowledge Transfer Across Multiple Domains

机构：阿里 / 蚂蚁 / 中国海洋大学
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/61457
笔记：HVAE 针对跨域推荐中的几何错配：真实 user-item 交互常有幂律和层级结构，欧氏 embedding 难以低失真表示，也妨碍 domain-invariant preference 与 domain-specific interest 解缠。它用双曲 VAE 做灵活知识迁移。可与 HG-Rec 对照：一个关注跨域用户偏好迁移，一个关注生成式推荐的 item semantic ID；共同趋势是用非欧几何表达推荐长尾和层级。

强化学习与主动推荐

ProRL: Effective Reinforcement Learning for Proactive Recommendation via Rectified Policy Gradient Estimation

机构：复旦大学
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/61903
笔记：Proactive Recommender Systems 要通过中间推荐路径引导用户偏好转移到目标 item。朴素 policy gradient 存在两类问题：长度依赖偏差让梯度偏向延长路径，path-level reward 加权每一步导致高方差。ProRL 用 rectified policy gradient 修正。它适合教育、内容消费、健康行为等“推荐不只是满足当前偏好，还要引导长期目标”的场景，但也要警惕操控性与用户自主权风险。

高效推荐模型结构

Sparse by Design: Relevance-Driven Scaling for Recommender Systems

机构：Meta
论文入口（ICML 官方）：https://icml.cc/virtual/2026/poster/66202
笔记：论文讨论把 Sparse MoE 用到推荐时为什么不如语言模型自然：token-level routing 与 user-item relevance prediction 不匹配，推荐相关性来自分布式、多阶段交互，而不是单一路由路径。它提出 relevance-driven scaling，让稀疏计算围绕相关性信号设计。对工业推荐很关键：MoE 不是直接照搬 LLM 架构，路由粒度、专家职责和训练目标都要重新适配推荐。

3. 图表解读

本轮没有生成图表截图，原因是任务规模是 35 篇批量筛选汇总，而不是单篇 PDF 精读。虽然 OpenReview 入口通常可以进一步取得 PDF，但逐篇下载、定位 Figure/Table、按坐标裁剪并写 8000 字以上精读，会变成 32 个独立手动论文任务；这会显著超出本次“汇总成笔记”的目标。

后续若要把其中论文升级为单篇精读，优先截图顺序建议如下：广告拍卖类先抓机制流程图、均衡/单调性定理表和实验 trade-off；生成式推荐类先抓 semantic ID/tokenizer 架构、后训练目标和主结果表；图推荐类先抓模型框架、正负样本/信息瓶颈构造和消融；可靠推荐类先抓在线反馈闭环、校准/约束模块和风险-效用曲线。最值得优先精读的图表对象是 HG-Rec、Reward Hacking in LLM-based Recommendation、Sparse by Design、VENOMREC、CARE/CORAL、Autobidding Auctions with LLM-Powered Creatives。

4. 实验与结果

从摘要层能确认的结果类型大致分为四类。第一类是理论或机制结果，例如 model monotonicity、auto-bidding incentive compatibility、incentivized exploration、pseudo-Mallows 和 IRT 估计。这类论文的结果不一定是推荐指标提升，而是刻画何时激励、单调性、近似后验或估计保证成立。第二类是离线推荐 benchmark 结果，例如 CCLRec、GCIB、HG-Rec、HVAE、ProRL、Sparse by Design，通常会报告 Recall/NDCG/HR、长尾分桶或效率指标。第三类是系统 trade-off，例如 ZipRerank 的延迟与准确率、CARE/CORAL 的保证与集合大小/曝光风险、DP cross-silo 的隐私预算与效用。第四类是安全和鲁棒性，例如 VENOMREC 的目标推广攻击成功率、reward hacking 论文里的训练指标与真实排序脱钩。

当前不写具体数值，除非已有单篇笔记已核验。原因是 ICML 摘要通常只描述相对改善，不完整公开数据集、baseline、显著性检验和超参数。对这批论文的初筛排序，我会按“是否改变推荐系统闭环假设”来判断优先级，而不是按摘要里的提升幅度：如果论文处理了机制激励、离线支持集、reward hacking、曝光反馈、隐私/遗忘或 MoE 路由这类部署时绕不开的问题，即使摘要指标尚不完整，也值得进入下一轮 PDF 精读。

5. 我的理解

这批论文最强的主线不是“LLM 可以改进推荐”，而是“LLM 进入推荐之后，原来被隐藏在系统里的约束重新变成一等问题”。例如 LLM 创意增强会消耗推理成本并改变拍卖质量分，不能只按生成质量评价；LLM 推荐的 DPO/GFlowNet 会遇到离线支持集和 reward hacking，不能只看 pairwise preference loss；多模态 LLM 推荐把视觉和文本融合后，攻击者也可以跨模态协同投毒；Agent 推荐则把推荐对象从 item 扩展到“模型加工具配置”。

另一个明显趋势是，推荐模型的表示空间正在从单点、欧氏、静态，转向分布化、双曲、可变长度和不确定性感知。HG-Rec、HVAE、Beyond Single Embedding、CARE、CORAL、FedVPA-GP 都在不同层面表达同一件事：用户偏好、item 层级、跨域迁移和线上行为漂移都不是一个固定向量能充分描述的。推荐系统如果继续把不确定性压扁成单个 embedding 或单个分数，就会在冷启动、长尾、隐私和反馈闭环里付出代价。

我会把这批论文分成两类阅读优先级。第一类是短期工程可试：ZipRerank、CRAMER、CARE、CORAL、Negative Sampling、Sparse by Design、Obliviate。它们比较容易落到现有链路的 rerank、mask/edit、校准层、采样器、MoE/routing 或遗忘模块。第二类是中长期框架：Autobidding + LLM creatives、HG-Rec/HVAE、Reward Hacking、Synthetic Scaling Laws、AgentSelect、VENOMREC。这些工作需要改变系统评估方式或训练数据构造，不适合直接作为一个小模块上线，但会影响下一代推荐平台的设计。

6. 工程启发与复现建议

如果要从这 32 篇里选择 5 篇进入单篇精读，我建议优先看：Sparse by Design、Mitigating Reward Hacking in LLM-based Recommendation、Hyperbolic RQ-VAE enhanced Generative Recommendation with Differential-Length Codebook Strategy、VENOMREC、Autobidding Auctions with LLM-Powered Creatives。这五篇分别覆盖大模型推荐结构、后训练可靠性、semantic ID/tokenizer、多模态安全、广告机制与生成式创意，是最能影响推荐系统架构判断的组合。

复现时建议先建立一个统一评估表，而不是逐篇照代码跑。表里至少包含：数据支持假设、是否需要在线探索、是否依赖 LLM 生成或 VLM 输入、是否改变 item/user 表示、是否引入机制约束、是否有隐私或安全假设、主要指标、次要 trade-off、可上线位置、失败模式。这样可以把理论论文、系统论文和推荐 benchmark 放在同一张工程地图上比较。

对 LLM4Rec 方向，建议特别补三个评估维度。第一是未采样负例和全候选排序，避免 DPO 或 pairwise loss reward hacking。第二是支持集外生成率，尤其是 semantic ID 或 token-prefix DAG 生成时，统计模型落到非法、未支持或低置信区域的概率。第三是头部/尾部与曝光分布，避免 synthetic data、GFlowNet、双曲 tokenizer 或 MoE routing 在平均指标上提升，却把长尾、冷启动或内容生态问题转移到其他环节。

7. 局限与风险

1. 本笔记是摘要级批量汇总，未下载 32 篇新论文 PDF，未核验公式、完整实验表、附录和代码仓库。

2. ICML 2026 官方页面在 2026-05-21 已公开 poster/OpenReview 元数据，但后续作者可能更新 PDF、代码、项目页或机构信息；单篇精读时需要重新核验。

3. 对于理论论文，本笔记只概括问题和结论方向，不能替代证明阅读；机制设计和激励兼容的适用条件尤其需要看完整假设。

4. 对于推荐 benchmark 论文，本笔记不写数值提升，避免从摘要推断实验强度；真正排序优先级还要看主表、消融和训练成本。

5. 对已有重复论文，本轮按“已有完整笔记”跳过；对 CFlower 这类只有官方元数据、缺少全文/PDF 的论文，不再标记为已有完整笔记，也不保留资料不足版页面。

6. 批量汇总天然会压缩细节，一些论文的创新点可能藏在公式或附录里；如果要做研究引用，需要回到原文。

8. 后续跟进

1. 把 HG-Rec 单独做成精读，因为它与本站旧 HypRQ-VAE 笔记主题相近但不是同一篇，适合对比双曲 RQ-VAE、可变长度 codebook 和长尾 semantic ID。

2. 等 CFlower 全文/PDF 公开后再单独生成精读笔记；当前不保留资料不足版页面。

3. 从广告拍卖组里挑 2 篇做机制专题：LLM creatives 的推理成本如何进入 Stackelberg auction，以及 model monotonicity 何时不成立。

4. 从可靠推荐组里挑 CARE、CORAL、Obliviate 做部署专题：校准、曝光集中和机器遗忘分别对应线上推荐的三个治理层。

5. 对多模态与 Agent 方向跟踪 VENOMREC、ZipRerank、AgentSelect：它们分别代表安全、效率和“推荐对象从 item 到 agent 配置”的扩展。