01University of the Chinese Academy of Sciences · BRIDGE / BGCCBehavior-Guided Candidate Calibration for Multimodal Recommendation它不是继续把视觉/文本特征做得更强,而是问“内容证据什么时候该进入最终候选排序”。这个问题非常贴近多模态推荐线上链路:粗排候选空间可以保持稳定,最后几百或几十个候选才用行为证据做残差校准。
02City University of Hong Kong · RPORecReinforced Preference Optimization for Reasoning-Augmented Recommendations它把 LLM 的显式推理接入推荐任务,但没有停留在“让模型生成理由”。RPORec 用推荐头给 reasoning 提供任务反馈,并报告了工业广告系统的 nearline/online 部署形态,适合作为 LLM4Rec 从论文走向链路的样
03Meta Platforms, Inc. · LLM Ad RetrievalLLM Retrieval for Stable and Predictable Ad Recommendations它把广告推荐的评价从单纯 Recall/NDCG 扩展到 stability 与 predictability,并把 LLM 生成的广告语义属性用于候选生成。对广告系统来说,稳定性本身就是产品体验和投放可信度指标。
04论文首页未清晰列出统一机构 · Search-E1Search-E1: Self-Distillation Drives Self-Evolution in Search-Augmented Reasoning它针对搜索增强推理训练中的“复杂组件堆叠”做减法:只用 vanilla GRPO 和 offline self-distillation,让 agent 从自己的 sibling rollout 中学习更有效搜索路径。对 RAG/搜索 Ag
05State Key Lab of CAD&CG, Zhejiang University · DeferMemDeferMem: Query-Time Evidence Distillation via Reinforcement Learning for Long-Term Memory QA它把长期记忆系统的关键动作推迟到 query-time:先高召回取候选,再按具体问题蒸馏成自包含证据。对 Agent 长期记忆、个性化 RAG 和推荐用户画像压缩都非常相关。
06论文首页列出 1/2 编号机构,但公开文本片段未完整展开 · ArborKVArborKV: Structure-Aware KV Cache Management for Scaling Tree-based LLM Reasoning它针对 Tree-of-Thought 等搜索式推理的实际瓶颈:分支、回溯和 frontier 会让 KV cache 急剧膨胀。ArborKV 从搜索树结构出发做 cache eviction 和 lazy rehydration,对测试
07 技术脉络 · MQL4GRec / MACRec / SynGR 从 MQL4GRec 到 MACRec 再到 SynGR:多模态生成式推荐的技术演化与工程取舍 把统一量化语言、跨模态量化对齐和协同语义串成一条线,并讨论双 SID、多任务训练与双路推理的成本收益比。
08 ServiceNow / Mila / UdeM · Mem-π Mem-π: Adaptive Memory through Learning When and What to Generate 把长期记忆从相似度检索改成会 abstain、会生成当前指导的 memory policy。
09 Boston University / Harvard · PALS PALS: Power-Aware LLM Serving for Mixture-of-Experts Models 把 GPU power cap 和 batch size 联合纳入 vLLM 运行时控制,在 MoE serving 中提升能效并降低 QoS violation。
10 Stanford · Agent JIT Agent JIT Compilation for Latency-Optimizing Web Agent Planning and Scheduling 把网页 Agent 任务即时编译成可执行代码计划,并用协议约束和调度器减少逐步 CUA 的模型往返。
11 Amazon AGI / AWS · LTC Layer-wise Token Compression for Efficient Document Reranking 把 token 压缩放到 cross-encoder 中间层,在保留 query-document 交互后降低重排推理成本。
12 人大 / 山大 / 北大 · MDCNS Divergence Meets Consensus: A Multi-Source Negative Sampling Framework for Sequential Recommendation 用 Teacher-Peer-Self 多源分歧与共识蒸馏改进序列推荐 hard negative sampling。
13 人大 / Ant International · DelTA DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards 从判别式 token-gradient 视角重分配 RLVR 信用,让高奖励和低奖励响应的关键 token 更新更清晰。
14 ICML 2026 · 推荐/广告/LLM4Rec 汇总 ICML 2026 推荐、广告与 LLM4Rec 筛选论文汇总 核验 35 篇 ICML 2026 相关论文,跳过已有完整笔记的重复项,按广告机制、生成式推荐、图推荐、RAG/Agent 和可靠推荐整理工程导读。
15 东北大学 / 中山大学深圳校区 · CausalDPO Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation 把后门调整、软聚类伪环境和 MMD 不变性正则接入 DPO,缓解生成式推荐在分布偏移下放大环境混杂的问题。
16 Virginia Tech 等 · HypRQ-VAE HypRQ-VAE: Long-Tail-Aware Item Indexing for Generative Recommender Systems 把 RQ-VAE 的残差量化迁移到双曲空间,为生成式推荐构造更长尾友好的 semantic ID。
17 北京航空航天大学 · SynGR SynGR: Unleashing the Potential of Cross-Modal Synergy for Generative Recommendation 用显著性遮蔽和协同对比学习打断单模态捷径,让多模态生成式推荐真正利用视觉与文本的联合语义。
18 北京航空航天大学 / 美团 · MACRec Multi-Aspect Cross-modal Quantization for Generative Recommendation 把跨模态对比学习放进 RQ-VAE 残差量化,并用隐式/显式对齐增强多模态生成式推荐。
19 中山大学 / 鹏城实验室 · MQL4GRec Multimodal Quantitative Language for Generative Recommendation 把文本和图像 item 内容翻译成共享 quantitative language,通过 QLG 任务和预训练迁移推荐知识。
20 中国科学技术大学 · MemWeaver MemWeaver: A Hierarchical Memory from Textual Interactive Behaviors for Personalized Generation 把用户文本交互历史组织成行为记忆和认知记忆,同时利用时间演化与语义关联来增强个性化生成。
21 UCF / Mobi.AI / Rice · TIDE TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload 利用扩散式 MoE 语言模型在同一 denoising block 内的专家激活稳定性,减少 GPU-CPU 专家迁移,做无训练、无损的推理加速。
22 浙江大学 / 阿里 Qwen · Graft Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding 把动态剪枝释放出的候选预算用于检索嫁接,用近乎零额外开销补回草稿树覆盖率,在短上下文和长上下文生成中提升投机解码速度。
23 北航等 · BalanceRAG BalanceRAG: Joint Risk Calibration for Cascaded Retrieval-Augmented Generation 把 LLM-only 与 RAG fallback 的两个不确定性阈值作为二维格点联合校准,在目标风险约束下尽量提高覆盖率并减少不必要检索。
24 MIT CSAIL / Stanford · PEEK PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents 在 agent prompt 中维护固定大小的 context map,缓存可复用的外部上下文定向知识,让长期反复访问同一语料或代码库的 Agent 更快、更便宜。
25 Microsoft / 厦门大学 / 上海交大 · m3BERT m3BERT: A Modern, Multi-lingual, Matryoshka Bidirectional Encoder 面向搜索和广告检索,把 embedding 维度与 transformer 层数都做成可裁剪的 Matryoshka 结构,并用 10B query-document 点击对做 Web 域预训练。
26 滴滴 / 港大 / 哈工大 / 香港理工 · D3-Subsidy D3-Subsidy: Online and Sequential Driver Subsidy Decision-Making for Large-Scale Ride-Hailing Market 用前缀条件扩散模型规划城市级未来轨迹,再通过逆动力学和拉格朗日对偶映射落到订单-司机补贴,线上 A/B 提升 Rides、GMV 和 DRV。
27 多校 · RAGR Review-Augmented Generative Recommendation 把评论语义放进生成式推荐序列,再用 DPO 避免 review token 抢走 item 预测目标。
28 快手 · DADF Distribution-Aware Debiasing Framework for Watch-Time Regression 在已有 watch-time predictor 后面接乘法残差修正器,专门处理局部校准偏差。
29 淘宝 · GrowthGR Multi-Value-Aware Retrieval Framework for E-Commerce Search 把新品长期增长价值显式接入 semantic-ID 生成式召回,服务电商搜索增长。
30 UNIST · EPIC Preference-Aligned Memory Construction for On-Device RAG 不再无差别保存原始资料,而是把端侧记忆压成偏好对齐的轻量 memory。
31 清华 / CMU / Lisbon · DashAttention Differentiable and Adaptive Sparse Hierarchical Attention 用 alpha-entmax 替代硬 top-k,让长上下文稀疏注意力按 query 自适应选块。
32 University of Virginia / Nokia · SAPO Step-Aligned Policy Optimization for Generative Recommendation 把 SID 的层级结构转成 RL credit assignment 的层级结构,缓解生成式推荐训练错位。
33 UCSD / Snap · Latte Expressiveness Limits of Autoregressive Semantic ID Generation 指出单棵 SID 解码树会耦合物品概率,并用 latent token 扩展表达力。
34 Generative Rec · CapsID Soft-Routed Variable-Length Semantic IDs for Generative Recommendation 用 capsule routing 做软路由,并通过 SEMANTICBPE 压缩相邻语义 token。
35 Microsoft MSN · Trinity Scenario-Aware Recommendation Framework for Large-Scale Cold-Start Users 面向新场景冷启动,把跨场景特征、模型更新准入和 COPC 校准串成系统方案。
36 华东师范大学 · VarLenRec Learning Variable-Length Tokenization for Generative Recommendation 让语义 ID 长度按商品流行度和语义复杂度自适应分配,缓解固定长度冲突。
37 阿里淘宝天猫 · RecGPT-Mobile On-Device LLMs for User Intent Understanding 端侧轻量 LLM 将用户最近行为压缩成 query/tags,再接入云端召回系统。
38 NeurIPS 2023 · TIGER Transformer Index for Generative Recommenders 生成式推荐的重要起点:把推荐问题改写成 semantic ID 的自回归生成。
40 NUS · LLM2Rec LLMs Are Powerful Embedding Models for Sequential Recommendation 探索如何让 LLM embedding 同时捕获协同过滤信号和文本语义。