Paper Reading

论文精读

按“机构 / 来源 - 模型名 - 一句话介绍”整理，减少截图和标签干扰，方便快速定位笔记。

Notes: 306
Latest: 2026-07-23
View: Text Index

01北京大学 / 阿里巴巴 · GEARCopy Less, Ground More: Overcoming Repetitive Copying in Long-Context Reasoning via Evidence-Aware Reinforcement Learning诊断长上下文思维链的重复抄录，用关键证据奖励与干扰惩罚提升 grounding，并在更长上下文取得更大收益。

02Meta AI / Columbia · OC-GRPOOff-Context GRPO: Learning to Reason on Hard Problems using Privileged Information用特权指导 rollout 跨过零奖励学习断崖，再以重要性校正回到无指导目标。

03南京大学 / 华为 · AdaFlashAdaFlash: Adaptive Speculative Decoding via On-Policy Distilled Diffusion Drafters以在策略蒸馏稳定扩散草稿器，并按 token 质量自适应调节验证长度，提升高并发吞吐。

04浙江大学 / 淘宝天猫 · TSGRTSGR: Taobao Search Generative Retrieval把查询条件的业务价值同时写入并行 Semantic ID 与联合预排，在淘宝搜索完成离线与线上验证。

05中国科学技术大学 · DDMSRBeyond Noisy Signals: Dual-Level Denoising for Multi-modal Sequential Recommendation在商品语义图做拉普拉斯低通，在行为序列做可学习频域过滤，联合去除特征与交互噪声。

06UIUC · TopoTokTopology-Aware Tokenization for Generative Recommendation用群组间、组内与商品级三级蒸馏守住量化前语义拓扑，改善生成式推荐的离散 token。

07UIUC · PagedWeightPagedWeight: Efficient MoE LLM Serving with Dynamic Quality-Aware Weight Quantization把专家权重 bit-plane 分页，随 KV cache 压力动态调整位宽，在质量、显存与吞吐之间做在线控制。

08NYU / 多校 · Pre2Post ReasoningUnderstanding Reasoning from Pretraining to Post-Training用棋类可控试验台贯通预训练、SFT 与 RL，量化先验如何决定后训练收益。

09Penn State / Waterloo · ToolSciVerToolSciVer: Multimodal Scientific Claim Verification with Visual Tool Augmented Reinforcement Learning把表格聚焦、图表解析和区域缩放做成类型感知工具，再用 GRPO 学习证据获取策略。

10Taobao / Alibaba · RecGPT-V3RecGPT-V3 Technical Report以持续用户记忆、文本与语义 ID 混合建模、潜变量意图推理，把大模型推荐推进淘宝线上服务。

11USTC / Kuaishou · RECAPRECAP: Feedback-Driven Streaming Semantic User Profiles for Short-Video Recommendation把语言画像变成容量受限的流式状态，并用隐式推荐反馈闭环优化画像更新器。

12University of Queensland · Layer-Wise RelevanceLLMs Encode Relevance as a Layer-Wise Cross-Lingual Signal沿层深训练线性探针，定位相关性何时可解码，并检验内部信号能否跨语言迁移。

13MindLab / 复旦 · LongStrawLongStraw: Long-Context RL Beyond 2M Tokens under a Fixed GPU Budget捕获共享超长 prompt 状态并串行重放响应分支，把固定 GPU 预算下的 RL 执行路径推到 210 万 positions。

14Alibaba · PReMPReM: Learning What to Preserve and When to Refresh for Context Compression以逐层 KV memory 和生成期刷新 token，把一次性上下文压缩改成可学习的动态记忆更新。

15清华 / 多校 · SEEDSEED: Self-Evolving On-Policy Distillation for Agentic Reinforcement Learning从 on-policy 轨迹提炼后见技能，再把行动概率变化蒸馏成 token 级训练信号。

16Yandex · Long-History TransformerLong-History User Transformers for Real-Time Ad Ranking把 8192 条用户历史拆成离线全历史缓存与在线短窗，在不增加延迟下提升广告排序与收入。

17Pinterest · Causal RetrievalDeep-learning Causal Retrieval Optimization for Efficient e-commerce Distribution in Pinterest以随机化日志、双重稳健学习和离线回放决定是否触发 Shopping Candidate Generators。

18Pinterest · Downstream RewardsLong-term User Engagement Optimization through Model-agnostic Downstream Rewards Learning把可早期观察的留存代理奖励接入不同排序模型，并部署到四个 Pinterest 业务面。

19University of Wisconsin-Madison / Microsoft Research · TRACETRACE: Turn-level Reward Assignment via Credit Estimation for Long-Horizon Agents用冻结参考模型估计答案可预测性的逐轮变化，把终局奖励拆成工具级信用。

20RELAI.ai · Continual LearningDo Agent Optimizers Compound? A Continual-Learning Evaluation on Terminal-Bench 2.0用两阶段 Terminal-Bench 任务流检验 Agent optimizer 的收益累积与旧能力回归。

21宁波东方理工 / 香港理工大学 · PosConfPost-Training Shifts Confidence: A Three-Stage Analysis of How SFT, RL, and OPD Shape Pre-, Intra-, and Post-CoT Calibration把后训练后的置信度拆到推理前、中、后三阶段，并按可靠位置做早停和聚合。

22东南大学 / 淘宝天猫 / 北京大学 · TMallGSTMallGS: Scaling Unified Feature and Sequence Modeling for Generative E-commerce Search以统一异质序列、显式交叉旁路和逐层监督扩展电商搜索精排 Transformer。

23Apple · HybridVideoSearchPersonalizing Incremental Video Search with Hybrid Text and ID Embeddings把语义 TextEmb 与协同 IdEmb 注入增量视频搜索，改善短前缀歧义排序。

24Meta FAIR · CwACluster with Auctions for Vector Search拆分数据库分区与查询探测，并用容量约束拍卖优化向量检索的召回与负载。

25University of Tennessee / Microsoft · E3Do AI Agents Know When a Task Is Simple? Toward Complexity-Aware Reasoning and Execution用最低充分执行、ACRR 与验证失败后的逐级扩域，让 Agent 把成本花在任务真正需要的范围。

26MemTensor / HKUST(GZ) / RUC · MemOpsMemOps: Benchmarking Lifecycle Memory Operations in Long-Horizon Conversations把记住、遗忘、更新、反思和状态轨迹拆成操作级探针，定位长期记忆系统的真实失效环节。

27Waterloo / UBC / NVIDIA · FIMMidtrainingFunction-Aware Fill-in-the-Middle as Mid-Training for Coding Agent Foundation Models从程序依赖图选择难而可恢复的函数缺口，用普通代码自监督预训练 Agent 消费 observation 的结构能力。

28Meta · SlimPerSlimPer: Make Personalization Model Slim and Smart固定大小 user-item 知识库逐层选择、匹配和细化原始用户 token，并在请求内共享用户侧计算。

29Meituan · NONTPNot Only NTP: Extending Training Signal Coverage for Generative Recommendation用多步未来对比目标与跨域第二梯度路径补足 NTP，同时保持线上推理图不变。

30Pinterest · MESHMESH: Scaling Up Retrieval with Heterogeneous Content Unification以模块化语义域、门控偏差校正和异步服务统一 fresh、long-tail 与 evergreen 的大规模召回。

31Baidu / Shandong · SCOPE-RLSCOPE-RL: Optimizing Reasoning Paths Before and After Success用成功前前缀奖励暴露先决进展，再用正确性门控过程奖励压缩成功后的冗余推理。

32Alibaba / MBZUAI · UnfairJudgeInside the Unfair Judge: A Mechanistic Interpretability Account of LLM-as-Judge Bias从低维激活方向解释 judge 偏差，并以 activation steering 实现攻击、修复和跨基准预警。

33FusionBrain / RUDN · ARMTExtending LLM Context via Associative Recurrent Memory用段内全注意力与段间关联循环记忆，以常数级状态扩展现有 LLM 的长上下文。

34JD.COM · MMRMMMRM: A Multiplex Multimodal Representation Model for Product Ranking in E-commerce Search共享多模态骨干配合任务特定 token，一次推理生成服务多任务排序的多路商品表征。

35Glasgow / Telefónica · StresaStream-aware Side Adaptation for Large Pre-trained Multimodal Embedding Models in Sequential Recommendation用历史侧流融合和选择性残差更新，缓解冻结多模态 embedding 的深层适配退化。

36DTU / JP-Politikens · ZoRROZoRRO: A Zero-Weight Personalized Recommender System for Scalable News Recommendation以时效性和语义相似度构成免训练新闻推荐器，兼顾在线效果、速度和超越准确率指标。

37UNHCR / CNR · WorkflowKnowledgeWorkflow as Knowledge: Semantic Persistence for LLM-Mediated Workflows把工作流定义、实例、推理记录与上下文快照提升为可查询、可恢复的持久知识对象。

38PwC · Citation VerifierDo You Need a Frontier Model as a Citation Verifier? Benchmarking Rubric LLMs for Deep-Research Source Attribution校准 citation judge 的 F1 与方向性偏差，防止把有偏 rubric 分数直接当作强化学习奖励。

39上海交大 / 阿里 · SMetricSMetric: Rethink LLM Scheduling for Serving Agents with Balanced Session-centric Scheduling按会话首轮做负载均衡、后续轮次做 cache-aware 路由，提高 Agent serving 的吞吐与缓存复用。

40Northeastern University · City VisibilityLarge language models create an uneven informational layer over cities审计 LLM 餐厅推荐中的幻觉、不可见与人口属性分层，揭示候选集生成的城市分配风险。

41KAIST / Gaudio Lab · VTMRMultimodal Video-to-Music Recommendation via Semantic Retrieval and Temporal Reranking用多模态语义召回加时序 cross-encoder 重排，把视频到音乐匹配从全局相似推进到局部动态对齐。

42Northeast Normal University · SSC-LoopSigned-Graph Recommendation as Structural Consistency Maximization联合修正 signed graph 的结构、传播与语义一致性，提升信任/不信任社交推荐。

43HKU / 美团 · UniClawBenchUniClawBench: A Universal Benchmark for Proactive Agents on Real-World Tasks把 proactive agent 评测从沙盒单轮推进到 live Docker、闭环多角色和五项能力归因。

44Meta AI · Proactive MemoryRemember When It Matters: Proactive Memory Agent for Long-Horizon Agents让独立 memory agent 决定何时向 action agent 注入有证据的提醒，缓解长程执行状态衰减。

45Manitoba / UCF · QuantEquivThe Illusion of Equivalency: Statistical Characterization of Quantization Effects in LLMs用 correctness agreement 与逐层分布漂移证明低比特模型即使准确率相同也可能行为不同。

46Amazon · BACHBACH: A Bayesian Admixture of Contrastive Heads for Multi-Interest Two-Tower Retrieval用每用户贝叶斯兴趣混合替代多兴趣双塔的硬路由，缓解 head collapse 并保留 ANN 服务。

47阿里 · DaV-GenDaV-Gen: End-to-End Generative Retrieval via Draft-and-Verify在单模型中联合训练向量 draft 与生成式 verify，统一搜索/推荐的召回与排序目标。

48人大 / 快手 · PIT-SUNPIT-SUN: A Deployable Empirical Marginal Transform Framework with Expectation-Consistent Recovery for Regression in Recommender Systems用经验 PIT 坐标、SUN 期望恢复和 CDF 漂移监控稳定重尾、零膨胀价值回归。

49Cornell · Co-LMLMCo-LMLM: Continuous-Query Limited Memory Language Models把 LMLM 的关系型知识库升级为连续向量查询和可归因文本记忆，连接预训练知识控制与 RAG。

50Qualcomm · LinearizationThe Key to Going Linear: Analysis-Driven Transformer Linearization从冻结 backbone 机制分析出发解释 Transformer 线性化为什么会丢质量，并给出 sink token、短卷积和 cache routing 修正。

51清华 · SAOSingle-Rollout Asynchronous Optimization for Agentic Reinforcement Learning把长程 agentic RL 从同步批处理推进到 single-rollout asynchronous optimization，降低等待和 off-policy 漂移。

52清华 / 多校 · MMEACRSeeing and Reflecting: Multimodal Memory-Enhanced Agent Collaboration for Recommendation用多模态证据、记忆演化和 agent 协作改进 LLM4Rec 的偏好建模与可解释推荐。

53Amity · LBMLarge Behavior Model: A Promptable Digital Twin of the Retail Customer把零售客户建成可提示的行为数字孪生，服务推荐、促销和营销决策中的用户建模。

54Sheffield / Bloomberg · COPEWhen and How to Ask: Dynamic Preference Elicitation Strategies for Conversational Recommendation研究对话推荐中何时询问、如何询问偏好，把 elicitation strategy 接入推荐和回复生成。

55上海交大 / 多校 · DynaKRAGDynaKRAG: A Unified Framework for Learnable Evidence Control in Multi-Hop Retrieval-Augmented Generation把 multi-hop RAG 的检索、gap query、bridge expansion 和 stop 统一成可学习 evidence-control 策略。

56清华 · CompactionRLCompactionRL: Reinforcement Learning with Context Compaction for Long-Horizon Agents用强化学习联合优化长程 Agent 的任务执行与上下文压缩摘要，缓解有限上下文窗口。

57林茨大学 · KVpopKVpop -- Key-Value Cache Compression with Predictive Online Pruning用 future-attention 监督在线 KV cache 淘汰，在高压缩率下尽量保持长上下文推理性能。

58阿里淘宝天猫 · CanniUpliftCanniUplift: A Holistic Framework for Mitigating Seller and Incentive Cannibalization in E-commerce Uplift Modeling把卖家互抢和激励互抢纳入电商 uplift modeling，服务平台级增量 GMV 优化。

59多校 · InfluMatchInfluMatch: Frontier-Quality KOL Search at 4B-Model Cost用 dense retrieval、4B reranker 和 4B reasoner 做 KOL 搜索级联，以小模型成本逼近 frontier 质量。

60多校 · PathologicalRecPathological Regimes of Closed-Loop Recommendation Systems over Social Networks把闭环推荐写成无限时域状态反馈控制问题，分析极化、失稳和不可达最优的病理 regime。

61UCR / Meta AI · SCOReDSCOReD: Student-Aware CoT Optimization for Recommendation Distillation用学生模型注意力、答案概率和困惑度优化推荐 CoT 蒸馏轨迹，压缩重复验证并提升小模型排序可靠性。

62UC Berkeley / Stanford · LLMVerifierLLM-as-a-Verifier: A General-Purpose Verification Framework把离散 LLM judge 改成连续概率 verifier，服务 agent 排序、进度估计和 RL dense feedback。

63LMU Munich · MetaSkill-EvolveMetaSkill-Evolve: Recursive Self-Improvement of LLM Agents via Two-Timescale Meta-Skill Evolution把 agent skill rewriting 推进到递归层：任务技能快循环演化，改进技能慢循环自我演化。

64ByteDance / Tsinghua · Direct-OPDWeak-to-Strong Generalization via Direct On-Policy Distillation用弱 teacher 的 RL-induced policy shift 指导强 student，在强模型自己的轨迹上做 dense distillation。

65Zhejiang University · LBRLBR: Towards Mitigating Length Bias in Large Language Models for Recommendation定位 LLM4Rec 的长度偏置，用 attention calibration 和 effective information length normalization 修正推荐分数。

66Alibaba · UniSGRUniSGR: Unified Framework for Semantic ID Generation and Ranking把语义 ID 生成和多目标排序统一起来，补生成式召回难以承接细粒度排序的问题。

67UNSW · ChronoSIDBeyond Item Order: Temporal Gap Tokenization for Generative Recommendation with Semantic IDs把交互时间间隔作为生成式推荐输入 token，让 semantic-ID 序列模型感知兴趣连续性和漂移。

68山东大学 · ColdGenRecCold-Starts in Generative Recommendation: A Reproducibility Study在统一用户/物品冷启动协议下复现多类生成式推荐器，拆解模型规模、标识符设计和 RL 训练对冷启动泛化的真实影响。

69Meta / UNC · Diffusion-GR2Diffusion-GR2: Diffusion Generative Reasoning Re-ranker把自回归生成式推理重排器改成块扩散解码，用 CFT、OPD 和 RL 追回排序精度并提升解码吞吐。

70University of Toronto · HNSW SpannersHNSW with Accuracy Guarantees Using Graph Spanners用 Certify-then-Rectify、统计认证和 graph spanner 估计给 HNSW 检索补最坏情况准确性保护。

71UMD · AgenticSearchEOBringing Agentic Search to Earth Observation Data Discovery把 NASA EO-KG、神经检索、BM25 融合和 LLM agentic reranking 接成地球观测数据发现系统。

72BNU · CheckRLMCheckRLM: Effective Knowledge-Thought Coherence Checking in Retrieval-Augmented Reasoning从推理链抽取事实声明并用 RAG 做知识-思维一致性检查，低成本修正长程推理中的事实漂移。

73Alaya Lab · AgenticSTSAgenticSTS: A Bounded-Memory Testbed for Long-Horizon LLM Agents把长程 Agent 记忆定义成 typed retrieval 的有界契约，并用 Slay the Spire 2 建可复现实验床。

74Amazon · DRIFTLENSDRIFTLENS: Measuring Memory-Induced Reasoning Drift in Personalized Language Models度量用户记忆注入如何改变个性化语言模型的推理轨迹，并比较 DPO/GRPO 缓解效果。

75AI VK · MF-MDPPlanning over Matrix-Factorization MDPs for Candidate Generation把静态矩阵分解 top-K 召回改写成 fold-in posterior 上的短程规划问题。

76eBay · IntentTuneIntentTune: Using User Demand and Personalization to Resolve "Unknown" Query Intents for E-commerce Search用用户历史搜索、浏览和 profile 信号消解电商短 query 的未知意图，服务召回前意图补全。

77Virginia Tech · Bi-NASBi-NAS: Bi-Level Neural Architecture Search for Explainable Recommender Systems用双层神经架构搜索优化推荐解释结构，并用 LLM zero-shot 生成个性化解释。

78McGill · LACUNALACUNA: Distinguishing True Forgetting from Output Suppression in LLM Unlearning给 LLM unlearning 增加参数级定位真值，区分真正擦除与输出层混淆。

79UIUC · ReContextReContext: Recursive Evidence Replay for Long-Context Reasoning用训练免费的递归证据重放提升长上下文推理中的 evidence utilization。

80SUFE · HOLAA Hippocampus for Linear Attention: Memory-Augmented Linear Transformers给线性注意力增加有界精确 KV cache，补足 recurrent state 遗忘的关联。

81VaidhyaMegha · ANNRepairWhen to Repair a Graph ANN Index: Navigability-Signal-Triggered Local Repair Protects Tail Recall Under Bursty Churn把向量检索索引维护从固定节奏 consolidation 改成可导航性信号触发的局部修复，直接服务 RAG、搜索和推荐召回的 tail recall 稳定性。

82Meta · GOOBSReal-Time Hard Negative Sampling via LLM-based Clustering for Large-Scale Two-Tower Retrieval用 LLM 表征构造在线 hard-negative pool，补齐双塔召回训练中“负样本既要难又要可在线更新”的工业问题。

83Spotify · As It WasAs It Was: Aligning LLM Search Evaluation with Historical User Preferences把历史行为偏好注入 LLM 搜索评价器，解决语义相似度式 judge 与真实用户偏好不一致的问题。

84厦门大学 · MemSyco-BenchMemSyco-Bench: Benchmarking Sycophancy in Agent Memory把长记忆 Agent 的风险从“能否检索到记忆”推进到“检索到的记忆是否会误导当前推理”。

85Stanford · AutoMemAutoMem: Automated Learning of Memory as a Cognitive Skill把 agent memory 从外挂检索模块推进到可自动搜索、可训练、可复用的认知操作技能。

86复旦 · PlanRAGWhen RAG Meets Query Planning: Logical Query Trees for Resolving Exploratory Reasoning Problems把数据库 query planning 思路引入复杂自然语言问题，用逻辑查询树重排 RAG 的检索和推理执行顺序。

87阿里 · ShopXShopX: A Foundation Model for Intent-to-Item Fulfillment in Agentic Shopping近期最直接的工业级 LLM4Rec / agentic shopping 论文，把语义 ID、商品检索、排序、搭配和多轮状态管理统一进模型原生的 item-space fulfillment。

88Netflix · GenPageGenPage: Towards End-to-End Generative Homepage Construction at Netflix少见的 Netflix 生产系统论文，直接把传统多阶段首页推荐改写为单 transformer 自回归生成多行结构化首页，并报告线上 A/B 与延迟结果。

89特拉维夫大学 · MonoRecMonosemanticity in Recommender Systems把 mechanistic interpretability 的 SAE/monosemantic feature 思路迁移到推荐 embedding，可用于解释、调试和偏置干预；图表丰富，适合做深度笔记。

90中科院 · NPMNeural Procedural Memory: Empowering LLM Agents with Implicit Activation Steering把 agent memory 从显式文本规则推进到 activation-space procedural steering，能和推荐系统中的长期用户行为/策略记忆形成类比。

91港中文 · VISTALLM Agents Are Latent Context Managers: Eliciting Self-Managed Context via a Proprioceptive Dashboard长程工具 agent 的上下文管理问题和推荐系统里的状态窗口/记忆淘汰高度相似；论文提出训练免费的可见内部状态界面并给出多 benchmark 增益。

92UBC · SeKVSeKV: Resolution-Adaptive KV Cache with Hierarchical Semantic Memory for Long-Context LLM Inference从系统角度解决长上下文 LLM 的 KV cache 内存瓶颈，和 agent/RAG/推荐长序列服务的成本约束直接相关。

93快手 · IID-NavFrom Extraction to Navigation: Progressive Retrieval with Indirectly Infinite Depth快手工业召回论文，把 retrieval 从静态 i2i extraction 改成带状态的目标导向 graph navigation，并给出 QPS/Recall 与线上 A/B 结果。

94缅因大学 · ColdStart RetrievalDiagnosing and Mitigating Retrieval Bottlenecks in LLM-Based Cold-Start Recommendation拆开 LLM reranker 与 retrieval coverage，证明冷启动推荐的主要瓶颈常在候选池覆盖，而不是提示词或模型规模。

95快手 · POEMPOEM: Partial-Order Enhanced Real-Time Sequential Modeling for Recommendation用上游多任务排序分构造动态 partial-order sequence，处理实时兴趣漂移，并在快手线上推荐链路验证。

96新加坡国立 · WorldEvolverSelf-Evolving World Models for LLM Agent Planning让 frozen world model 在测试时通过 episodic/semantic memory 自修正，为长程 LLM agent planning 提供可过滤的 foresight。

97上海AI实验室 · Agents-A1Scaling the Horizon, Not the Parameters: Reaching Trillion-Parameter Performance with a 35B Agent35B MoE agent 通过扩展长程轨迹和多教师 domain-routed on-policy distillation，逼近超大模型 agent 表现。

98缅因大学 · KnowBeforeFetchKnow Before You Fetch: Calibrated Retrieval-Budget Allocation for Retrieval-Augmented Generation把固定 top-k RAG 改成校准检索预算分配，在 k=0/k=1/k=5/abstain 之间显式权衡准确率、token 和延迟。

99快手 · GLANFrom Bootstrapping to Sequence Modeling: A Unified Generative Framework for Personalized Landing-Page Modeling快手工业个性化入口导航论文，把 CQL 式 RL 改成 Decision Transformer 序列建模，并给出 DAU/LT 在线增益，直接服务推荐与产品入口决策。

100多校 · IntuRecIntuition-Guided Latent Reasoning for LLM-Based RecommendationLLM4Rec 交叉方向，核心不是让 LLM 直接生成解释，而是用候选集作为 preference-aligned intuition embedding 约束潜空间推理起点。

101多校 · PermRFast and Feasible: Permutation-based Constrained Reranking for Revenue Maximization它把电商/搜索重排里的收入目标、相关性约束、欺诈风险和线上延迟放进同一个 ILP/近似算法框架，并有 56M 查询 A/B 结果。

102多校 · L2AEnd-to-End Dynamic Sparsity for Resource-Adaptive LLM Inference推理资源动态变化是线上 LLM/RAG/Agent 系统的真实约束；L2A 同时建模输入难度与运行预算，覆盖层跳过、head pruning 和推理 token 缩减。

103京东 · Oxygen AIICJD Oxygen AI Item Center (Oxygen AIIC) V1: An Industrial-Scale LLM/VLM-Centric Solution for Item Understanding, Management, and Applications大规模电商商品理解系统论文，连接 LLM/VLM、商品知识、搜索、推荐和运营，覆盖数百亿 SKU 级资产和线上业务指标。

104清华 · SHIFTSHIFT: Gate-Modulated Activation Steering for Knowledge Conflict Mitigation in Retrieval-Augmented GenerationRAG 系统经常面对检索上下文与参数知识冲突；SHIFT 用少量门控参数调制内部表示，避免直接编辑 neuron 带来的级联副作用。

105多校 · NOVANOVA: A Verification-Aware Agent Harness for Architecture Evolution in Industrial Recommender Systems推荐系统和 LLM agent 的强交叉：它把代码生成、架构搜索、离线验证、在线 A/B 和失败记忆放进同一个工业推荐迭代闭环，对用户关注的推荐工程自动化最直接。

106多校 · TRUSTTRUST: Item-Calibrated Interval Evidence for Temporal Session-Based Recommendation这是今日推荐算法配额中最干净的机制型论文：问题小而明确，直接挑战时间间隔绝对值建模假设，并给出可插拔的校准信号，适合沉淀为会话推荐与用户行为节奏建模笔记。

107快手 · UniFormerUniFormer: Efficient and Unified Model-Centric Scaling for Industrial Recommendation与 NOVA 的自动架构演进互补：UniFormer 是具体推荐模型扩展方案，能展示工业推荐从行为建模、特征交互、任务空间到请求级推理加速的系统设计。

108哈工大 · SocialPersonaSocialPersona: Benchmarking Personalized Profiling and Response with Multimodal Social-Media Context它把个性化 LLM、用户长期记忆和推荐画像连接起来，且提供可评测 benchmark；对用户建模、内容理解、个性化 RAG 与推荐中的 revealed preference 都有迁移价值。

109独立研究 · CARVECARVE: Content-Aware Recurrent with Value Efficiency for Chunk-Parallel Linear AttentionLLM 长上下文效率仍是推荐/RAG/Agent 系统的底层瓶颈；CARVE 的 key-axis erase 和块并行求解把记忆更新、吞吐、参数效率放在同一个理论框架里，值得作为底层模型方向追踪。

110多校 · ProvenAIProvenAI: Provenance-Native Traces of Evidence in Generated AnswersRAG 的可解释性正在从“有没有引用”走向“引用是否支撑、检索文档是否真的影响答案”；这对搜索、推荐解释、企业知识库和 Agent 审计都很关键。

111未在 arXiv 摘要页完全核验；目录暂用多校 · S2-CARS2-CAR: Segmentation-Supervised Complexity-Adaptive Recommendation它针对序列推荐中真实兴趣边界不可见、固定窗口错分段、短期信号过度依赖三个问题，给出了可插入现有 backbone 的分段监督模块，适合今天推荐算法配额。

112未在 arXiv 摘要页完全核验；作者包含 Xu Chen、Zhenhua Dong、Huifeng Guo 团队 · AdaptSimTowards Fast Domain Adaptation and Fine-Grained User Simulation for Evaluating Conversational Recommender Systems它把 LLM 用户模拟器从固定 prompt 评估推进到可迁移、可控、可细粒度比较的 CRS 评估框架，和推荐系统评测、用户建模以及 LLM4Rec 交叉度高。

113未在 arXiv 摘要页完全核验；目录暂用多校 · TBRS-ControlTrajectory-Based Recommender Systems as Control Systems它不是单个模型 benchmark，而是把长期目标推荐、轨迹、状态和控制目标统一起来，适合作为推荐长期价值优化和平台策略建模的理论线索。

114未在 arXiv 摘要页完全核验；目录暂用多校 · ProgressAdvantageNeglected Free Lunch from Post-training: Progress Advantage for LLM Agents它把 Agent 过程奖励从额外标注/训练转成后训练副产品，对长链工具调用、在线推荐 Agent 的失败归因和测试时扩展都有直接迁移价值。

115未在 arXiv 摘要页完全核验；作者包含 Stanford/UC Berkeley 相关研究者 · SPIRALSPIRAL: Learning to Search and Aggregate它直接对齐测试时扩展的三类 compute primitive，能解释为什么简单 majority vote 之外还需要训练聚合器；对推荐链路中的多候选推理和多策略重排也有借鉴价值。

116未在 arXiv 摘要页完全核验；目录暂用多校 · DustinDustin: Draft-Augmented Sparse Verification for Efficient Long-Context Generation with Speculative Decoding它把长上下文服务中的 speculative decoding 验证瓶颈拆成 KV 加载和 token 选择问题，对 RAG、Agent 长会话和推荐解释生成的推理成本控制都有工程价值。

117Walmart / 多作者团队 · AutoRelAnnotatorAutoRelAnnotator: Calibrated Model Cascades for Cost-Efficient Relevance Evaluation in Sponsored Search与 6 月 24 日 Walmart dense retrieval 论文形成上下游关系：前者讲训练数据，本文讲离线标注与评估基础设施，能补齐搜索广告召回/排序系统中标签质量治理这一环。

118Kuaishou / 多作者团队 · RaGRecommendation as Generation: Unifying Personalized Video Generation and Recommendation at Industrial Scale它把推荐从匹配已有内容推进到按兴趣生成内容，直接触及短视频/广告推荐的供给侧闭环，是今日推荐算法候选中工业系统意味最强的一篇。

119Google / YouTube / 多作者团队 · TokenMindsTokenMinds: Pretrained User Tokens and Embeddings for User Understanding in Large Recommender Systems它把近期大量 Semantic ID/item token 工作推进到用户侧，直接服务长期用户理解、跨场景建模和工业异步表征生成。

120多校 / 机构待 PDF 核验 · ToolBench-XBeyond Function Calling: Benchmarking Tool-Using Agents under Tool-Environment Unreliability推荐系统和数据平台越来越多地把 LLM agent 接入工具链，本文把工具失效恢复从 anecdote 变成可测 benchmark。

121Chinese Academy of Sciences / 多作者团队 · ToolRLCollapseWhy Multi-Step Tool-Use Reinforcement Learning Collapses and How Supervisory Signals Fix It与 ToolBench-X 形成训练/评测互补：一个解释 tool-use RL 为什么会坏，一个评估工具环境坏了时 agent 是否能恢复。

122多校 / 机构待 PDF 核验 · GraphRAGNeededIs GraphRAG Needed? From Basic RAG to Graph-/Agentic Solutions with Context Optimization它给 RAG/GraphRAG/Agentic RAG 的工程选型提供反例意识：高级检索不是越复杂越好，关键在场景和上下文预算。

123Zhejiang University · BEARBEAR: Towards Beam-Search-Aware Optimization for Recommendation with Large Language Models把 LLM 推荐中的 SFT 目标与 beam search 推理对齐，用 token-level top-B 必要条件降低正样本被过早剪枝的风险。

124多校 / OpenThoughts 团队 · OpenThoughts-AgentOpenThoughts-Agent: Data Recipes for Agentic Models把 Agentic 模型的数据工程从“多跑轨迹”拆成可复用的任务、轨迹、裁判和反思配方，适合跟踪工具调用和训练数据闭环。

125Tsinghua University / 多机构合作 · AgentNativeMemoryAre We Ready For An Agent-Native Memory System?把 memory 从 RAG 外挂重新定义为 Agent 原生系统组件，覆盖写入、检索、更新、遗忘和安全边界。

126多校 / 机构未在摘要页完全核验 · GradDetectGrad Detect: Gradient-Based Hallucination Detection in LLMs用梯度信号定位幻觉风险，给 LLM 评估和安全过滤提供一种不只依赖输出文本打分的内部证据。

127多校 / 机构未在摘要页完全核验 · D2DDialogue to Discovery: Attribute-Aware Preference Elicitation for Conversational Product Search Assistants把对话商品搜索中的偏好澄清做成属性感知流程，强调何时问、问什么，以及如何把回答转成检索约束。

128Walmart / 多作者团队 · LLMAnnotatedRetrievalScaling Dense Retrieval with LLM-Annotated Training Data用 LLM 标注扩展 dense retrieval 训练数据，关注电商/搜索召回场景里弱标注扩容、质量控制和离线评估。

129多校 / Chen Ma 团队 · LLMJudgeTopKLLM-as-a-Judge for Reliable and Explainable Offline Evaluation in Top-K Recommendation把 LLM-as-a-Judge 用于 Top-K 推荐离线评估，尝试补足纯点击指标对解释性、多样性和语义相关性的盲区。

130Shandong University · RecLoopDo Generative Recommenders Deepen the Information Cocoon? A Closed-Loop Simulation with LLM-powered User Simulators近期生成式推荐论文很多集中在精度或 Semantic ID 编码，这篇把闭环反馈、用户模拟和信息茧房放在一起，能提醒推荐系统不要只看下一物品命中率。

131KAIST / Snap Inc. · IIRGOn the Memorization Behavior of LLMs in Generative Recommendation: Observations, Implications, and Training Strategies它直接质疑 LLM4Rec 的核心假设：大模型带来的到底是语义泛化还是更强记忆。这个问题对线上推荐、长尾覆盖和评测切分都很关键。

132KAIST · SRPFNOne Sequential Recommendation Model Pretrained from Synthetic Priors Predicts Multiple Datasets它把推荐从“每个数据集训练一个模型”推向“用先验学会如何适配序列任务”，对冷启动域、快速类目上线和离线计算成本有启发。

133MIT / MIT-IBM Watson AI Lab · VariableWidthVariable-Width Transformers这类架构研究直接影响大模型服务成本：如果宽度可以按层重分配，推荐系统里的 LLM reranker、query rewriting 和多模态理解模块可能用更低 KV/cache 成本部署。

134NVIDIA · ZPPOZone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients它给后训练提供一个很工程化的折中：教师帮助学生构造可判别情境，但不直接污染 on-policy 梯度，对小模型、多模态和推荐侧轻量 ranker 蒸馏都有启发。

135Toyota Motor Europe / University of Trento · ELMContinual Self-Improvement with Lightweight Experiential Latent Memories它把 agent memory 从“文本片段缓存”推进到“可训练但很轻的潜表示”，对个性化助手、推荐解释记忆和长期用户画像更新都值得跟踪。

136多校作者 · DeepRubricDEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research Agents把 deep research agent 的奖励从“事后让模型写 rubric”改成先构造证据树和原子评价目标，再反向合成 query-rubric 训练样本，直接解决研究报告奖励稀疏和评价口径漂移。

137多校作者 · TokenPilotTokenPilot: Cache-Efficient Context Management for LLM Agents把长会话 Agent 的 token 裁剪问题重新定义为“文本稀疏”和“prompt cache 连续性”的冲突，用 ingestion-aware compaction 和 lifecycle-aware eviction 保住前缀缓存。

138多校作者 · KVEraserKVEraser: Learning to Steer KV Cache for Efficient Localized Context Erasing针对长上下文里过时检索事实、错误工具观察或 prompt injection 需要事后删除的问题，用学习到的 steering states 局部替换被擦除 span 的 KV 状态，避免重算整段后缀。

139多校作者 · OneRankOneRank: Unified Transformer-Native Ranking Architecture for Multi-Task Recommendation把工业推荐多目标排序里的 Transformer encoder 与 task head 解耦问题拆开，用 task-private channels 在 Transformer 内部做任务条件信息选择、候选感知上下文化和受控跨任务交互。

140多校作者 · ReaEmbHarmonizing Semantic and Collaborative in LLMs: Reasoning-based Embedding Generator for Sequential Recommendation面向序列推荐长尾问题，先用 latent reasoning-enhanced contrastive learning 激活 LLM 内部推理，再用 collaborative reward RL 显式对齐协同过滤信号。

141多校作者 · HoloRecHoloRec: Holistic Encoding and Interleaved Reasoning for Generative Recommendation把生成式推荐里的扁平语义表示和外部 CoT 标注问题合在一起解决，用多粒度嵌套残差量化构造层次语义编码矩阵，并在推理时交错生成 reasoning steps。

142Google · SemanticNativeLSMBeyond Item IDs: Scaling Short-Form-Video Recommendation via Semantic-Native Long Sequence Modeling用 RQ-VAE Semantic ID 替代长历史里的原子 Video ID，并用 temporal folding 与 global query 把短视频推荐扩展到 L=2000 级用户序列。

143Alibaba Group · AKT-RecFrom Head to Tail: Asymmetric Knowledge Transfer in Long-tail Recommendation with Generative Semantic IDs用 MLLM/LLM 生成语义表示和 RQ-VAE Semantic ID，把头部 ID 的可靠知识非对称迁移到尾部用户/商品，同时用活动门控保护头部精排能力。

144多校作者 · AdaSRAdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization让模型边读流式输入边决定何时思考、何时等待，并用 Hierarchical Relative Policy Optimization 分开优化流式阶段和最终深思阶段。

145多校作者 · AgentSpecAgentSpec: Understanding Embodied Agent Scaffolds Through Controlled Composition把感知、记忆、推理、反思、动作和学习模块标准化为可组合组件，用受控替换研究脚手架交互，而不是只比较单个模块强弱。

146Fudan University / Amazon · StreamMemBenchStreamMemBench: Streaming Evaluation of Agent Memory for Future-Oriented Assistance基于 EgoLife 第一人称生活流构造两步任务，区分证据写入、初始使用、反馈吸收和后续复用四个断点。

147多校作者 · ChronoIDChronoID: Infusing Explicit Temporal Signals into Semantic IDs for Generative Recommendation系统比较绝对/相对时间、早/晚融合、残差/平行量化，让同一 item 的离散标识携带交互节奏信息。

148University of Virginia / Snap Inc. · PauseRecImplicit Reasoning for Large Language Model-based Generative Recommendation指出 SID-based 生成式推荐里的显式 rationale 训练脆弱且昂贵，用可训练 <pause> token 做 latent computation。

149University of Technology Sydney / Australian Artificial Intelligence Institute · PADWhen Recommendation Denoising Meets Popularity Bias: Understanding and Mitigating Their Interaction证明小损失去噪在长尾正样本 loss 右移时会抬高有效头尾监督比，并用 popularity-aware gate 保护长尾真信号。

150多校作者 · OneRetrievalOneRetrieval: Unifying Multi-Branch E-commerce Retrieval with an Editable Generative Model用 Keyword-Aligned Encoding 把生成式检索和可小时级注入的新 term 编辑能力放进同一个电商召回模型。

151RedNote / Xiaohongshu · HelmsmanThe Clustering Strikes Back: Building Cost-Effective and High-Performance ANNS at Scale with Helmsman把推荐、搜索、广告中的大规模 ANNS 从高内存 HNSW 转向 all-flash 聚类索引，并用用户态存储栈和分层剪枝控制成本。

152多校作者 · CFALRCFALR: Collaborative Filtering-Augmented Large Language Model for Personalized Fashion Outfit Recommendation把 user-outfit 交互写成自然语言，同时用 CF-enhanced embeddings 把 LLM 语义空间接回个性化穿搭推荐。

153多校作者 · CQC-RAGCQC-RAG: Robust Retrieval-Augmented Generation via Cross-Query Consistency用语义等价查询、多证据视图和一致性置信缓解 RAG 对 query wording 与误导证据的敏感性。

154多校作者 · ReSumReSum: Synergizing LLM Reasoning and Summarization with Reinforcement Learning把 RLVR 中的长推理 rollout 改造成可压缩、可分支评估、可强化学习的自总结过程，降低冗余和上下文漂移。

155多校作者 · ProReviewerFrom Passive Generation to Investigation: A Proactive Scientific Peer Review Agent把 LLM 审稿建模为带结构化 review log 的 MDP，让 agent 主动定位疑点、查证证据并更新审稿状态。

156多校作者 · APPOAPPO: Agentic Procedural Policy Optimization把 agentic RL 的分支点和 credit assignment 从工具调用边界下沉到序列内关键决策点。

157多校作者 · WorldReasonerWorldReasoner: Evaluating Whether Language Model Agents Forecast Events with Valid Reasoning用时间可得证据、概率预测、引用证据和因果事件图同时评估 agent 预测是否真有推理依据。

158Microsoft · HORMAOrganize then Retrieve: Hierarchical Memory Navigation for Efficient Agents把经验整理成文件系统式层级结构，再用轻量导航 agent 找到最小充分上下文。

159Delft University of Technology · RankGuardEfficient and Robust Online Learning to Rank in Decentralized Systems用本地私有点击历史校验外来模型更新，给去中心化 OLTR 加上抗投毒聚合门槛。

160Kuaishou · AIRAtomic Intent Reasoning: Bringing LLM Semantics to Industrial Cross-Domain Recommendations把 LLM 推理迁到离线原子意图构建，在线用检索与组合把语义能力接回毫秒级推荐链路。

161Princeton / Independent · tau-Rec$τ$-Rec: A Verifiable Benchmark for Agentic Recommender Systems用可验证 reward 与 reveal-tagged elicitation 替代 LLM-as-judge，评估多轮推荐 Agent 的稳定推理能力。

162Shanghai Jiao Tong University / Xiaohongshu · DiffColdDiffCold: A Diffusion-based Generative Model for Cold-Start Item Recommendation用条件扩散从内容和近邻 warm item 生成冷启动表示，在不牺牲 warm item 表征的前提下缓解冷启动物品推荐。

163Google DeepMind / Google · UserPersonasLLM-Based User Personas for Recommendations at Scale把 LLM 生成的自然语言兴趣画像接入大规模视频推荐服务，用蒸馏、异步推理和语义聚类控制在线成本。

164The Chinese University of Hong Kong · GenAIRGenerative Archetype-Grounded Item Representations for Sequential Recommendation用 LLM 生成目标受众 archetype，再用行为校准目标让 item 表示同时保留语义和协同过滤结构。

165Samsung AI Center / Dartmouth · Doc2AtomDoc-to-Atom: Learning to Compile and Compose Memory Atoms把文档拆成语义类型化 knowledge atoms，每个 atom 编译成 micro-LoRA，并按 query 路由组合成专用 adapter。

166HKUST / NVIDIA · C-DICContext-Driven Incremental Compression for Multi-Turn Dialogue Generation用线程级可修订 dialogue memory 和 retrieve-revise-write-back 循环，让多轮对话压缩在数百轮后仍保持稳定延迟和困惑度。

167UCAS / CAS / Qwen Team · RACESVerifiable Environments Are LEGO Bricks: Recursive Composition for Reasoning Generalization把可验证环境按输入/输出类型递归拼接成复合任务，用环境组合而不是单题堆叠扩展 RL 推理训练信号。

168Sungkyunkwan University · FCRLLMFCRLLM: Aligning LLM with Collaborative Filtering for Long-tailed Sequential Recommendation用 FlipClass 双向 teacher-student 对齐，把冻结 LLM 语义嵌入和协同过滤序列表示结合起来，改善长尾用户与长尾物品推荐。

169City University of Hong Kong · IAMFrom Token to Item: Enhancing Large Language Models for Recommendation via Item-aware Attention Mechanism用 intra-item 与 inter-item 两类物品感知注意力，把 LLM 推荐从 token-centric 改造成 item-centric 协同建模。

170University of Technology Sydney · AgentSelectAgentSelect: Benchmark for Narrative Query-to-Agent Recommendation把 LLM leaderboard、工具评测和组合 Agent 合成监督统一成 query-to-agent recommendation 数据接口，服务长尾 Agent marketplace 中的能力匹配。

171Tencent AMS / Peking University · PRISMPRISM: Parallel Residual Iterative Sequence Model用输入锚定代理把多步残差迭代优化压缩成可并行 Rank-L 写入，在推荐序列建模中兼顾线性吞吐和接近显式 solver 的表达力。

172ByteDance / Bernini Team · BerniniBernini: Latent Semantic Planning for Video Diffusion用 MLLM 在 ViT embedding space 做目标语义规划，再由 DiT renderer 在 VAE latent space 渲染，统一视频生成、视频编辑和参考引导任务。

173多校作者 · BTRankingsBradley-Terry Rankings for Recommender Systems Across Dataset Taxonomies推荐/检索接口：它把推荐算法评测从简单平均 NDCG 推向带数据集条件的成对胜负建模，直接回应“模型在一个榜单上领先但换数据集失效”的选择风险。

174Yandex / 多校作者 · GBLAGated Bidirectional Linear Attention for Generative Retrieval推荐/检索接口：它把生成式推荐的长历史瓶颈落到 encoder 复杂度，给出可部署的线性双向注意力层，而不是只讨论 decoder 或 semantic ID。

175多校作者 · CaLIRBeyond Matching: Category-Guided Latent Intent Reasoning for Generative Retrieval in E-Commerce推荐/检索接口：它把电商 query 的类目先验放进潜变量推理过程，对“短 query 到 SID”的语义鸿沟给出低延迟方案，是生成式检索上线链路最需要的那类改造。

176Renmin University 等 · EmbedFilterYour UnEmbedding Matrix is Secretly a Feature Lens for Text EmbeddingsLLM 推理与表示：它把 LLM embedding 质量问题解释到 unembedding 矩阵和高频 token 子空间，给 RAG/召回中的向量退化提供了可诊断干预点。

177多校作者 · PUMFrom Correctness to Utility: Gain-Based Prefix Evaluation for LLM ReasoningLLM 推理与表示：它把过程监督从“这一句对不对”改成“这个前缀是否提高最终解题概率”，适合用于大规模推理搜索、RLVR 和稀疏奖励场景。

178Tsinghua University 等 · DyConDyCon: Dynamic Reasoning Control via Evolving Difficulty ModelingLLM 推理与表示：它把 overthinking 控制从静态难度分类改成逐步难度状态估计，可以直接接到推理预算调度、长链路 agent 和数学/代码任务服务。

179Kuaishou / OneRec Team · OneReasonOneReason Technical Report把 itemic token 感知、三段式推荐 CoT 和 specialize-then-unify RL 串起来，让生成式推荐的 thinking mode 在真实业务 benchmark 与线上部署中转化为收益。

180多校作者 · LatentFlowReasoningLatent Reasoning with Normalizing Flows用 Normalizing Flows 把显式 CoT 压到连续潜变量空间的潜式推理

181多校作者 · OPRDOPRD: On-Policy Representation Distillation把 on-policy distillation 从输出概率扩展到教师表示层的后训练蒸馏

182多校作者 · AgentSkillDiscoveryUnsupervised Skill Discovery for Agentic Data Analysis不用人工标签发现数据分析 Agent 可复用技能的无监督流程

183ACL ARR · CoExRecCoExRec: Collaborative Filtering-Grounded Large Language Model Based Sequential Recommendation and Explanation Generation用协同过滤证据约束 LLM 序列推荐解释生成

184韩国作者 · ACEACE: Anisotropy-Controllable Embedding for LLM-enhanced Sequential Recommendation控制 LLM 物品向量各向异性以稳定序列推荐微调

185Beihang University · XetrievalXetrieval: Mechanistically Explaining Dense Retrieval从 embedding 层解释稠密检索打分的机制化框架

186Kuaishou Technology · UxSIDUxSID: Semantic-Aware User Interests Modeling for Ultra-Long Sequence用 Semantic IDs 把超长用户行为压缩成 user-SID 级 target-aware memory，在离线生成与在线 KV 点查之间折中搜索式长序列建模和静态压缩。

187HKUST(GZ) / Alibaba / ZJU / HKUST · StreamMAStreaming Communication in Multi-Agent Reasoning把多智能体推理从完整回复传输改为逐步流式通信，用 reasoning-step pipeline 同时降低端到端等待并减轻后续错误步骤对下游 agent 的误导。

188National University of Singapore 等 · SEESelf-Evaluation Is Already There: Eliciting Latent Judge Calibration in Base LLMs with Minimal Data把开放式回答后的自评校准视作 latent ability elicitation，用少量样本、校准耦合 RL 与 masked distillation 诱导模型预测外部 judge 分数。

189Shanghai Jiao Tong University · Depth-AttentionDepth-Attention: Cross-Layer Value Mixing for Language Models把跨层选择放入 attention 模块内部，让当前层 query 沿深度读取浅层 key/value，保持标准 KV cache 形状并改善 Qwen-style decoder 表现。

190Renmin University / ByteDance / Meituan · DS-MLPDual-Stream MLP is All You Need for CTR Prediction用 teacher 显式交互蒸馏、并行隐式 MLP 和双重 alignment，把 CTR 复杂双流交叉结构压回更易部署的双 MLP。

191UC Berkeley · CarbonRerankTrading Engagement for Sustainability: Carbon-Aware Re-ranking for E-commerce Recommendations先用 Carbon Catalogue、语义检索、few-shot LLM 与近邻回退估计商品碳足迹，再用单参数后处理重排刻画 engagement 与 carbon 的 Pareto 取舍。

192Kuaishou Technology · RGCD-RepBridging Short Videos and Live Streams: Reasoning-Guided Multimodal LLMs for Cross-Domain Representation Learning用教师 MLLM 生成短视频到直播的可迁移推理监督，蒸馏到轻量学生并分解 transferable/residual 表征，离线接入直播召回。

193Fudan University / Kuaishou · FlowTimeFlowTime: Towards Continuous Generative Watch Time Prediction via Flow-based Personalized Priors把观看时长预测从点回归和离散生成改写为连续生成式回归，用条件 normalizing flow 构造个性化 latent prior 以捕获用户/物品交互模式。

194Tsinghua University / Kuaishou · TaijiTaiji: Pareto Optimal Policy Optimization with Semantics-IDs Trade-off for Industrial LLM-Enhanced Recommendation把 LLM 作为工业推荐增强器，重点处理 CoT 质量评估和语义奖励/推荐奖励权衡。

195Fudan University · MARSMARS: Multi-rate Aggregation of Recency Signals for Sequential Recommendation across Sparse and Dense Regimes把真实时间戳和多尺度 recency 显式接入序列推荐，按稀疏/稠密场景选择 Transformer 或 Mamba。

196Pinterest · UniPinRecUniPinRec: Unifying Generative Retrieval and Ranking at Pinterest Scale把检索与排序从模型、训练到服务栈统一起来，用共享 Transformer 同时支撑 ANN 召回和 cross-attention 排序。

197UC San Diego · ACTSAgentic Chain-of-Thought Steering for Efficient and Controllable LLM Reasoning把推理 token 预算控制改成 controller agent 的逐步决策，让冻结 reasoner 在不同预算下切换策略。

198Georgia Tech · QUBRICQUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards把开放式指令改写、rubric 生成和可学习性筛选联动起来，解决非可验证任务 RL 的奖励稀疏和 rubric 模糊问题。

199Northeastern University · HybridThinkerHybridThinker: Efficient Chain-of-Thought Reasoning via Compressed Memory and Transient Thought Steps在 CoT 压缩记忆和临时思考步骤之间折中，避免模型训练时绕开 memory token，降低推理成本。

200 Shanghai Jiao Tong University · BitLM BitLM: Unlocking Multi-Token Language Generation with Bitwise Continuous Diffusion 把大词表 softmax 输出头改写成固定二进制码上的条件扩散去噪，用 block-causal backbone 和 diffusion head 原生支持多 token 联合生成。

201City University of Hong Kong / Kuaishou · GFN4RetentionModeling User Retention through Generative Flow Networks把用户留存视为 session 轨迹的终态奖励，用生成流网络和 refined detailed balance 把跨 session 留存归因到每一步推荐动作，同时保留点击、观看等即时反馈。

202Microsoft 等 · RHELMBeyond Static Dialogues: Benchmarking Realistic, Heterogeneous, and Evolving Long-Term Memory用带人物设定、时间演化、文档和邮件等异构资料的长程交互，检验 full-context、RAG 与记忆框架在真实记忆任务上的短板。

203多校作者 · SaFeAUBeyond Instance-Level Alignment and Uniformity: Semantic Factor Learning for Collaborative Filtering用语义因子路由、匹配和语义正样本对齐缓解协同过滤中的伪负样本与图卷积高成本问题，让矩阵分解也能吸收高阶协同信号。

204University of Queensland 等 · FOSTERFOSTER: First-order Dataset Distillation for Text-based Sequential Recommendation把文本序列推荐的训练集压缩成少量合成序列，用随机 item 子集、一阶优化和语义共现正则降低带语言模型 item encoder 的蒸馏成本。

205WeChat, Tencent Inc. · LLM-WikiRetrieval as Reasoning: Self-Evolving Agent-Native Retrieval via LLM-Wiki把外部文档编译成可搜索、可沿链接阅读、可持续修复的 Wiki 知识结构，让检索成为 agent 推理动作而不是一次性 top-k lookup。

206UC San Diego / Microsoft Research · SchGenSchGen: PCB Schematic Generation with Semantic-Grounded Code Representations用语义扎根的 Python 编辑原语生成可编辑 PCB schematic，把自然语言硬件需求转成 KiCad 可继续检查和导出 netlist 的结构化代码。

207Beihang University 等 · KBFKBF: Knowledge Boundary as Fingerprint for Language Model and Black-Box API Auditing把模型在知识边界附近稳定答出的数值当作指纹，用 benign probes 审计 relay/API 是否把声明模型替换成其他后端。

208University of Catania 等 · RAGEARRAGEAR: Retrieval-Augmented Graph-Enhanced Academic Recommender面向高校课程推荐，先在课堂转录 chunk 中做语义检索，再用课程-课时-转录-片段知识图谱把细粒度证据传播成课程级排序。

209多机构作者 · ExplicitFeedbackRecToward User Preference Alignment in LLM Recommendation via Explicit Context Feedback强调推荐系统应把评论、critique、负反馈原因等自然语言显式上下文反馈转成可更新 memory、约束和评价信号。

210Shanghai Jiao Tong University · NCCEContexting as Recommendation: Evolutionary Collaborative Filtering for Context Engineering把自动 context engineering 改写成 instance-context 推荐问题，用 collaborative filtering 为每个输入选择最合适的上下文策略。

211Harbin Institute of Technology, Shenzhen · NaLaFormerNorm×Direction: Restoring the Missing Query Norm in Vision Linear Attention它指出线性注意力归一化会抵消 query norm，导致 softmax 中“query norm 控制 entropy”的动态温度缺失；NaLaFormer 用 norm-aware power 和 cosine direction 同时恢复尖锐性与方向信息。

212Harvard CMSA · Compression MathCompression is all you need: Modeling Mathematics它把人类数学定义的层级压缩力抽象成幺半群上的扩张函数，给出 A_n 对数密度 macro 的指数扩张定理，并在 MathLib 463k 节点上用 unwrapped、wrapped、depth 三列趋势检验 HM ≈ A_n log-density 假设。

213Zhejiang University · MemFTHow LoRA Remembers? A Parametric Memory Law for LLM Finetuning它把 LoRA 作为可控的参数记忆探针，给出损失下降、有效参数和序列长度之间的幂律关系，并用 token 级阈值解释精确记忆何时发生。

214Nankai University · CRITIC-R1CRITIC-R1: Learning Structured Critics for Retrieval-Augmented Generation它不再让 critic 只给“答案对/错”的粗反馈，而是把 RAG 错误拆成 verdict、错误位置、推理分析和修复建议，并用分阶段奖励训练。

215Independent Researcher · Entity-CollisionEntity-Collision: A Stratified Protocol for Attributing Retrieval Lift in Agent Memory它把 agent memory 检索评测中的 lexical leakage 和 tag mixing 拆开，用所有 distractor 共享实体 token 的方式固定 BM25 下限，重新归因 dense embedder 的真实增益。

216AI at Meta · LoopFMLoopFM: Learning frOm HistOrical RePresentations of Foundation Model for Recommendation它把大推荐 foundation model 的中间 embedding 物化成垂直模型输入特征，绕开单标量 KD 的带宽瓶颈，并在工业系统里报告转移率和转化收益。

217City University of Hong Kong · UFRecLooking Farther with Confidence: Uncertainty-Guided Future Learning for Sequential Recommendation它把序列推荐中的 future supervision 从固定强度改成由当前预测置信度控制：模型确定时看得更远，不确定时回到 next-item 主任务。

218Pinterest, Inc. · AdsLLMFine-Tuned LLM as a Complementary Predictor Improving Ads System它避开“LLM 直接做在线 ranker”的重成本路线，让微调开源 LLM 预测可能 advertiser，再把预测作为候选生成和 ranking 的补充信号进入广告系统。

219Google / Google DeepMind · Gemini Embedding 2Gemini Embedding 2: A Native Multimodal Embedding Model from Gemini用 Gemini 原生多模态能力统一文本、图像、视频、音频和文档 embedding，减少 ASR/caption/OCR 中间瓶颈，并在检索、多语言、代码和专业领域 benchmark 上展示强覆盖。

220Tsinghua University / Tencent · AsymRecAsymmetric Generative Recommendation via Multi-Expert Projection and Multi-Faceted Hierarchical QuantizationAsymRec 把生成式推荐中的输入表示和输出监督解耦：输入侧用多专家连续语义投影保留 item embedding 拓扑并缓解热门偏置，输出侧用多面分层量化构造高保真离散 Semantic ID，在四个 Amazon 数据集和线上 pCVR A/B 中验证收益。

221Carnegie Mellon University · STVSelf-Trained Verification for Training- and Test-Time Self-ImprovementSTV 把“带参考答案时更会发现错误”的不对称能力转成 verifier 训练信号，并把验证器反馈用于 test-time refinement 与 verifier-in-the-loop 训练，缓解推理模型自我改进中的反馈膨胀和坏样本回流。

222AMAP, Alibaba Group · GPlanGenerative Spatiotemporal Intent Sequence Recommendation via Implicit Reasoning in AmapGPlan 把地图场景里的下一步服务推荐改成时空可执行的意图序列生成，用 Progressive Implicit CoT Distillation 把显式推理压进 latent tokens，再用 Spatiotemporal Counterfactual DPO 对齐真实地理约束。

223Harvard University · BESSelf-Improving Language Models with Bidirectional Evolutionary SearchBES 把前向候选演化和后向目标分解合在同一套搜索框架里，用组合、突变、交叉、转位等演化算子扩大候选空间，再用可检查子目标给稀疏验证信号补充密集反馈。论文同时把这个机制用于 post-training 样本生成和推理时 test-time search，在多跳推理和开放问题求解上报告了相对 best-of-N、tree search 和开源推理框架更稳定的收益。

224Tsinghua University · SGSDSkill-Conditioned Gated Self-Distillation for LLM ReasoningSGSD 研究在没有参考答案或成功轨迹这类强 privileged information 时，能否从经验压缩出的 skill bank 中构造 on-policy self-distillation 信号。它把 retrieved skill-mistake pair 看成需要验证的 teacher hypothesis，而不是直接模仿的金标；多个 skill-conditi

225Zhejiang University · MemTraceMemTrace: Tracing and Attributing Errors in Large Language Model Memory SystemsMemTrace 把 LLM memory pipeline 转换成可执行的 memory evolution graph，并针对失败案例逐步追踪操作子图，定位信息丢失、检索错配、更新污染等根因。论文还构造 MemTraceBench，覆盖 Long-Context、RAG、Mem0、EverMemOS 等代表性记忆系统，并展示自动归因信号可反过来指导 prompt optim

226LUCID Inc. · AMRSAffective Music Recommendation: A Rollout-Based World Model for Offline Preference OptimizationAMRS 讨论的是一个在线实验受伦理约束的推荐场景：功能音乐推荐真正目标不是点击或完播，而是用户情绪状态的 valence/arousal 改善。系统用 causal transformer 世界模型预测 engagement、rating、valence、arousal，再把它作为 in-silico simulator 和 stress-testing 工具，用行为克隆初始

227The Hong Kong Polytechnic University · MixRAGRecMixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based RecommendationMixRAGRec 针对 LLM 推荐中的 KG-RAG 粒度选择问题：简单 query 过度检索会引入噪声，复杂 query 检索不足又会缺失结构信息。它把系统拆成三个协作 agent：MoE retrieval agent 选择不同粒度的 KG expert，knowledge preference alignment agent 把图结构转成 LLM 友好的自然语言，co

228University of Otago · SIDTokenizerReliabilityHow Reliable Are Semantic-ID Tokenizer Comparisons in Generative Recommendation?这篇论文指出 SID-based generative recommendation 中常用的 SID-level top-K 评测隐含一个强假设：每个 SID 序列唯一映射到一个 item。作者在四个数据集、五类 tokenizer 上发现碰撞非常普遍，最高 30.5% item 参与碰撞，使 Hit@10 可被最高夸大 103.36%。他们提出 collision-awar

229Central South University / Shopee / NTU · ReSIDRethinking Generative Recommender Tokenizer用 FAMAE 学推荐充分字段表征，并用 GAOQ 做全局对齐正交量化，降低 Semantic ID 的语义歧义和自回归前缀不确定性。

230USTC / Huawei · RSIRCan Recommender Systems Teach Themselves?用推荐模型自身生成用户交互序列，并以真实后续行为的 rank 作为 fidelity control，过滤偏离偏好流形的合成数据后递归训练后继模型。

231JD.com / HIT / PKU / CAS · SA2CRQTowards Efficient and Generalizable Retrieval: Adaptive Semantic Quantization and Residual Knowledge Transfer用路径熵自适应分配 semantic ID 码长，并用头部语义流形锚定尾部商品学习，缓解生成式检索里的头部撞码和尾部泛化不足。

232University of Maryland / CMU · LMSleepLanguage Models Need Sleep在上下文驱逐边界用多次离线 recurrent pass 巩固最近上下文，把信息写入 SSM fast weights，再清空 KV cache，探索长程推理中的“记忆形成计算”。

233Cambridge 等 · VeriTraceVeriTrace: Evolving Mental Models for Deep Research Agents把深度研究 Agent 的中间理解写成 cognitive graph，并用解释更新、偏差反馈和 schema 修订三个回路持续校准任务状态。

234Stanford 等 · ABAAutomated Benchmark Auditing for AI Agents and Large Language Models用 Agent 自动审计复杂 LLM/AI Agent benchmark，发现隐藏依赖、规格缺口和错误 ground truth，并量化问题任务对模型排名的扭曲。

235多机构合作 · Meta-Modal AgentMeta-Modal Agent: Sequential Evidence Routing for Missing-Modality Candidate Reranking把多模态推荐冷启动中的缺失文本、图像、图和用户历史证据视为序贯证据路由问题，用 LLM reranker 在候选池内选择可信证据。

236多机构合作 · LENSLENS: A Staged Design for Interaction Granularityin Sequential CTR Prediction在 latent-query sequential CTR backbone 上加入目标条件 query gate 与 position bias，恢复 target-specific control，并给出 item density 相关的 conditioning 规则。

237西班牙研究团队 · RankAidFirst, do no harm: Breaking suicidogenic echo chambers in media recommendation把媒体推荐中的心理健康安全写进重排目标，在用户脆弱状态下惩罚高风险内容、提升支持性内容，避免 engagement 优化放大有害回音室。

238BIT / Huawei / Peking University / CAS · Claw-AnythingClaw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World把 always-on personal assistant 放进多月事件流、多服务和多设备环境中，评估 agent 在广域数字世界里的上下文推理、跨服务行动和主动辅助能力。

239HKUST / Tsinghua Law / Waterloo · LegalSearch-R1Can LLMs Time Travel? Enhancing Temporal Consistency in Legal Agentic Search through Reinforcement Learning把本地法规 RAG、在线搜索和时间索引强化学习结合，减少法律 agent 把当前法规错误套用到过去案件的 temporal inconsistency。

240Alibaba Cloud Computing · DVAODVAO: Dynamic Variance-adaptive Advantage Optimization for Multi-reward Reinforcement Learning在多奖励 GRPO 后训练中按组内奖励方差动态组合 advantage，兼顾训练稳定性、目标协同和准确性/格式/长度等多目标 Pareto 权衡。

241Zhejiang University / Alibaba · DeGReDeGRe: Dense-supervised Generative Reranking for Recommendation用 Lookahead Evaluator 为生成式重排提供逐步稠密监督，缓解点击置顶启发标签偏差和 list-level sparse reward 的归因难题。

242Tencent / Xiamen University · SIRENSIREN: Unified Multi-Granularity Semantic Interaction for Multi-Modal Lifelong User Interest Modeling把相似度召回、Semantic ID grouping 和多粒度语义交互接入长期用户兴趣建模，缓解多模态空间与协同空间错配。

243Alibaba Group / USTC · QGSFrom Item-Only to Query-Item: Query-Conditioned Generative Search with QGS in Quark把搜索历史从 item-only 序列改写为 query-item pair token，并用 query-conditioned next-item objective 减少 query switch 带来的监督噪声。

244一作主机构未在 arXiv HTML 中清晰展开 · SkillOptSkillOpt: Executive Strategy for Self-Evolving Agent Skills把 agent skill 当作冻结 agent 的外部可训练状态，用优化器模型基于 scored rollouts 生成有界 add/delete/replace 文本编辑，并通过 held-out validation gate、textual learning-rate budget、rejected-edit buffer 和 epoch-wise slow/meta update 稳定训练。

245多机构作者 · MemAuditMemAudit: Post-hoc Auditing of Poisoned Agent Memory via Causal Attribution and Structural Anomaly Detection针对记忆增强 LLM agent 中通过普通交互写入恶意记忆的攻击面，提出事后审计框架，结合 counterfactual memory influence score 与 memory consistency graph，定位 harmful behavior 背后的高风险记忆。

246The Pennsylvania State University · Parallel Context CompactionParallel Context Compaction for Long-Horizon LLM Agent Serving把长程 agent 历史的一次性同步摘要改成分块并行压缩，让摘要体积、延迟和吞吐成为可预算的服务参数，降低主 agent 被摘要调用阻塞的风险。

247Tubi / Fox 相关团队 · TubiFMTubiFM: Unified Item, Carousel, and Search Ranking for Streaming Discovery将用户属性、会话、观看、surface、carousel context 和 search event 序列化为 user story，用 language tokens 与 domain event tokens 混合，把 item、carousel、search ranking 统一为 prompted next-token prediction。

248Microsoft AI India · HARNESS-LMHARNESS-LM: A Three-Phase Training Recipe for Harnessing SLMs in Sponsored Search Retrieval用 billion-scale SLM teacher retriever 建立质量上界，再用 L2 query representation alignment 蒸馏到 sub-600M student encoder，最后做 contrastive refinement，目标是在赞助搜索中同时保留检索质量和线上低延迟。

249Netflix Research · Netflix Generative RecommendersTowards Generalizable and Efficient Large-Scale Generative Recommenders把用户行为作为事件序列，研究 Netflix production-scale title recommendation 中 2M 到 1B backbone 的 task-dependent scaling，并围绕训练效率、serving latency 和新 title 泛化提出 multi-token prediction、sampled softmax、projected decoding head、semantic item towers 与 collaborative-embedding masking。

250UIUC / Meta AI / UIC · InterFormerInterFormer: Effective Heterogeneous Interaction Learning for Click-Through Rate Prediction用 Interaction Arch、Sequence Arch 和 Cross Arch 让非序列特征与行为序列在 CTR 模型中双向交换信息。

251TikTok / ByteDance · PEARLPEARL: Unbiased Percentile Estimation via Contrastive Learning for Industrial-Scale Livestream Recommendation用用户级历史对比池把 watch time、消费、互动等反馈转成用户内百分位，缓解高活跃用户支配训练的直播推荐偏差。

252Meta AI · WukongWukong: Towards a Scaling Law for Large-Scale Recommendation用 stacked factorization machines 和 dense scaling 策略，让推荐系统交互模块在百 GFLOP/example 级别仍保持稳定质量提升。

253Meta Platforms, Inc. / OpenAI · KunlunKunlun: Establishing Scaling Laws for Massive-Scale Recommendation Systems through Unified Architecture Design用 GDPA、HSP、CompSkip 和事件级个性化重构异构特征 CTR 架构，把推荐系统扩模问题从“更大模型”推进到可测量的 scaling efficiency。

254Kyutai · KairosUnderstanding Data Temporality Impact on Large Language Models Pre-training用 KairosQA 和 6B 预训练对照实验量化 Common Crawl 时间顺序、知识新鲜度与模型能力之间的关系。

255RPI / IBM Research · LCGuardLCGuard: Latent Communication Guard for Safe KV Sharing in Multi-Agent Systems在多智能体系统中允许共享有用 KV 表征，同时用潜通信 guard 降低隐私重构和敏感信息泄漏风险。

256上海交通大学 / 华为 · DeltaBoxDeltaBox: Scaling Stateful AI Agents with Millisecond-Level Sandbox Checkpoint/Rollback用 DeltaState、DeltaFS 和 DeltaCR 把 agent 沙箱的状态保存与回滚降到毫秒级，支撑并行搜索、分支试错和安全恢复。

257SK Telecom / KAIST · ABPODon't Let Bandit Feedback Pull Continual LLM-Recommender Updates Off Target在持续 LLM 推荐更新中把曝光偏差和反馈歧义显式纳入偏好优化，避免模型被线上 bandit feedback 牵引到错误方向。

258清华大学 / 京东 · TGQ-FormerText-Guided Visual Representation Learning for Robust Multimodal E-Commerce Recommendation用文本 query 引导商品视觉表征，并通过 reliability-aware dual-gated modulation 缓解电商图像噪声和模态错配。

259美团 · GenLIGenerative Long-term User Interest Modeling for Click-Through Rate Prediction用 IGM、BRM 和 IFM 生成并融合长期兴趣表征，提升 CTR 模型对长序列、稀疏行为和兴趣迁移的建模能力。

260Airbnb · Natural Language SearchBridging the Cold-Start Gap: LLM-Powered Synthetic Data Generation for Natural Language Search at Airbnb用 seed-guided contrastive generation 解决自然语言搜索冷启动训练和评估样本不足。

261Nanyang Technological University · GCRSGenerative Conversational Recommender System把对话推荐统一成 intent、semantic ID target 和 response 的结构化自回归生成。

262Shandong University · ThinkGRIntegrating Chain-of-Thought into Generative Retrieval: A Preliminary Study在生成式检索中交替生成 thought 和 docid，用 hybrid decoding 支持多跳检索。

263MIT / Sakana AI · VPOVector Policy Optimization: Training for Diversity Improves Test-Time Search把 RL 后训练从单标量最优改为覆盖 reward vector 的多样候选集合，服务 best@k/search。

264NVIDIA · Gated DeltaNet-2Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention在线性注意力中分离 erase gate 与 write gate，改善固定状态长上下文记忆编辑。

265USTC / HKUST / HKBU · MOSSMOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems把 self-evolving agent 的修改范围推进到源码层，并用 trial replay、verdict 和 rollback 约束。

266University of the Chinese Academy of Sciences · BRIDGE / BGCCBehavior-Guided Candidate Calibration for Multimodal Recommendation它不是继续把视觉/文本特征做得更强，而是问“内容证据什么时候该进入最终候选排序”。这个问题非常贴近多模态推荐线上链路：粗排候选空间可以保持稳定，最后几百或几十个候选才用行为证据做残差校准。

267City University of Hong Kong · RPORecReinforced Preference Optimization for Reasoning-Augmented Recommendations它把 LLM 的显式推理接入推荐任务，但没有停留在“让模型生成理由”。RPORec 用推荐头给 reasoning 提供任务反馈，并报告了工业广告系统的 nearline/online 部署形态，适合作为 LLM4Rec 从论文走向链路的样

268Meta Platforms, Inc. · LLM Ad RetrievalLLM Retrieval for Stable and Predictable Ad Recommendations它把广告推荐的评价从单纯 Recall/NDCG 扩展到 stability 与 predictability，并把 LLM 生成的广告语义属性用于候选生成。对广告系统来说，稳定性本身就是产品体验和投放可信度指标。

269论文首页未清晰列出统一机构 · Search-E1Search-E1: Self-Distillation Drives Self-Evolution in Search-Augmented Reasoning它针对搜索增强推理训练中的“复杂组件堆叠”做减法：只用 vanilla GRPO 和 offline self-distillation，让 agent 从自己的 sibling rollout 中学习更有效搜索路径。对 RAG/搜索 Ag

270State Key Lab of CAD&CG, Zhejiang University · DeferMemDeferMem: Query-Time Evidence Distillation via Reinforcement Learning for Long-Term Memory QA它把长期记忆系统的关键动作推迟到 query-time：先高召回取候选，再按具体问题蒸馏成自包含证据。对 Agent 长期记忆、个性化 RAG 和推荐用户画像压缩都非常相关。

271论文首页列出 1/2 编号机构，但公开文本片段未完整展开 · ArborKVArborKV: Structure-Aware KV Cache Management for Scaling Tree-based LLM Reasoning它针对 Tree-of-Thought 等搜索式推理的实际瓶颈：分支、回溯和 frontier 会让 KV cache 急剧膨胀。ArborKV 从搜索树结构出发做 cache eviction 和 lazy rehydration，对测试

272 技术脉络 · MQL4GRec / MACRec / SynGR 从 MQL4GRec 到 MACRec 再到 SynGR：多模态生成式推荐的技术演化与工程取舍 把统一量化语言、跨模态量化对齐和协同语义串成一条线，并讨论双 SID、多任务训练与双路推理的成本收益比。

273 ServiceNow / Mila / UdeM · Mem-π Mem-π: Adaptive Memory through Learning When and What to Generate 把长期记忆从相似度检索改成会 abstain、会生成当前指导的 memory policy。

274 Boston University / Harvard · PALS PALS: Power-Aware LLM Serving for Mixture-of-Experts Models 把 GPU power cap 和 batch size 联合纳入 vLLM 运行时控制，在 MoE serving 中提升能效并降低 QoS violation。

275 Stanford · Agent JIT Agent JIT Compilation for Latency-Optimizing Web Agent Planning and Scheduling 把网页 Agent 任务即时编译成可执行代码计划，并用协议约束和调度器减少逐步 CUA 的模型往返。

276 Amazon AGI / AWS · LTC Layer-wise Token Compression for Efficient Document Reranking 把 token 压缩放到 cross-encoder 中间层，在保留 query-document 交互后降低重排推理成本。

277 人大 / 山大 / 北大 · MDCNS Divergence Meets Consensus: A Multi-Source Negative Sampling Framework for Sequential Recommendation 用 Teacher-Peer-Self 多源分歧与共识蒸馏改进序列推荐 hard negative sampling。

278 人大 / Ant International · DelTA DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards 从判别式 token-gradient 视角重分配 RLVR 信用，让高奖励和低奖励响应的关键 token 更新更清晰。

279 ICML 2026 · 推荐/广告/LLM4Rec 汇总 ICML 2026 推荐、广告与 LLM4Rec 筛选论文汇总 核验 35 篇 ICML 2026 相关论文，跳过已有完整笔记的重复项，按广告机制、生成式推荐、图推荐、RAG/Agent 和可靠推荐整理工程导读。

280 东北大学 / 中山大学深圳校区 · CausalDPO Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation 把后门调整、软聚类伪环境和 MMD 不变性正则接入 DPO，缓解生成式推荐在分布偏移下放大环境混杂的问题。

281 Virginia Tech 等 · HypRQ-VAE HypRQ-VAE: Long-Tail-Aware Item Indexing for Generative Recommender Systems 把 RQ-VAE 的残差量化迁移到双曲空间，为生成式推荐构造更长尾友好的 semantic ID。

282 北京航空航天大学 · SynGR SynGR: Unleashing the Potential of Cross-Modal Synergy for Generative Recommendation 用显著性遮蔽和协同对比学习打断单模态捷径，让多模态生成式推荐真正利用视觉与文本的联合语义。

283 北航 / 美团 · MACRec Multi-Aspect Cross-modal Quantization for Generative Recommendation 把跨模态对比学习放进 RQ-VAE 残差量化，并用隐式/显式对齐增强多模态生成式推荐。

284 中山大学 / 鹏城实验室 · MQL4GRec Multimodal Quantitative Language for Generative Recommendation 把文本和图像 item 内容翻译成共享 quantitative language，通过 QLG 任务和预训练迁移推荐知识。

285 中国科学技术大学 · MemWeaver MemWeaver: A Hierarchical Memory from Textual Interactive Behaviors for Personalized Generation 把用户文本交互历史组织成行为记忆和认知记忆，同时利用时间演化与语义关联来增强个性化生成。

286 UCF / Mobi.AI / Rice · TIDE TIDE: Efficient and Lossless MoE Diffusion LLM Inference with I/O-aware Expert Offload 利用扩散式 MoE 语言模型在同一 denoising block 内的专家激活稳定性，减少 GPU-CPU 专家迁移，做无训练、无损的推理加速。

287 浙江大学 / 阿里 Qwen · Graft Draft Less, Retrieve More: Hybrid Tree Construction for Speculative Decoding 把动态剪枝释放出的候选预算用于检索嫁接，用近乎零额外开销补回草稿树覆盖率，在短上下文和长上下文生成中提升投机解码速度。

288 北航等 · BalanceRAG BalanceRAG: Joint Risk Calibration for Cascaded Retrieval-Augmented Generation 把 LLM-only 与 RAG fallback 的两个不确定性阈值作为二维格点联合校准，在目标风险约束下尽量提高覆盖率并减少不必要检索。

289 MIT CSAIL / Stanford · PEEK PEEK: Context Map as an Orientation Cache for Long-Context LLM Agents 在 agent prompt 中维护固定大小的 context map，缓存可复用的外部上下文定向知识，让长期反复访问同一语料或代码库的 Agent 更快、更便宜。

290 Microsoft / 厦门大学 / 上海交大 · m3BERT m3BERT: A Modern, Multi-lingual, Matryoshka Bidirectional Encoder 面向搜索和广告检索，把 embedding 维度与 transformer 层数都做成可裁剪的 Matryoshka 结构，并用 10B query-document 点击对做 Web 域预训练。

291 滴滴 / 港大 / 哈工大 / 香港理工 · D3-Subsidy D3-Subsidy: Online and Sequential Driver Subsidy Decision-Making for Large-Scale Ride-Hailing Market 用前缀条件扩散模型规划城市级未来轨迹，再通过逆动力学和拉格朗日对偶映射落到订单-司机补贴，线上 A/B 提升 Rides、GMV 和 DRV。

292 多校 · RAGR Review-Augmented Generative Recommendation 把评论语义放进生成式推荐序列，再用 DPO 避免 review token 抢走 item 预测目标。

293 快手 · DADF Distribution-Aware Debiasing Framework for Watch-Time Regression 在已有 watch-time predictor 后面接乘法残差修正器，专门处理局部校准偏差。

294 淘宝 · GrowthGR Multi-Value-Aware Retrieval Framework for E-Commerce Search 把新品长期增长价值显式接入 semantic-ID 生成式召回，服务电商搜索增长。

295 UNIST · EPIC Preference-Aligned Memory Construction for On-Device RAG 不再无差别保存原始资料，而是把端侧记忆压成偏好对齐的轻量 memory。

296 清华 / CMU / Lisbon · DashAttention Differentiable and Adaptive Sparse Hierarchical Attention 用 alpha-entmax 替代硬 top-k，让长上下文稀疏注意力按 query 自适应选块。

297 University of Virginia / Nokia · SAPO Step-Aligned Policy Optimization for Generative Recommendation 把 SID 的层级结构转成 RL credit assignment 的层级结构，缓解生成式推荐训练错位。

298 UCSD / Snap · Latte Expressiveness Limits of Autoregressive Semantic ID Generation 指出单棵 SID 解码树会耦合物品概率，并用 latent token 扩展表达力。

299 Generative Rec · CapsID Soft-Routed Variable-Length Semantic IDs for Generative Recommendation 用 capsule routing 做软路由，并通过 SEMANTICBPE 压缩相邻语义 token。

300 Microsoft MSN · Trinity Scenario-Aware Recommendation Framework for Large-Scale Cold-Start Users 面向新场景冷启动，把跨场景特征、模型更新准入和 COPC 校准串成系统方案。

301 华东师范大学 · VarLenRec Learning Variable-Length Tokenization for Generative Recommendation 让语义 ID 长度按商品流行度和语义复杂度自适应分配，缓解固定长度冲突。

302 阿里淘宝天猫 · RecGPT-Mobile On-Device LLMs for User Intent Understanding 端侧轻量 LLM 将用户最近行为压缩成 query/tags，再接入云端召回系统。

303 NeurIPS 2023 · TIGER Transformer Index for Generative Recommenders 生成式推荐的重要起点：把推荐问题改写成 semantic ID 的自回归生成。

304 Memory Augmented Recommendation · MARM 推荐系统中的记忆增强突破 借鉴 LLM 的 KV cache 思路，用缓存降低推荐系统多层注意力的在线计算成本。

305 NUS · LLM2Rec LLMs Are Powerful Embedding Models for Sequential Recommendation 探索如何让 LLM embedding 同时捕获协同过滤信号和文本语义。

306 KAIST · PerPEFT Personalized Parameter-Efficient Fine-Tuning of Foundation Models for Multimodal Recommendation 给每一群兴趣相近的用户单独训练一份 PEFT 模块，并用组内硬负样本让 CLIP 对同一件商品在不同人群眼中切换关注重点。