Multimodal Quantitative Language for Generative Recommendation

把文本和图像 item 内容翻译成共享 quantitative language;学术叙事完整,但完整工业链路成本收益并不划算。

生成式推荐多模态推荐Quantitative LanguageICLR 2025

MQL4GRec:面向生成式推荐的多模态量化语言

基本信息

字段内容
英文标题Multimodal Quantitative Language for Generative Recommendation
中文标题MQL4GRec:面向生成式推荐的多模态量化语言
作者Jianyang Zhai, Zi-Feng Mai, Chang-Dong Wang, Feidiao Yang, Xiawu Zheng, Hui Li, Yonghong Tian
机构Sun Yat-sen University;Pengcheng Laboratory;Guangdong Key Laboratory of Big Data Analysis and Processing;Xiamen University;Peking University
来源OpenReview;ICLR 2025
日期2025-01-22 OpenReview publication record
论文入口OpenReview:v7YrIjpkTF
代码/项目GitHub: zhaijianyang/MQL4GRec
本地 PDF中山大学-MQL4GRec.pdf
历史重复未发现已有完整 MQL4GRec 本地笔记或主页页面;此前只作为 SynGR/MACRec 的相关工作或 baseline 出现

一句话结论

MQL4GRec 的核心思想是把不同领域、不同模态的 item 内容都翻译成一种共享的 quantitative language,让生成式推荐不再依赖原始 item ID,也不只是把 PLM 当作文本生成器。它用文本和图像各自的 RQ-VAE translator 将 item 内容转成小写/大写前缀的离散 token,共同组成一个跨域跨模态词表;再设计 next item generation、asymmetric item generation 和 quantitative language alignment 三类生成任务,通过 source-domain pre-training 与 target-domain fine-tuning 迁移推荐知识。

但从工业推荐系统的成本收益比看,这篇论文更像一个“概念组合型” representation learning story,而不是一个划算的上线方案。它可以压缩成 TIGER 式 RQ-VAE semantic ID、文本/图像双模态 SID、六类生成任务、双分支 beam search 后融合。这个组合在 ICLR 语境下叙事完整,因为它踩中了 semantic ID、generative recommendation、multimodal、cross-domain transfer、shared vocabulary 和 pretraining-finetuning;但它也明显增加了 translator 训练、双 SID 维护、多任务训练、双分支解码和启发式 fusion 的复杂度。后面读这篇论文时,应同时保留两种判断:学术上它是合格的统一框架,工业上它的完整 pipeline 不值得直接照搬。

背景与问题

传统推荐系统通常用 unique item ID 表示物品。IDRec 的优势是简单、稳定、易训练,但它把 item 当作离散编号,难以表达文本、图像和跨域知识;新 item 或冷启动 item 也很难从内容中自然获得可迁移表示。随着 PLM 和 seq2seq 生成模型进入推荐领域,生成式推荐开始把目标 item 的标识符当成要生成的 token 序列,这给“把推荐改写成语言生成任务”提供了机会。

但直接把自然语言 PLM 用到推荐有明显错位。PLM 的词表和预训练任务面向通用语言,而推荐需要表达商品、电影、游戏、乐器等 item 的离散身份、相似关系和用户偏好迁移。用自然语言描述 item 太长、噪声大、生成空间过宽;用原始 item ID 又没有跨域语义,难以把一个领域学到的推荐知识迁移到另一个领域。MQL4GRec 的切入点正是这个中间地带:构造一种比自然语言更短、比 item ID 更有语义、且跨模态共享的“量化语言”。

Figure 1:不同领域和模态的 item 被翻译到统一 quantitative language

图 1 把论文动机压缩得很清楚。Arts 里的 “18 Piece Acrylic Paint Set” 和 Movies 里的 “Sengoku Basara: The Last Party” 原本属于不同领域,也有文本和图片两种内容;MQL4GRec 希望把它们都翻译成由共享词表组成的短 token 序列,例如文本 token 使用 $a,b,c,d$ 前缀,图像 token 使用 $A,B,C,D$ 前缀。这样,模型学习到的不是某个领域的 item 编号,而是一套可以跨领域、跨模态复用的离散语言。

这篇论文的关键假设是:推荐知识可以通过共享 token vocabulary 迁移。自然语言模型之所以能迁移,是因为不同任务共享词表和语义 token;推荐如果也能把不同领域 item 映射到共享的 quantitative language,就可以通过 pre-training/fine-tuning 迁移 source-domain 的推荐模式。同时,文本和图像被翻译到同一套语言框架后,模型也能通过跨模态任务学习用户偏好的不同侧面。

核心方法

MQL4GRec 可以分成三个层次:第一,用 quantitative translator 把 item 文本和图像变成离散 token;第二,设计 quantitative language generation tasks,让这些 token 不只是压缩码,而是带有推荐语义的语言;第三,通过 pre-training、fine-tuning 和 reranking 把 source-domain 与 multimodal knowledge 转移到目标推荐任务。

Figure 2:MQL4GRec 的 translator、量化语言生成任务和预训练/微调框架

图 2 左侧展示 translator:冻结的 modal encoder 先把文本或图像变成连续 representation,再由 RQ-VAE 量化成多层 codeword。中间的 codebook 构成 quantitative language vocabulary。右侧展示三类任务:Next Item Generation 负责主推荐目标,Asymmetric Item Generation 让一种模态历史预测另一种模态目标,Quantitative Language Alignment 直接在 item level 对齐文本和图像 token。下方的 encoder-decoder 模型通过 task prompt、source sequence 和 target sequence 统一训练这些任务。

1. Quantitative translator:把内容翻译成短离散语言

对 item 的文本或图像内容,MQL4GRec 先使用冻结 modal encoder 得到连续表示 $h$。然后训练 RQ-VAE:encoder 把 $h$ 映射到 latent representation $z$,多层残差量化逐层选择最近 codeword。第 $i$ 层的选择为:

$$ c_i=\arg\min_k\|r_i-v_k^i\|_2^2, $$

残差更新为:

$$ r_{i+1}=r_i-v_{c_i}^i,\qquad r_1=z. $$

若有 $L$ 层 codebook,量化表示为:

$$ \hat{z}=\sum_{i=1}^{L}v_{c_i}^i. $$

再用 decoder 重构 item representation $\hat{h}$。训练目标包含重构损失和 RQ-VAE codebook 损失:

$$ \mathcal{L}_{\mathrm{recon}}=\|h-\hat{h}\|_2^2, $$
$$ \mathcal{L}_{\mathrm{rqvae}} =\sum_{i=1}^{H}\left( \|\mathrm{sg}[r_i]-v_{c_i}^i\|_2^2 +\beta\|r_i-\mathrm{sg}[v_{c_i}^i]\|_2^2 \right), $$
$$ \mathcal{L}(h)=\mathcal{L}_{\mathrm{recon}}+\mathcal{L}_{\mathrm{rqvae}}. $$

文本和图像各有一个 translator。文本 codeword 加小写前缀,得到 $V_t=\{a_1,b_2,\ldots,d_K\}$;图像 codeword 加大写前缀,得到 $V_v=\{A_1,B_2,\ldots,D_K\}$;最终词表是 $V=\{V_t,V_v\}$。如果每个 translator 有 $L$ 层、每层 $K$ 个 codeword,词表大小是 $2LK$,而可表示 item 组合数是 $K^L$

这个设计有两个工程优点。第一,item 表示很短,例如一个文本 item 可以表示为 $\langle a_2\rangle\langle b_3\rangle\langle c_1\rangle\langle d_6\rangle$,比自然语言标题短得多。第二,大小写前缀保留了模态身份,让模型知道同一位置的 $a_2$$A_2$ 来自不同 modality,不会完全混淆。

2. Handling collisions:按 residual-code 距离重新分配冲突 item

量化会带来 item collision:多个 item 获得同一 token 序列。TIGER 等方法常在末尾追加 item index,这能消除冲突,但追加 token 未必有语义,可能把无关分布塞进生成空间。MQL4GRec 选择基于距离重分配。

$N$ 个冲突 item,先计算每个 residual 到各层 codeword 的距离:

$$ d_k^i=\|r_i-v_k^i\|_2^2. $$

然后按最后一层最小距离对冲突 item 排序,从最后一层开始为每个 item 分配最近且未被占用的 token;如果最后一层 token 不够,再从倒数第二层开始调整,并重复直到冲突被处理。这个策略的直觉是:尽量在 residual 空间里选择“离该 item 最近”的替代 token,而不是添加一个完全无语义的编号层。

3. Quantitative language generation tasks:让量化 token 获得推荐语义

如果只训练 RQ-VAE,quantitative language 只是压缩码,不一定承载推荐任务需要的行为语义。MQL4GRec 因此设计三类 seq2seq 任务,并用 special prompt token 标识任务类型。

Next Item Generation 是主任务。给定用户历史 item token sequence,生成目标 item token。因为每个 item 有文本和图像两种 quantitative language,所以有 Next Text Item Generation 和 Next Image Item Generation 两个子任务。它们分别学习用户对文本语义和视觉语义的偏好。

Asymmetric Item Generation 用一种模态历史预测另一种模态目标。例如输入文本 quantitative language 历史,输出下一个 item 的图像 quantitative language;或者输入图像历史,输出文本目标。这个任务让模型在序列层面学习模态之间的互补关系,不只是在同一 item 上做对齐。

Quantitative Language Alignment 是 item-level 显式对齐。给定某个 item 的文本 token,生成它的图像 token;给定图像 token,生成文本 token。这个任务更直接地告诉模型:同一 item 的两套 token 是同一语义对象的不同语言表达。

4. Pre-training、fine-tuning 与 reranking

所有任务都被写成条件语言生成,优化目标是 negative log-likelihood:

$$ \mathcal{L}_{\theta} =-\sum_{j=1}^{|Y|}\log P_{\theta}(Y_j\mid Y_{<j},X), $$

其中 $X$ 是 encoder 输入序列,$Y$ 是 decoder 目标序列。训练分两阶段:pre-training 使用 source-domain datasets,主要做 next item generation,把源领域推荐知识注入 quantitative language;fine-tuning 在 target domain 上使用全部 QLG 任务,把源域知识和跨模态知识适配到目标推荐。

推理时,文本子任务和图像子任务各自通过 beam search 生成推荐列表 $R_t$$R_v$。MQL4GRec 用 reranking 合并两者,认为同时出现在两个列表中的 item 更可信:

$$ s(x)= \begin{cases} (s_t(x)+s_v(x))/2+1, & x\in R_t,\ x\in R_v,\\ s_t(x), & x\in R_t,\\ s_v(x), & x\in R_v. \end{cases} $$

这个 $+1$ 是一个很强的交集奖励,相当于显式偏好“文本和图像两种偏好都认可”的候选。它体现了论文的基本立场:多模态推荐不应只取一个模态的最高分,而应奖励跨模态一致候选。

实验与结果

论文使用 Amazon Product Reviews 数据。预训练源域包含 Pet Supplies、Cell Phones and Accessories、Automotive、Tools and Home Improvement、Toys and Games、Sports and Outdoors 六个类目;下游目标域是 Musical Instruments、Arts Crafts and Sewing、Video Games。每个 item 有 title、description 和 image,用户和 item 过滤阈值是至少 5 次交互,最大序列长度设为 20。评估采用 leave-one-out 和 full ranking,指标是 Recall/HR 与 NDCG,beam size 统一为 20。

baseline 包括 GRU4Rec、BERT4Rec、SASRec、FDSA、S3-Rec、VQ-Rec、MISSRec、P5-CID、VIP5、TIGER。这样设置覆盖了 RNN/Transformer sequential recommendation、内容增强推荐、PLM prompt 推荐和 semantic ID 生成式推荐。

Table 1:MQL4GRec 与多类 baseline 的总体性能比较

表 1 显示 MQL4GRec 在大多数指标上达到最优,尤其 NDCG 指标提升明显。Instruments 上 NDCG@10 从最强 baseline TIGER 的 0.0950 提升到 0.1060;Arts 上从 VQ-Rec 的 0.0844 提升到 0.0950;Games 上从 FDSA/MISSRec 等强 baseline 的约 0.0509/0.0499 提升到 0.0548。论文摘要中总结为三类数据集 NDCG 分别提升 11.18%、14.82%、7.95%。

结果也说明不同 baseline 的短板不同。MISSRec 这类多模态序列模型在一些指标上很强,说明 item content 确实有价值;TIGER 在 Instruments 和 Arts 上表现不错,说明 semantic ID 生成路线有效;但它们要么缺少跨域预训练,要么没有充分利用图像与文本的互补知识。MQL4GRec 的优势来自把内容压缩成共享语言,并通过 QLG tasks 让这种语言承担推荐任务。

Table 2:基于 residual-code 距离的 collision handling 消融

表 2 验证了 collision handling。相比 TIGER 直接加 item index,MQL4GRec 的距离重分配在 Instruments 和 Games 上明显更好,例如 Instruments HR@10 从 0.1221 提升到 0.1277,NDCG@10 从 0.0950 提升到 0.0987;Games HR@10 从 0.0857 提升到 0.0885,NDCG@10 从 0.0453 提升到 0.0473。这个结果支持论文观点:处理 collision 时保留 residual 空间的语义邻近性,比追加无语义 token 更合理。

Table 3:NIG、AIG、QLA 三类任务在无预训练设置下的贡献

表 3 先不使用 pre-training,只看 QLG tasks 的组合。无论以文本子任务还是图像子任务评估,随着从 NIG 到 NIG+AIG,再到 NIG+AIG+QLA,整体表现基本提高。以 Games 为例,文本侧 HR@10 从 NIG 的 0.0928 提升到加 AIG 的 0.1002,再到加 QLA 的 0.1010;图像侧 NDCG@10 从 NIG 的 0.0487 提升到加 AIG 的 0.0534,再到加 QLA 的 0.0540。AIG 的收益尤其明显,说明跨模态序列生成比单 item 对齐更能传递推荐知识。

不过这组结果也暴露了“堆任务”的问题。NIG 是主任务,AIG 是最像有效辅助监督的跨模态生成任务,QLA 则更像为了补齐 text-image alignment 叙事而加入。附录更详细的 Table 7 显示,QLA 单独加到 NIG 上并不稳定:Text 模态下,Instruments 从 0.1277/0.0987 变成 0.1275/0.0986,Games 从 0.0885/0.0473 变成 0.0871/0.0465,反而略降。论文也承认 QLA 需要和 AIG 搭配才更有效。也就是说,六类任务的学术叙事完整,但真正值得借鉴的主要是 AIG 这种 cross-modal generation 辅助监督。

Table 4:pre-training、QLG tasks 与 reranking 的逐步消融

表 4 进一步说明预训练与 reranking 的作用。单文本 NIG1 在 Instruments/Arts/Games 的 HR@10 是 0.1277/0.1163/0.0885;加入 QLG 后变成 0.1282/0.1293/0.1010;NIG1 加预训练后变成 0.1334/0.1305/0.0950;QLG 加预训练后在 Instruments 和 Arts 继续提升,但 Games 略有回落;最终通过双模态 reranking 达到 0.1375/0.1327/0.1033。这个表说明 MQL4GRec 不是单靠一个技巧,而是量化语言、任务设计、预训练和双模态合并共同发挥作用。

同时也要看到,最终 reranking 的边际收益并不大。QLG w/ pre-training 到最终 MQL4GRec,Instruments 只从 0.1362/0.1051 提升到 0.1375/0.1060,Arts 从 0.1314/0.0944 到 0.1327/0.0950,Games 从 0.0995/0.0521 到 0.1033/0.0548。考虑到推理时需要多跑一个 branch 的 beam search,并维护两套 SID 到 item 的映射,这个收益不足以自然支撑工业部署。更关键的是,Eq. 7 只是对两个列表交集固定加 $1$,没有证明 text branch 和 image branch 的 beam score 同分布,也没有处理 beam size、长度归一化、候选规模变化时的校准问题。

我的理解

MQL4GRec 最有价值的抽象,是把推荐系统里的 item 内容压缩成“可生成的离散语言”。它既不是自然语言,也不是无语义 item ID,而是由 RQ-VAE codebook 组成的任务词表。这个抽象让推荐能借鉴语言模型的 pre-training/fine-tuning 范式:只要多个领域和模态共享一套 token vocabulary,源域中的序列规律就有机会迁移到目标域。

与 TIGER 相比,MQL4GRec 的重要变化在于 token 不再只来自单一 item embedding,而是有文本和图像两个 translator,并且有任务去教模型理解两者关系。与普通多模态推荐相比,它又没有把图像和文本停留在连续 embedding 融合,而是把它们都离散成生成目标。这使得模型可以直接生成 item identifier,并通过 constrained beam search 映射回候选 item。

Figure 3:预训练源域数量对下游 HR@10 的影响

图 3 让我看到 MQL4GRec 的边界。文本 NIG1 的预训练数据量越多,三个目标域一般越好,说明文本 quantitative language 确实从更多 source domain 里吸收了可迁移推荐模式。但双模态 QLG 预训练在 Games 上随源域数量增加反而下降,说明跨模态知识迁移不是越多越好。Games 的图像和文本可能与 Pet、Cell、Automotive、Tools、Toys、Sports 的内容分布差异更大,源域多模态规律会和目标域偏好发生冲突。

Figure 4:预训练 epoch 对单文本 NIG 与双模态 QLG 的影响

图 4 进一步说明过训练风险。单文本 NIG1 预训练随 epoch 增加逐渐稳定;双模态 QLG 在 Instruments 和 Arts 较早达到较好结果,继续训练可能损害迁移,在 Games 上还会随 epoch 增加下降。这个现象对工程很关键:多模态预训练的目标不是把源域拟合到最好,而是在可迁移知识和目标域差异之间找到平衡。特别是当目标域视觉风格和源域差异大时,过多跨模态预训练会把错误归纳带入 fine-tuning。

我也认为 reranking 的 $+1$ 交集奖励虽然有效,但有点手工规则味道。它假设文本和图像列表交集一定更可靠,通常合理,但在图像质量差、文本标题误导或模态缺失时可能过强。后续可以把这个规则改成可学习的 fusion,或者让模型输出校准后的 modality confidence,而不是固定加一。

从后续工作看,MACRec 可以被视为对 MQL4GRec 的一个直接加强:MQL4GRec 建立 quantitative language 框架,但 text/image translator 基本独立;MACRec 则把跨模态伪标签和对比学习放进量化过程,降低 collision 并改善 codebook utilization。SynGR 又从另一个方向补充:即使语言和 ID 构造好了,也要避免生成模型在训练中依赖单模态 shortcut。

如果站在工业视角,MQL4GRec 的完整 pipeline 不划算。双 SID 的收益没有被充分证明,却让训练目标空间和推理链路都变复杂;六类任务中真正稳定有效的主要是 AIG,QLA 更像为 alignment story 补齐模块;最终融合不是学习到的概率校准,而是固定 bonus;论文也没有 latency、吞吐、候选覆盖、召回规模、增量 item 更新或在线收益分析。多一套 translator、多一套 SID、多一个 beam search,换来的主要是 public benchmark 上几个点的 NDCG/HR 提升,这对真实大规模召回系统说服力不足。

但它能成为 ICLR 论文也并不奇怪。ICLR 更容易认可 representation learning 和 generative modeling 的统一叙事,而这篇文章把 multimodal item content、RQ-VAE semantic ID、shared vocabulary、cross-domain pretraining 和 seq2seq generation 包装成 quantitative language,正好对齐这个口味。它不是 paradigm shift,更像 TIGER 之后的自然 extension:从单模态 semantic ID 扩展到多模态 quantitative language,再用任务和预训练把故事补全。实验部分也完整覆盖 overall comparison、collision handling、QLG task ablation、pre-training ablation、pre-training dataset number、epoch 和 zero-shot,因此审稿体验上是一个完成度较高的 benchmark paper。

所以我对这篇论文的最终评价是:作为 ICLR,它是合格的概念组合型工作;作为工业推荐方案,它偏弱;作为可借鉴技术,它最值得学的是“为不同模态构造 SID 后用跨模态生成任务增强语义”,而不是学习它的全链路双分支生成和固定加分融合。

工程启发与复现建议

复现 MQL4GRec 时,第一步不是训练 T5,而是确认 quantitative translator 可用。需要分别训练文本和图像 RQ-VAE,检查 reconstruction loss、codebook 使用率、item collision rate,以及不同类目 item 是否被映射到合理 token。若 translator collapse,后面的 QLG tasks 只是在坏 token 上学习。

第二步是规范 token vocabulary。文本 token 小写、图像 token 大写、prompt token 使用独立前缀,必须保证 decoder 生成空间和 item-token 映射一致。任何一个 token 前缀或层级顺序错位,都会导致 constrained beam search 找不到合法 item。

第三步是分阶段训练。论文的 source domains 和 target domains 明确分开:pre-training 只用源域的 next item generation,fine-tuning 才在目标域使用全部 QLG tasks。复现时要避免把目标域测试 item 信息泄漏进 pre-training tokenizer 或任务构造;如果 codebook 在全量 item 上训练,也要说明这是内容侧 transductive 设置还是严格 inductive 设置。

第四步是单独评估 collision handling。可以先比较三种策略:不处理 collision、追加 index token、按 residual-code 距离重分配。对每种策略记录 collision rate、HR/NDCG 和生成非法 ID 的比例。论文表 2 的收益说明这个模块值得单独验证。

第五步是对预训练做 early stopping。图 3 和图 4 说明多源域、多模态预训练可能在某些目标域负迁移。实际复现时不应只设固定 epoch,而应在目标域 validation 上监控 NIG1 和 QLG 两套指标,必要时对不同目标域使用不同预训练步数。

工程部署方面,MQL4GRec 更适合作为研究 baseline 或 tokenizer 思路参考,不适合作为完整工业链路照搬。item 文本和图片编码、RQ-VAE 量化可以离线完成,但线上仍要维护两套用户历史 token、两套生成分支、两套 beam search 候选、两套 SID 到 item 的映射,以及一个固定规则的融合层。若只是为了利用多模态内容,工业系统通常可以在 item encoder、retrieval embedding、多塔召回、ranker 特征或 rerank fusion 中融合,不一定要拆成两套 SID 再自回归生成。

更实际的借鉴方式是保留两个轻量点。第一,可以研究不同模态 SID 是否能作为离线 item 表征或召回索引的补充,而不是直接上双分支生成。第二,可以把 AIG 这类 cross-modal generation 作为 tokenizer 或 item representation 的辅助监督,看它是否改善 codebook 语义和冷启动 item 表示。至于双分支 beam search 加固定 $+1$ reranking,我不建议作为核心方法学习;如果真要上线,至少要改成可学习的融合或经过校准的概率组合。

局限与风险

  1. Quantitative language 的质量高度依赖 RQ-VAE translator,论文主要展示推荐指标,对 codebook 语义结构和 dead code 问题的可解释分析还不够。
  2. 文本和图像 translator 分开训练,跨模态交互主要靠后续任务学习,量化阶段本身没有像 MACRec 那样显式互相校正。
  3. Collision handling 通过距离重分配降低无语义 index 的副作用,但当大量 item 内容非常相似时,仍可能无法完全避免语义混淆。
  4. Source-domain pre-training 在 Games 上出现负迁移迹象,说明跨域推荐知识并不总是可迁移,领域差异需要显式建模。
  5. Reranking 中对文本/图像列表交集固定加 $1$,缺少校准机制,可能在模态质量不均衡时过度奖励错误交集。
  6. 双分支 beam search 带来直接推理成本,论文没有报告 latency、吞吐、候选覆盖率、召回规模或在线 A/B,这让工业价值难以判断。
  7. QLA 单独收益不稳定,甚至在附录部分设置下降,说明六类任务并非每个都有清晰边际贡献。
  8. 双 SID 维护增加系统复杂度:item 更新、collision resolution、合法 ID 映射、模态缺失处理都要分别覆盖文本和图像两条链路。
  9. 论文主要在 Amazon 类目上验证,尚不能说明在短视频、新闻、本地生活、广告等高动态内容推荐场景中同样有效。
  10. 多模态 item 内容必须可用且较干净;若图片缺失、标题噪声、描述模板化,quantitative language 可能学习到伪语义。
  11. 大规模线上系统需要处理新 item 增量 tokenization、旧 item token 漂移、beam search latency 和合法 ID 映射表更新,这些系统细节论文讨论有限。

后续跟进

  1. 本地拉取 zhaijianyang/MQL4GRec,核对 OpenReview 论文中的六个源域、三个目标域、RQ-VAE 层数、codebook size、beam size 和任务 prompt 是否完整实现。
  2. 先复现 translator 训练,输出每个类目的 collision rate、codebook 使用分布和 token 序列样例,再进入 seq2seq 训练。
  3. 做无预训练、单文本预训练、双模态 QLG 预训练三组最小实验,复核表 4 的趋势是否稳定。
  4. 在 Games 上重点分析负迁移:比较源域 item 视觉风格、文本词表和用户序列模式,判断是 source-domain 差异还是 image translator 噪声导致。
  5. 单独复核 QLA 的边际贡献,尤其比较 NIG、NIG+QLA、NIG+AIG、NIG+AIG+QLA,判断是否存在为了 alignment 叙事而堆任务的问题。
  6. 把固定 reranking 改成可学习 modality fusion,例如用 validation set 估计文本/图像 score 权重或交集奖励,并检查两个 branch 的 beam score 是否可比。
  7. 做推理成本审计:记录单分支和双分支 beam search 的 latency、吞吐、候选覆盖、非法 ID 比例和 SID-to-item 映射成本。
  8. 与 MACRec 对比 tokenizer:在同一个 T5 backbone 下比较独立 translator、跨模态量化 translator 和 SynGR 训练正则的组合效果。
  9. 测试冷启动 item:只给新 item 文本和图片,生成 quantitative language 后能否被推荐到合理位置。
  10. 如果只借鉴这篇论文,优先抽取 AIG 作为辅助监督,避免直接复刻双 SID、六任务和固定 $+1$ 融合的完整 pipeline。