近日,bevictor伟德青年教师刘那与的论文“Multimodal Cross-lingual Summarization for Videos: A Revisit in Knowledge Distillation Induced Triple-stage Training Method”被《IEEE模式分析与机器智能汇刊》(IEEE Transactions on Pattern Analysis and Machine Intelligence,IEEE TPAMI)录用。
IEEE TPAMI是中国计算机学会(CCF)和中国自动化学会(CAA)等多个学会共同推荐的人工智能领域国际顶级期刊,每年录用量仅200篇左右,2024年最新影响因子为20.8,在所有计算机工程、电子工程及人工智能相关期刊榜单上以165分的h5-index排在第1位。这是bv伟德国际体育官方网站首次以第一完成单位在IEEE TPAMI上发表的论文。
多模态摘要旨在从视觉和文本多源信息中生成摘要,而在面向跨语言场景的多模态摘要中,由于高注释成本的跨语言样本不足往往使多模态摘要模型性能受限。刘那与等人提出一种知识蒸馏引导的三阶段训练方法,通过跨语言蒸馏从资源丰富的单语多模态摘要模型中转移知识,来辅助资源受限的跨语言多模态摘要模型学习;进一步,提出一种语言适应的扭曲蒸馏方法,旨在解决蒸馏时平行跨语言序列长度不等的挑战,在保持在原有语言特征形状位置不变下直接转移知识,以减少潜在的信息丢失。实验表明通过所提出方法可通过从多模态同语摘要模型转移知识来为多模态跨语言摘要带来显著的性能改进。