(一)
计算机科学与技术学院博士后张春旭等的论文“Multifaceted User Modeling in Recommendation: A Federated Foundation Models Approach”被AAAI 2025接收。论文的第一作者为杨博教授指导的博士后张春旭,通讯作者为杨博教授,合作者包括悉尼科技大学龙国栋教授,清华大学刘洋教授和快手科技公司。
多维用户建模旨在深入挖掘用户数据中的细微模式,揭示用户在个人特性、偏好等方面的多样化特征。近期基于基础模型的推荐系统研究表明,Transformer架构在捕捉用户与商品之间复杂交互关系方面表现优异。本文提出了一种新的基于基础模型的推荐系统,旨在提升系统的多维用户建模能力。具体而言,本文设计了一种专门针对推荐任务的Transformer层,利用自注意力机制捕捉用户与商品之间的序列化交互模式。同时,提出了一种组门控网络,能够有效识别和划分用户群体,从而在多个Transformer层中层次化地发现用户群体,并精准捕捉其多维兴趣。为了扩展数据应用范围并进一步增强多维用户建模,本文还将该方法应用于联邦学习框架,支持在保护隐私的前提下使用用户隐私数据集。实验结果表明,本文提出的方法在基准数据集上展现了显著的性能优势。
(二)
计算机科学与技术学院2024级博士研究生代渊超等的论文“Utterance-level Emotion Recognition in Conversation with Conversation-level Supervision(具有对话级监督的话语级对话情感识别)”被AAAI 2025录用。其他作者包括李熙铭教授,杨智尧博士,迟晋进副教授,高万夫副教授,以及英国斯旺西大学的Lin Yuanbo Wu高级研究员。
对话情感识别(ERC)涉及到对对话中每个话语的情绪进行自动识别。话语的情感是随对话上下文而定的,因此,在ERC中注释每个话语需要从注释者那里重复筛选整个对话。这种要求导致对话语进行细粒度标注的成本过高。针对上述问题,本文提出了一种有效的ERC粗粒度标记策略,该策略为每个对话分配一组情绪。具体而言,本文将对话级情感集作为弱监督学习重新制定ERC预测因子,以优化ERC的潜在候选,称为无数据对话情感识别(DERC)。为了验证这一点,本文提出了一个简单而灵活的渐进式学习的DERC框架(DERC-PL)。本文以自我训练的方式联合更新伪话语级情绪和ERC预测器,其中本文逐步更新ERC预测器,从具有较低噪声密度的训练子集到具有较高噪声密度的训练子集。通过整合各种现成的ERC方法实现了几个版本的DERC-PL,大量的实验结果表明,本文所提出的方法优于现有的弱监督学习基线和监督学习ERC方法。
(三)
计算机科学与技术学院白天教授团队的论文“Prototype-Guided Multimodal Relation Extraction based on Entity Attributes”被AAAI 2025 录用。本文的第一作者是白天教授指导的2023级博士张泽帆,白天教授为通讯作者。
多模态关系抽取(Multimodal Relation Extraction, MRE)旨在基于句子-图像对的上下文预测头实体和尾实体之间的关系。现有的大多数MRE方法逐步融合文本和视觉输入进行学习。然而,由于视觉外观的多样性和文本语义的模糊性,相关关系的上下文信息可能并不充分。为了解决这些挑战,我们强调包含细粒度类别的语义不变实体属性的重要性。为此,我们提出了一种基于实体属性的全新原型引导的多模态关系抽取(Prototype-Guided Multimodal Relation Extraction, PG-MRE)框架。具体来说,我们首先利用大语言模型(Large Language Models, LLMs)生成详细的实体解释,以补充属性语义。然后,通过属性原型模块(Attribute Prototype Module, APM)对属性类别进行精炼,并将分散的实体属性特征凝聚为簇级原型。此外,关系原型模块(Relation Prototype Module, RPM)通过原型对齐的属性特征,引导多样化的视觉外观特征,生成紧凑且区分性强的多模态表示。大量实验表明,我们的方法在关系分类能力上表现卓越(尤其是在涉及多种未见实体的场景中),在MNRE数据集上实现了新的最先进性能。
(四)
计算机科学与技术学院白天教授团队的论文“MP: Endowing Large Language Models with Lateral Thinking”被AAAI 2025 录用。本文的第二作者是白天教授指导的2023级硕士曹永旺,白天教授为第一作者。
近期的研究表明,由于缺乏对自身推理过程的清晰认知,大型语言模型在需要创造性、横向思维的任务中往往表现欠佳。为解决这一问题,我们通过模拟人类的“元认知”过程,提出了一种元认知提示方法(Metacognitive Prompting,MP)。通过融入元认知原理,MP 赋予了大型语言模型横向思维能力,从而提升了它们在处理创造性任务时制定策略、监控以及反思自身回答的能力。具体来说,MP是一个融合了人类元认知过程和元认知知识的三阶段提示策略。实验表明,在三个涉及横向思维的数据集中,所有配备了 MP 的大型语言模型都始终优于具有代表性的baseline方法。特别地,将 MP 应用于 GPT-4 时,其性能在BRAINTEASER基准上超过了人类的表现,这彰显了 MP 在增强大型语言模型解决横向思维问题能力方面的潜力。
(五)
计算机科学与技术学院张子健助理教授等的论文“LLM-Powered Efficient User Simulator for Recommender System(大语言模型驱动的推荐系统用户模拟器)”被AAAI 2025录用。论文第一作者为张子健老师,合作者包括来自快手科技和香港城市大学的研究团队。
用户模拟器能够快速生成大量实时的用户行为数据,为在线推荐系统提供测试平台,从而加速其迭代和优化。然而,现有的用户模拟器普遍存在显著的局限性,包括用户偏好建模不透明、无法评估模拟效果等。论文设计了一种由大语言模型驱动的推荐系统用户模拟器,以一种显式的方式模拟用户与商品的交互过程。利用大语言模型的世界知识和推理能力,论文提出了一种逻辑模型实现用户商品交互模拟,并集成了统计模型提高模拟可靠性。与现有的基于大型语言模型的方案相比,该方法在推理阶段无需调用大型语言模型,既利用了其强大的推理能力,又避免了引入额外的时间开销和幻觉问题。通过在多个数据集上进行的定性和定量实验,论文验证了该模拟器在各种推荐场景中的有效性和稳定性。
(六)
计算机科学与技术学院2021级硕士生李梦宇和2023级博士生刘永皓共同发表题目为“Boosting Short Text Classification with Multi-Source Information Exploration and Dual-Level Contrastive Learning”的研究,被AAAI 2025录用。通讯作者是丰小月教授和管仁初教授。其他作者包括英国赫瑞瓦特大学,庞巍副教授,意大利特伦多大学Fausto Giunchiglia教授,黄岚教授。
在本研究中,提出了一种用于短文分类的创新模型。该模型首先通过多源信息融合技术来缓解数据稀疏性问题,从而增强模型的表达能力。通过引入了一个双级对比学习的辅助任务,旨在从大量未标注的数据中有效地提取不同粒度的对比信息。与以往将主任务和辅助任务并行处理的方式不同,我们通过引入一个分层架构,明确地建模了任务之间的关系,使得各任务能够更好地协同工作。在多个基准数据集上的实验结果表明,所提出的模型在性能上具有显著的优势。
(七)
计算机科学与技术学院2023级博士生刘永皓发表题目为“A Simple Graph Contrastive Learning Framework for Short Text Classification”的研究,被AAAI 2025录用。通讯作者是丰小月教授和管仁初教授。其他作者包括意大利特伦多大学Fausto Giunchiglia教授,黄岚教授,李熙铭教授。
图学习和对比学习在短文分类中已展现出良好效果,但现有模型存在局限性:它们依赖数据增强生成对比视图,容易引入噪音和语义损失,并且仅关注视图间的一致性,忽视了其他潜在视图中的有价值信息。为此,我们提出了一种简洁的图对比学习框架。该方法通过在多个文本相关图上进行图学习,获取多视角文本嵌入,并在这些嵌入上直接应用对比学习。值得一提的是,我们的方法无需数据增强,能够充分利用多视图学习的优势。实验证明,所提模型在各数据集上表现优越。
(八)
计算机科学与技术学院陈海鹏教授指导的2019级博士生吕克敌的论文“HVIS: A Human-like Vision and Inference System for Human Motion Prediction”被CCF A类会议AAAI 2025录用。论文的第一作者为陈海鹏教授指导的2019级博士生吕克敌,第二作者为陈海鹏教授,通讯作者为陈海鹏教授、焦颖颖博士生和浙江大学刘振广研究员。
把握人类运动的复杂性,包括感知时空依赖性和多尺度效应,对于预测人类运动至关重要。虽然人类目前已经掌握了解决这一问题的必要技能,但事实证明,机器要模仿人类的运动却明显更具挑战性。为了弥补这一差距,本文提出了用于人类运动预测的类人视觉和推理系统,该系统旨在模拟人类观察并预测未来运动。其由两部分组成:类人视觉编码模块和类人运动推理模块。类人视觉编码模块模仿人类的视觉感知过程,其中包含一个视网膜模拟组件,可分离地捕捉时空信息,避免不必要的串扰。此外,还设计了一个视觉皮层模拟组件,用于分层提取和处理复杂的运动特征,重点关注人体姿势的全局和局部特征。类人运动推理模块用于模拟人脑的多阶段学习模型。自发学习网络模拟神经元断裂生成过程,以对抗性地生成未来运动。随后,刻意学习网络针对难以训练的关节进行了优化,增强预测精度。实验结果表明,本文方法达到了最先进的性能,在H3.6M、CMU Mocap和G3D数据集上取得了先进的性能。
(九)
计算机科学与技术学院陈海鹏教授指导的2020级博士生杨宇恒的论文“Skeleton-based Action Recognition with Non-linear Dependency Modeling and Hilbert-Schmidt Independence Criterion” 被CCF A类会议AAAI 2025录用。论文的第一作者是陈海鹏教授,第二作者是陈海鹏教授指导的2020级博士生杨宇恒,通讯作者为公共计算机教学与研究中心吕颖达副教授。
基于人体骨骼的动作识别长期以来一直是人工智能不可或缺的一部分。目前最先进的方法往往只考虑相连的骨骼关节之间的依赖关系,这限制了它们捕捉物理上相距较远的关节之间非线性依赖关系的能力。此外,大多数现有方法通过估计运动表示的概率密度来区分动作类别,但人体运动的高维性质在完成此类测量时存在固有困难。本文中试图从两个方向应对这些挑战:(1)本文提出了一种新颖的依赖细化方法,明确地模拟任意一对关节之间的依赖关系。(2)本文进一步提出了一个框架,利用希尔伯特-施密特独立性标准来区分动作类别。本文在NTURGB+D、NTU RGB+D120和Northwestern-UCLA数据集上取得了较好的性能。
(十)
计算机科学与技术学院陈海鹏教授指导的2023级博士生武思凡的论文“Causality-Inspired Multitask Learning for Video-Based Human Pose Estimation” 被CCF A类会议AAAI 2025录用。论文的第一作者是陈海鹏教授,第二作者是陈海鹏教授指导的2023级博士研究生武思凡,通讯作者为公共计算机教学与研究中心吕颖达副教授、浙江大学刘振广研究员和新加坡A STAR研究局尹一方研究员等。
视频人体姿态估计旨在定位视频中人物的关键点位置。现有方法主要设计不同的模型结构或损失函数来完成视频人体姿态估计,使模型缺少可解释性和鲁棒性。我们创新性地从因果视角提出多任务学习框架,并整合特征聚类算法,完成视频人体姿态估计任务。广泛的实验结果表明,所提出的模型明显优于以前的方法。
(十一)
计算机科学与技术学院2024级博士生孙洪民等的论文“Contrastive auxiliary learning with structure transformation for heterogeneous graphs” 被CCF A类会议AAAI 2025录用。论文的第一作者是杜伟教授,第二作者是2024级博士生孙洪民,通讯作者为李瑛副教授。
近年来,基于异质图神经网络(HGNNs)的方法因能有效将异质图(HGs)的丰富信息编码到低维节点嵌入中,而被广泛用于嵌入异质图。现有的 HGNNs 侧重于邻居聚合和语义融合,而忽略了异质图结构和学习范式。然而,原始的异质图数据可能缺乏节点特征,现有模型可能无法有效处理。此外,仅依赖单一监督学习方法可能只能部分利用图数据中的不变信息。为了解决这些挑战,我们引入了异质图对比辅助学习模型(CALHG)。该模型结合边缘扰动和图扩散来增强图数据,使其能够充分捕捉异质图中的固有结构信息。此外,我们采用了一种类别引导的多视角对比学习方法,该方法不依赖于正负样本进行模型训练,使我们能够捕捉异质图数据中的内在不变性。 广泛的在五个无节点特征的基准数据集和三个有节点特征的基准数据集上的实验和分析,证明了我们的新方法与几种最先进方法相比的有效性和效率。
(十二)
计算机科学与技术学院黄岚教授团队的论文“WST: Wavelet-Based Multi-scale Tuning for Visual Transfer Learning”被AAAI 2025录用。本文的作者是2022级博士生曾佳,黄岚教授,通讯作者为王康平副教授。
大规模预训练视觉Transformer(ViT)模型在视觉任务中表现出色,但将其迁移到下游任务时,高昂的计算成本是一个主要挑战。参数高效微调(PEFT)通过仅更新部分参数提供了一种高效的迁移方法。然而,PEFT的有效性受到预训练模型和下游任务在对象尺度和粒度上的差异的限制。下游任务通常需要更细粒度和更专业的特征,而现有的PEFT方法在特征尺度多样性方面存在不足。为了解决这一问题,本文提出了一种新颖的PEFT方法——基于小波的多尺度微调(WST),以一种简单而有效的方式学习多尺度特征。WST引入了一个比预训练模型更小的并行微调块嵌入分支,专门用于捕获更细粒度的特征。此外,为了应对由此产生的更长token序列带来的计算挑战,WST设计了小波微调块,在平衡效率和性能之间取得了最佳效果。在该模块中,小波变换能够对较长的token序列进行可逆且无损的下采样,使其与主干网络的下采样保持一致。同时,采用两个轻量级的线性映射来学习特定任务的特征。这种设计促进了预训练主干和微调分支之间的高效多尺度信息交换。在多个迁移学习实验中,WST展现出了优异的性能和效率。值得注意的是,在VTAB-1K视觉基准上,WST仅使用0.08M的可训练参数就实现了78%的平均精度,优于现有方法。
(十三)
计算机科学与技术学院张小利教授团队的论文“A Unified Loss for Handling Inter-class and Intra-class Imbalance in Medical Image Segmentation”被AAAI 2025录用。本文的第一作者是张小利教授指导的2023级博士生徐飞龙,张小利教授为通讯作者。
在利用深度学习技术进行医学图像分割时,观察到两类不平衡问题:多数类和少数类之间的类间不平衡以及易样本和硬样本之间的类内不平衡。然而,现有的损失函数通常会混淆这些问题,导致只满足一个方面的增强。此外,针对特定任务优化的损失函数通常表现出有限的泛化性。为了解决这些问题,我们提出了类间和类内平衡损失,以及一个统一的损失称为平衡损失。类间平衡损失通过考虑每个输入图像中存在的少数类的频率来控制对多数类样本的硬样本挖掘的程度。这种方法不需要手动调整权重,可以自动适应不同的数据集。类内平衡损失通过对每个类内的硬样本进行挖掘,增强了网络从硬样本中学习的能力。我们在5个具有不同程度的类不平衡的分割任务上评估我们的损失函数。实验结果表明,与现有的损失函数相比,我们所提出的平衡损失函数的分割性能显著提高,并且具有较好的鲁棒性。
(十四)
计算机科学与技术学院移动智能计算团队(MIC Lab)的论文 “Auto Encoding Neural Process for Multi-interest Recommendation” 被AAAI 2025(CCF A)录用。论文的第一作者为杨永健教授指导的2022级博士研究生姜毅恒,通讯作者为徐原博副教授。
多兴趣推荐系统致力于实现一种理想的个体偏好建模方法,以同时满足多样性和动态性的特性。在深度学习技术的推动下,基于神经网络的推荐系统采用单点或多点兴趣表示策略来实现偏好建模,并显著提升了推荐性能。然而,作为参数化的偏好近似函数,这类方法难以适应不同用户的独特偏好模式和校准个体当前意图。本文从随机过程和贝叶斯推理的角度重新审视多兴趣推荐问题,即学习一个函数分布来描述个体的多样化偏好,而不是用一个统一的函数来近似偏好。沿着这些思路,本文提出了多兴趣推荐模型NP-Rec,以同时实现灵活的多兴趣建模和不确定性估计。在四个真实世界数据集上的研究表明,NP-Rec在推荐性能上优于几种最先进的基线方法,平均提升幅度达到13.94%。
(十五)
计算机科学与技术学院移动智能计算团队(MIC Lab)的论文 “Dynamic Multi-Interest Graph Neural Network for Session-Based Recommendation” 被AAAI 2025(CCF A)录用。论文共三位作者,共同第一作者为软件学院2021级本科生吕明阳与刘相逢,通讯作者为徐原博副教授。
基于会话的推荐(SBR)是基于短期匿名用户历史数据执行实时推荐。大多数现有的推荐方法都遵循将特定会话建模为单个表征的范式,这使得模型难以捕获同一条序列中潜在的多样用户兴趣。近年来,多兴趣学习已成为解决这一问题的有效方法;然而,由于遵循预设定的兴趣数量,这类方法在短序列上会生成冗余的兴趣。本文提出了一个多兴趣图推荐模型DMI-GNN,该模型将多兴趣学习框架引入到SBR中,并通过提出多位置模式(MPP)学习方法和动态多兴趣(DMI)正则化,用会话的长度信息指导多个兴趣表征的学习,从而实现更加灵活的多兴趣建模。在三个基准数据集上的实验表明,DMI-GNN在不同的指标上取得了优于最先进基线方法的性能。
(十六)
计算机科学与技术学院移动智能计算团队(MIC Lab)的论文 “Reducing AUV Energy Consumption through Dynamic Sensor Directions Switching via Deep Reinforcement Learning” 被AAAI 2025(CCF A)录用。论文的第一作者为徐原博副教授指导的2023级博士研究生刘嘉伟,徐原博副教授等。宋姗姗副教授为通讯作者。
自主水下航行器(AUV)在海洋应用中具有重要作用,但其有限的能源对长期运行构成了重大挑战。由于水下环境复杂且难以预测,AUV需要分配能量给其感知系统以感知周围环境并避开障碍物。本文发现AUV感知传感器全部开启导致了其感知到无效区域而产生了额外能量消耗。首先,本文将AUV感知系统分为可控的八个方向,并将水下环境划分为多个区域,基于AUV已规划路径对区域边缘分配权重。其次,本文使用深度强化学习动态切换不同方向和半径的传感器,以感知AUV所在区域的边缘信息,使其能在仅有部分传感器开启时避开障碍并到达目标点。实验结果表明,所提出的方法相较于传感器全部开启能够有效减少AUV感知系统的能量消耗。
AAAI是CCF-A类的人工智能领域顶级会议,AAAI 2025将于2025年2月25日至3月4日在美国宾夕法尼亚州费城举行。