2022年6月10日上午9点30分,计算机科学与技术学院第二届“研学论道”研究生学术沙龙第六期(总第二十一期)顺利举办。
本期邀请了2018级博士生刘家伦、2018级博士生张一嘉和2019级博士生梁世宁进行学术分享。他们分享的主题分别是长尾分布下的特征学习、推荐系统,以及文本因果关系。本次学术沙龙旨在提升我院研究生综合能力,活跃学术氛围以及促进学术交流。活动由计算机科学与技术学院研究生会干事王子昌主持,以腾讯会议的方式线上举行。
会议第一阶段,讲者刘家伦带来了以“长尾分布下的特征学习”为主题的论文分享。讲者首先介绍了长尾分布,这是一种数据不平衡的极端情况,例如在一个数据集中,种类多的数据被称为头部类,种类少的数据被称为尾部类,这样分布不均的情况为深度模型的学习带来了巨大的挑战。针对这个问题,讲者提出了Feature Cloud,MBJ(Memory-based Jitter),MAUM(Memory-Augmented Unidirectional Metrics)三种方法,缓解了尾部类数据在模型学习过程中类内多样性不足的问题,并在长尾特征学习以及长尾分类学习两个任务中都验证了方法的有效性。
会议第二阶段,讲者张一嘉带来了以“推荐系统”为主题的论文分享。讲者说道,目前推荐系统在各大电商平台中都有广泛的应用,一般可以通过用户对物品的历史评论来推测用户的偏好。但在基于评论文本的深度学习模型中,用户和物品的特征学习过度依赖文本中的语义特征,当评论数目稀疏时,模型不能很好地利用评论文本数据缓解稀疏性问题。此外,现有的研究还忽略了历史评分对于用户和物品特征表示的直接影响。针对以上问题,讲者提出了AGCR(Attributed GCN for Rating Prediction)模型,这是一个交互式的特征模型,通过属性图卷积方法,将评论与历史评分都作为交互关系,融合到用户和物品特征表示中,在处理稀疏性的问题上有很好的效果,更好地构建了用户和物品特征表示的问题,提高了推荐系统中评分预测任务的准确性。
会议第三阶段,讲者梁世宁带来了以“文本因果关系”为主题的论文分享。作者讲道,世间万物之间存在着广泛的关联关系,其中因果关系(causality) 是最主要的关联形式。于文本中挖掘因果关系是一项与人类认知相对应的复杂而关键的自然语言理解任务,这一领域的现有研究可分为两类:feature engineering-based的方法和neural model-based的方法。讲者发现前者虽提供了先验知识,但具有覆盖不完整和工具内在错误的缺点;后者虽利用了上下文信息,但因果推理不足。针对以上问题,讲者综合了feature engineering-based和neural model-based方法的优势,提出了用于因果关系检测的Multi-level Causality Detection Network(MCDN)模型,并且提出了关系推理模块SCRN,显式地对句中的因果关系进行建模。与传统的神经网络分类器和预训练语言模型相比,在性能和开销之间取得了平衡,同时在隐式因果检测数据集上进行了广泛的实验,MCDN达到了隐式因果检测的SOTA性能,并在反事实识别任务上获得了有竞争力的结果。
三位讲者汇报结束后,都向同学们分享了自己在学术工作中的经验。讲者刘家伦认为有好的idea后,也要保持好的心情去工作,慢慢地进步与成长,不要着急或焦虑;其次要保证身体的健康,身体是革命的本钱。讲者张一嘉分享到,有想法方法后要敢于动手、勇于实践,只有实践才能证明方法的合理性和有效性。讲者梁世宁则针对期刊和会议的投稿分享了他的宝贵经验。
至此,本学期的“研学论道”学术沙龙活动圆满结束。虽然由于疫情原因,本学期的学术沙龙活动全部采用了线上会议的方式进行,但大家对于学术知识分享的渴望与热情并没有减退。相信大家都能够在学术交流中获得成长,有所进步,这也给我们在未来的活动举办中带来无限的动力与信心。让我们约定好,下学期再见!
撰稿:李朋洋
图片:李朋洋