计算机科学与技术学院管仁初教授等的论文“Deep feature-based text clustering and its explanation”将于2021年在IEEE Transactions on Knowledge and Data Engineering正式发表。论文的第一作者为管仁初教授,第二作者为管仁初教授指导的2017级硕士研究生张浩,通讯作者为丰小月副教授,合作作者还有梁艳春教授、Fausto Giunchiglia教授和黄岚教授。
论文针对传统文本聚类模型中缺失的结构和语序信息,提出了基于深度预训练模型的聚类算法框架DFTC。在该框架中,作者将预训练的文本编码器整合到文本聚类任务中。实验结果表明,该模型优于经典的文本聚类算法和流行的预训练语言模型BERT。同时,针对深度学习方法的可解释性问题,该研究工作还构建了一个解释模型,该模型能够帮助用户理解聚类结果的含义和质量。
IEEE Transactions on Knowledge and Data Engineering是数据挖掘和知识工程领域顶级国际期刊(CCF A类期刊)。