计算机科学与技术学院王英教授指导的2020级硕士研究生孙明辰的论文“GPPT: Graph Pre-training and Prompt Tuning to Generalize Graph Neural Networks”被国际数据挖掘顶级会议SIGKDD 2022(CCF A类)的Research Track接受。论文的第一作者为孙明辰,通讯作者为王英教授,作者还包括莱斯大学的周凯雄博士、吉林大学人工智能学院硕士生贺歆和助理教授王鑫。
论文注意到传统GNN预训练中Pretext任务与下游任务之间内在训练目标差距,不仅可能无法引出预训练的图知识,甚至会导致负迁移现象。此外,Pretext任务既需要专业知识,也需要繁琐的手工试验。因此,论文首次提出“Pre-training、Prompt、Fine-tuning”的概念将下游任务进行重构,使其成为与Pretext任务相似的目标任务,以弥补预训练目标与微调目标之间的任务差距。为了克服传统“Pre-training、Fine-tuning”的局限性,借鉴了自然语言处理中的“Prompt”技术。由于提示调优是NLP领域中特有的技术,因此很难设计适合GNN的prompt模板。论文克服了两个主要的挑战:1)如何应用语义提示函数重构图数据中各种图机器学习任务;2)如何设计Prompt模板以更好地重新制定下游应用程序,提出图预训练和提示调优(GPPT)框架。首先,采用Masked Edge Prediction任务对GNN进行预训练,将下游节点分类任务重构为链接预测任务。然后,利用成对的令牌模板将独立节点修改为令牌对,即代表下游问题的任务令牌(task token)和包含节点信息的结构令牌(structure token)。最后,通过实验验证了论文所提出的GPPT在监督学习、联合训练和传统迁移学习中的有效性,以及在小样本设置下这种学习模式的优越性。
SIGKDD 2022将于8月14日至8月18日在美国华盛顿举办。本次会议Research Track共收到1695篇论文,254篇论文被接受,接收率为14.9%。