学院要闻

纵向数据缺失填补新突破!我院本科生这一研究成果被数据挖掘领域顶级会议KDD录用

近日,我院2021级本科生张钊阳以第一作者身份在国际数据挖掘与知识发现领域的顶级会议ACM SIGKDD Conference on Knowledge Discovery and Data Mining (简称“KDD”) 上发表论文Sampling-guided Heterogeneous Graph Neural Network with Temporal Smoothing for Scalable Longitudinal Data Imputation。KDD 是数据科学、数据挖掘和大数据领域最具权威性和影响力的国际学术会议之一,同时也是中国计算机学会推荐的A类国际学术会议,代表着该领域的最高学术水准与广泛影响力。论文在我院谌自奇研究员、北卡罗来纳大学教堂山分校朱宏图教授等的指导下完成。


该论文针对纵向数据中的不规则性及协变量缺失等难题,提出了创新性的解决方案。在医疗随访、用户交互行为等实际场景中,数据观测存在时间点不规则、不同受试者间不一致等问题,进而引发一系列挑战:一是难以统一建模个体随时间演化的观察序列;二是难以在协变量大量缺失的情况下预测关键响应变量;三是当数据量达到百万级时,现有方法在存储与计算上难以实现扩展。

为此,张钊阳与团队构建了Sampling-guided Heterogeneous Graph Neural Network (SHT-GNN)模型,用于统一表示与学习不规则纵向数据。他们创新性地将纵向数据表示为异质图,把单个观测设为观测节点,协变量映射为特征节点,二者之间以带属性无向边连接;同时,通过有向边将同一受试者内部的相邻观测点串联为若干纵向子网络。基于这一结构,模型采用二阶段层叠式信息传播策略,先在二部图中进行多层归纳学习,然后在纵向子网络中充分利用时间相关性,同时避免信息过度平滑。

为解决计算效率与扩展性问题,团队提出采样驱动策略,随机抽取小批量受试者构图并共享参数进行训练,有效控制计算复杂度,使其在受试者规模增大时仍保持近乎常数的开销;此外,引入随机边丢弃提升泛化能力,并用MADGap统计量对节点表示间的差异度加以正则,防止观测上的时间过平滑。从理论分析来看,该框架在变分推断视角下优化观测数据对数似然的证据下界,实现协变量与响应变量的同时预测。

这一成果在精准医疗领域具有重要应用价值,如在阿尔兹海默症等多模态数据中,它能够推断缺失的关键生物标志物,助力实现疾病的早期和个体化监测。同时,在物联网与电商等高频异构数据环境中,也可用于实时推断缺失信息,支持城市传感网络的异常检测或用户画像的动态更新。

张钊阳同学拟于今年8月赴加拿大多伦多参加KDD 2025大会并介绍该项工作。


近年来,华东师范大学统计学院始终秉持"厚基础、强交叉、重创新"的培养理念,构建了完善的人才培养体系。学院以培养具有国际竞争力的复合型统计人才为目标,在"金融学+统计学"和"统计学+计算机科学与技术"双学士学位项目上深耕细作,通过跨学科资源整合,搭建多维培养平台,形成系统化的复合型创新人才培养机制。

依托统计与数据科学教育部重点实验室、统计应用与理论创新引智基地等高端科研平台,学院积极践行学术讨论班、学术午餐会、学术下午茶等制度,构建全方位的科研训练体系。这些举措有效激发了学生的科研热情和创新思维,形成了科研创新与人才培养相互促进的良性循环。近年来,学院在科研成果和人才培养质量上均取得显著成就,为社会输送了一批素质高、能力强、视野广的优秀人才。



发布者:张瑛发布时间:2025-06-01浏览次数:10