学院要闻

前沿成果 | 正例与未标记数据的分类研究取得重大突破

在当今数字化时代,数据的力量毋庸置疑。然而,数据标注的高昂成本和复杂性,却常常成为众多领域发展的 “拦路虎”。比如在医学诊断中,疾病筛查和药物发现需要大量专业知识和时间来标注数据;网络安全领域,恶意软件和入侵检测的标注也面临诸多挑战;推荐系统里,用户点击预测和欺诈交易识别的标注同样困难重重;自然语言处理中的情感分析、虚假新闻检测,以及计算机视觉的目标识别等,均被数据标注问题所困扰。

近日,统计学院 2020 级直博生刘思延(导师刘玉坤教授)在赴滑铁卢大学联合培养期间,与滑铁卢大学李鹏飞教授领衔的研究团队(包括通信作者田庆隆助理教授)合作,在正例与未标记数据研究方面取得一项重大研究成果,该成果发表在统计学顶级期刊 Journal of the American Statistical Association 上。

打破传统方法的局限

传统的正例与未标记(PU)数据分类方法,要求有标签的正例数据与未标记的正例数据来自同一分布。但在实际应用场景中,这一条件往往难以满足。想象一下,在医学诊断中,不同地区、不同医院收集的疾病数据,其分布可能存在差异;网络安全领域,不同时段、不同环境下出现的恶意软件数据,分布也不尽相同。这种分布的不一致,使得传统方法在实际应用中大打折扣。

为了解决这一难题,该论文另辟蹊径,围绕有标签与未标记的正例数据来自不同分布的 PU 数据(即随机选择的 PU 数据)展开深入研究。这就好比在复杂的迷宫中找到了一条新的出路,为后续研究奠定了坚实基础。


创新模型与理论突破

1. 提出两种半参数模型

论文借鉴经典的密度比模型,创新性地提出了两种半参数模型。这两种模型,一种契合同分布假设,另一种适用于不同分布假设,它们建立了协变量空间与标签分布的半参数映射关系。打个比方,这就像是为不同分布的数据搭建了一座桥梁,让它们能够顺利 “沟通”。通过这种方式,成功攻克了模型可识别性难题,为后续的研究工作扫除了一大障碍。

2. 理论层面的重大突破

在理论层面,该论文取得了一系列令人瞩目的成果。研究团队建立了最大经验似然估计量的相合性与渐近正态性,这为混合比例的点估计与置信区间的合理性建立了坚实的理论基础。简单来说,就是让我们对数据的估计和预测更加准确、可靠。同时,研究还验证了基于后验概率构造的贝叶斯分类器具有优良的理论性质,为分类器的设计和应用提供了新的思路和方法。


广泛的应用价值
基于正例与未标注(PU)数据的分类研究,在现实场景中具有极为广泛的应用价值。它就像一把万能钥匙,能够有效解决多个领域中普遍存在的标签缺失问题。

在医学诊断领域,利用少量确诊案例,就能预测潜在患者,大大提高疾病筛查的效率和准确性,为疾病的早期发现和治疗争取宝贵时间。在网络安全领域,通过已知恶意样本,能够快速识别新型威胁,保障网络环境的安全稳定。在推荐系统中,可以更精准地预测用户点击行为,识别欺诈交易,提升用户体验和平台的安全性。在自然语言处理和计算机视觉领域,也能发挥重要作用,助力情感分析、虚假新闻检测以及目标识别等任务的高效完成。

这项研究仅需少量正例样本和大量未标注数据即可建模,特别适用于标注成本高昂或负例难以获取的场景。它为各领域提供了一种高效且实用的解决方案,就像一场及时雨,滋润着众多受数据标注问题困扰的领域。


本次研究成果的取得,离不开强大的研究团队。刘思延在联合培养期间充分利用滑铁卢大学的优质资源,在刘玉坤教授的指导下,与李鹏飞教授领衔的研究团队紧密合作,取得重大研究突破。

近年来,统计学院积极拓展国际交流合作,与国际多所知名院校建立联合培养机制,培养具有国际视野的研究人才。学院还通过参与国际学术会议、联合发表高水平论文等方式,持续拓展国际合作网络。未来,学院将进一步深化与全球知名高校和研究机构的合作,聚焦统计与数据科学前沿问题,推动"中国智慧"走向国际舞台,为解决重大科学难题和产业应用需求贡献统计力量。




发布者:张瑛发布时间:2025-06-08浏览次数:10