内容简介:
随着数据收集技术和计算机存储能力的不断发展,来自公共管理、电子商务、金融服务、医疗健康等应用领域的大数据不断涌现,人类社会已经步入了大数据驱动下的数字经济时代。“大数据”的发展早就被提到国家战略高度。日益累计的庞大数据已经成为国家和企业的重要战略资源,正在成为提升政府治理能力的新途径和经济社会发展的新驱动力,同时深刻改变了各行各业的管理决策范式。基于大数据前沿技术构建新的经济管理方式和企业智能化运营模式已经成为当下主流的发展趋势。在大数据的发展浪潮下,我们需要处理和分析的数据早已经从单一数据来源向多个来源转变。不断增长的数据来源为我们更好的研究和预测个体或群体的行为创造了前所未有的机会,进而带来巨大的社会和经济效益。但另一方面,这些增加的数据源也给分析建模带来了新的挑战。多源数据的多样性以及建模的复杂性使得传统的统计建模方法陷入困境,亟需发展新的理论和方法。
在此背景之下,本书主要讨论两大类多源数据的统计分析与建模方法。第一类是多源碎片化数据的建模和预测。它考虑数据的自变量来自于不同来源的情况。在这种情况下,每个数据样本都不太容易获得全部来源的数据,因此最终的建模样本呈现“碎片化”的特征。由于缺失比例高、缺失模式复杂,传统处理缺失数据的方法很难处理碎片化数据。第二类是有效利用多源外部数据的统计推断。它考虑的情况是:我们主要关心的“内部数据”的数据量比较小,直接进行统计推断的效率比较低。但同时我们还能获得很多其它来源的“外部数据”,可以利用它们来提升对内部数据参数的推断有效性。但由于外部数据的观测不完整、个体数据不一定可获得、数据异质性等问题,对于外部数据的运用存在很多挑战。针对这两大类问题,我们提出了一系列基于模型平均、生成对抗网络、广义估计方程、经验似然等工具的处理多源数据的工具和方法,并介绍了它们的基本理论,通过众多的数值模拟和实际数据分析来说明它们的有效性。