正规赌钱网站

Least Squares Estimation of Spatial Autoregressive Models for Large-Scale Social Networks

时间:2021-01-05         阅读:

光华讲坛——社会名流与企业家论坛第5622期

主题Least Squares Estimation of Spatial Autoregressive Models for Large-Scale Social Networks

主讲人北京大学 王汉生教授

主持人统计学院 常晋源教授

时间2021年1月8日(周五)上午10:00-11:00

直播平台及会议ID:腾讯会议,840 737 794

主办单位:数据科学与商业智能联合实验室 统计学院 科研处

主讲人简介:

王汉生,北京大学光华管理学院商务统计与经济计量系,教授,博导,系主任。全国工业统计学教学研究会青年统计学家协会创始会长,美国统计学会(ASA)Fellow,国际统计协会(ISI)Elected Member。先后历任8个国际学术期刊副主编(Associate Editor)。在国内外各种专业杂志上发表文章100+篇,并合著有英文专著共1本,(合)著中文教材4本。是爱思唯尔中国高被引学者(数学类,2014—2018)。

在理论研究方面,王汉生教授主要关注变量选择、数据降维、高维数据分析、以及复杂网络数据分析等领域。其所有这些研究都是以大规模、复杂、超高维数据分析为核心。相关的应用领域包括但不局限于:中文文本、网络结构、位置轨迹。在业界实践方面,其曾担任博雅立方科技有限公司首席科学家(2009—2015),百分点首席统计学家(2015—现在)。此外,其与量帮科技、考拉征信、彩虹无线、蓬景数字、西门子、三一重工、格灵深瞳、天罡仪表、广联达等众多企业均有联合研究工作,涉及量化投资、互联网征信、车联网、移动设备RTB广告竞价、搜索引擎营销、电子商务、重装制造业等多个重要行业。

内容提要:

Due to the rapid development of various social networks, the spatial autoregressive (SAR) model is becoming an important tool in social network analysis. However, major bottlenecks remain in analyzing large-scale networks (e.g., Facebook has over 700 million active users), including computational scalability, estimation consistency, and proper network sampling.

To address these challenges, we propose a novel least squares estimator (LSE) for analyzing large sparse networks based on the SAR model. Computationally, the LSE is linear in the network size, making it scalable to analysis of huge networks. In theory, the LSE is $\sqrt{n}$-consistent and asymptotically normal under certain regularity conditions. A new LSE-based network sampling technique is further developed, which can automatically adjust autocorrelation between sampled and unsampled units and hence guarantee valid statistical inferences. Moreover, we generalize the LSE approach for the classical SAR model to more complex networks associated with multiple sources of social interaction effect. Numerical results for simulated and real data are presented to illustrate performance of the LSE.

随着各种社会网络的迅速发展,空间自回归(SAR)模型正成为社会网络分析的重要工具。然而,在分析大规模网络数据(例如,Facebook有7亿多活跃用户)时,主要的瓶颈仍然存在,包括计算可伸缩性、估计一致性和适当的网络抽样。

为了解决这些问题,本文提出了一种新的最小二乘估计(LSE)来分析基于SAR模型的大型稀疏网络数据。在计算上,LSE在网络规模上是线性的,使得它可以扩展到大型网络数据的分析。理论上,在一定的正则性条件下,LSE是一致渐近正态的。本文提出的新的基于LSE的网络采样技术,它可以自动调整采样单元和未采样单元之间的自相关关系,从而保证有效的统计推断。此外,本文将经典SAR模型的LSE方法推广到具有多个社会交互效应源的复杂网络中。模拟数据和实际数据分析结果均表明了该方法的有效性。