高维大数据基因网络中的社区发现—

高维大数据基因网络中的社区发现——以NC方法为例

2019-03-25分类号：R318

【作者】孙怡帆吴梦云史兴杰

【部门】中国人民大学统计学院上海财经大学统计与管理学院南京财经大学经济学院统计系

【摘要】从大量基因中识别出致病基因是大数据下十分重要的高维统计问题。基因间网络结构的存在使得对于致病基因的识别从单个基因识别扩展到基因模块识别。从基因网络中挖掘出基因模块就是所谓的社区发现(或节点聚类)问题。绝大多数社区发现方法仅利用网络结构信息,而忽略节点本身的信息。Newman和Clauset于2016年提出了一个将二者有机结合的基于统计推断的社区发现方法(简称为NC方法)。本文以NC方法为案例,介绍统计方法在实际基因网络中的应用和取得的成果,并从统计学角度提出了改进措施。通过对NC方法的分析可以看出,对于以基因网络为代表的非结构化数据,统计思想和原理在数据分析中仍然处于核心地位,但相应的统计方法则需要针对数据的特点及关心的问题进行相应的调整和优化。

【关键词】基因网络社区发现元数据

【基金】中国人民大学科学研究基金(中央高校基本科研业务费专项资金资助)项目“生物医学大学的统计方法基础研究”(15XNI011)的阶段性成果

【所属期刊栏目】统计研究

文献传递