一种基于假设检验的数据筛选算法
2020-06-03分类号:O212.1;TP311.13
【部门】山东科技大学数学与系统科学学院
【摘要】数据筛选在大数据处理过程中处于至关重要的地位。如何运用合适的数据筛选算法从大量数据中筛选出有价值的数据是目前需要解决的重要问题之一。文章综合利用统计假设检验的方法设计了一种系统的实验组和对照组差异性的数据筛选算法,并利用MATLAB软件实现了该算法。最后将该算法应用于自闭症的基因表达谱数据(23520个基因),分别筛选出了实验组和对照组表达谱差异较大的244个基因作为自闭症相关的基因。通过基因注释,发现目前文献中已知的与自闭症相关的基因FIGF、MED13、NDRG4、POU3F2、USP8等在筛选的244个基因中,表明了该算法的有效性。
【关键词】数据筛选 假设检验 基因表达谱
【基金】国家自然科学基金资助项目(11501331);; 山东科技大学优秀教学团队建设计划资助项目(JXTD20160507;JXTD20190504)
【所属期刊栏目】统计与决策
文献传递