基于Dirichlet过程无限混合模型的基因表达数据聚类算法
2012-02-28分类号:TP181
【部门】中国矿业大学信息与电气工程学院
【摘要】Dirichlet过程作为一种典型的变参数贝叶斯模型,基于该过程进行的聚类分析无需预先确定聚类数,聚类数作为模型中的参数由模型和数据自主计算得出,因而成为机器学习研究领域中的一个研究热点,可用于海量数据的聚类分析。文章建立Dirichlet过程无限混合模型对DNA基因表达数据展开了聚类分析。模拟测试数据集和急性白血病的DNA基因表达测试数据集的实验结果表明,Dirichlet过程无限混合模型能够准确地估计出数据中的聚类数。
【关键词】聚类 Dirichlet过程 混合模型 马尔科夫-蒙特卡罗
【基金】中央高校基本科研业务费专项资金资助项目(2010QNA47,2010QNA50);; 霍英东基金会青年教师基金资助项目(121066)
【所属期刊栏目】统计与决策
文献传递