标题
  • 标题
  • 作者
  • 关键词

改进随机森林的集成分类方法预测结直肠癌存活性

2017-01-20分类号:R735.34

【作者】王宇燕  王杜娟  王延章  Yaochu Jin  
【部门】大连理工大学管理与经济学部  英国萨里大学计算机系  
【摘要】癌症是人类死亡的主要原因之一,许多国家在癌症方面的支出占医疗总支出的很大比例。癌症存活性预测作为癌症预后的一项重要工作,可以辅助医生做出更精准的诊疗决策,进而降低癌症治疗成本。近年来,基于数据驱动的癌症存活性预测方法逐渐得到应用,而预测的准确性是评价预测方法性能的主要指标,因此提高癌症存活性预测方法的准确性一直是一个活跃的研究领域。结直肠癌是一种具有高发病率和高死亡率的癌症,为了提高结直肠癌存活性预测的准确性,利用遗传算法对随机森林进行改进,提出基于GA-RF的集成分类方法。该方法通过遗传算法对随机森林中的决策树实行进化搜索,以提高集成分类准确率为目标选出决策树的满意集成。实验分别使用基于GA-RF的集成分类方法、决策树和参数优化的随机森林训练预测模型预测结直肠癌患者的存活性,利用SEER数据库的结直肠癌数据集对3种方法分别进行10折交叉验证,然后用准确性、敏感性和特异性3个指标对它们进行评价。实验结果显示,基于GA-RF的集成分类方法的预测精度最高(88.2%),参数优化的随机森林的预测精度次之(86.4%),但集成复杂度远高于基于GA-RF的集成分类方法,决策树的预测精度最差(74.2%),而基于GA-RF的集成分类方法还表现出了最好的泛化性能。该集成分类方法对随机森林进行了有效的改进,能以更高的运算效率和更好的准确性预测结直肠癌存活性,可以为结直肠癌的预后提供决策参考,弥补经验预测的不足,该方法的提出对节约医疗资源、降低医疗成本、提高患者满意度具有实际意义。
【关键词】随机森林  遗传算法  集成分类  存活性预测  结直肠癌
【基金】国家自然科学基金(71533001); 中央高校基本科研业务费专项资金(DUT15QY32)~~
【所属期刊栏目】管理科学
文献传递