基于PCA-GRA-BK算法的医疗大数据分析
2023-05-31分类号:R-05;TP311.13
【部门】湖北工业大学计算机学院 武汉理工大学材料学院
【摘要】随着大数据技术的迅猛发展,健康医疗大数据突破性增长,且具有多源异构、多类型、多关联性.健康医疗大数据也具备特有的5V特征:volume, velocity, variety, value, veracity.然而健康医疗数据的安全问题也随之产生,如何保护病患的隐私数据不被泄露成为一项研究热点.该文针对病患隐私保护及其数据分析问题进行研究和探讨,以PCA-GRA Datafly算法为研究对象,为了解决传统算法的QI属性过度泛化的问题及K-means算法的局部最优问题,提出PCA-GRA-BK算法(主成分分析灰度关联分析BiK-means K匿名算法).首先通过PCA算法对医疗数据进行降维分析,利用少量数据揭示医疗数据之间的内在联系,并选择出QI属性;再使用GRA算法对QI属性进行关联度分析,确定与敏感属性的关联度,构建QI属性的泛化层次,使用手肘法确定聚类算法的最佳k值,并通过聚类算法完成健康医疗数据集相似等价类的聚类;最后借助K匿名算法完成对健康医疗数据的匿名化.通过将Datafly算法、PCA-GRA Datafly算法、PCA-GRA-KK算法和PCA-GRA-BK算法进行医疗数据的匿名分析比较发现,在确保数据有效性的前提下,PAC-GRA-BK算法对于数据信息的丢失率明显降低,算法的运行速度也明显提升,进一步证明了该文提出的PAC-GRA-BK算法.
【关键词】健康医疗大数据 隐私保护 灰度关联分析 属性泛化 PCA-GRA-BK算法
【基金】国家自然科学基金项目(61602161,61772180);; 湖北省重点研发计划项目(2020BAB012);; 湖北工业大学研究生基金项目(2021046)
【所属期刊栏目】华中师范大学学报(自然科学版)
文献传递