标题
  • 标题
  • 作者
  • 关键词

结构化数据清洗技术综述

2018-10-18分类号:TP311.13

【作者】郝爽  李国良  冯建华  王宁  
【部门】北京交通大学计算机与信息技术学院  清华大学计算机科学与技术系数据库组  
【摘要】数据清洗是对脏数据进行检测和纠正的过程,是进行数据分析和管理的基础。该文对经典和新兴的数据清洗技术进行分类和总结,为进一步的研究工作提供方向。形式化定义了数据清洗问题,对数据缺失、数据冗余、数据冲突和数据错误这4种数据噪声的检测技术进行详细阐述。按照数据清洗方式对数据噪声的消除技术进行分类概述,包括基于完整性约束的数据清洗算法、基于规则的数据清洗算法、基于统计的数据清洗算法和人机结合的数据清洗算法。介绍了常用的测评数据集和噪声注入工具,并对未来重点的研究方向进行了探讨和展望。
【关键词】数据清洗  数据噪声  噪声检测  噪声消除
【基金】国家重点研发计划项目(2018YFC0809800);; 国家自然科学基金项目(61373024,61632016,61422205,61521002)
【所属期刊栏目】清华大学学报(自然科学版)
文献传递