论文部分内容阅读
提出一种优化ETL整体过程的方法,包括:其一,针对现有ETL过程的局限性提出一个优化其整体流程的框架EICLF(Extracting/Integrating/Cleaning/Loading/Feedback)流程;其二,对现有相似重复记录的识别算法进行改进;其三,根据清理后得到的干净数据对源数据进行反馈处理。