发布网友 发布时间:2022-04-24 11:39
共1个回答
热心网友 时间:2023-10-11 11:19
(1)数据清理:数据清理是数据准备过程中最花费时间、最乏味,但也是最重要的步骤。该步骤可以有效减少学习过程中可能出现相互矛盾情况的问题。初始获得的数据主要有以下几种情况需要处理:含噪声数据、错误数据、缺失数据、冗余数据。
(2)数据集成:数据集成是一种将多个数据源中的数据(数据库、数据立方体或一般文件)结合起来存放到一个一致的数据存储(如数据仓库)中的一种技术和过程。由于不同学科方面的数据集成涉及到不同的理论依据和规则,因此,数据集成可以说是数据预处理中比较困难的一个步骤。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。
(3)数据转换:数据变换是采用线性或非线性的数学变换方法将*数据压缩成较少维数的数据,消除它们在空间、属性、时间及精度等特征表现的差异。这类方法虽然对原始数据通常都是有损的,但其结果往往具有更大的实用性。数据转换的方法有数据平滑、数据聚集、数据概化、数据规范化、属性构造等。
(4)数据归约:数据经过去噪处理后,需根据相关要求对数据的属性进行相应处理。数据规约就是在减少数据存储空间的同时尽可能保证数据的完整性,获得比原始数据小得多的数据,并将数据以合乎要求的方式表示。数据归约方法主要有:数据立方体聚集、维规约、数据压缩、数值压缩、离散化和概念分层。