从数据本身来考虑到,数据挖掘一般来说必须有信息搜集、数据构建、数据规约、数据清扫、数据转换、数据挖掘实行过程、模式评估和科学知识回应8个步骤。步骤(1)信息搜集:根据确认的数据分析对象,抽象化出有在数据分析中所必须的特征信息,然后自由选择适合的信息搜集方法,将搜集到的信息现金数据库。对于海量数据,自由选择一个适合的数据存储和管理的数据仓库是至关重要的。步骤(2)数据构建:把有所不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中于,从而为企业获取全面的数据共享。
步骤(3)数据规约:如果继续执行多数的数据挖掘算法,即使是在少量数据上也必须很长的时间,而做到商业运营数据挖掘时数据量往往十分大。数据规约技术可以用来获得数据集的规约回应,它大得多,但依然相似于维持原数据的完整性,并且规约后继续执行数据挖掘结果与规约前继续执行结果完全相同或完全完全相同。步骤(4)数据清扫:在数据库中的数据有一些是不原始的(有些感兴趣的属性缺乏属性值)、不含噪声的(包括错误的属性值),并且是不完全一致的(某种程度的信息有所不同的回应方式),因此必须展开数据清扫,将原始、准确、完全一致的数据信息现金数据仓库中。
不然,挖出的结果不会差强人意。步骤(5)数据转换:通过光滑挤满、数据概化、规范化等方式将数据转换成限于于数据挖掘的形式。对于有些实数型数据,通过概念分层和数据的线性化来切换数据也是最重要的一步。步骤(6)数据挖掘过程:根据数据仓库中的数据信息,自由选择适合的分析工具,应用于统计资料方法、事例推理小说、决策树、规则推理小说、模糊集,甚至神经网络、遗传算法的方法处置信息,得出结论简单的分析信息。
步骤(7)模式评估:从商业角度,由行业专家来检验数据挖掘结果的正确性。步骤(8)科学知识回应:将数据挖掘所获得的分析信息以可视化的方式呈现出给用户,或作为新的科学知识存放在知识库中,可供其他应用程序用于。数据挖掘过程是一个重复循环的过程,每一个步骤如果没超过预期目标,都必须返回前面的步骤,新的调整并继续执行。
不是每一件数据挖掘的工作都必须这里所列的每一步,例如在某个工作中不不存在多个数据源的时候,步骤(2)之后可以省略。步骤(3)数据规约、步骤(4)数据清扫、步骤(5)数据转换又齐名数据预处理。在数据挖掘中,最少60%的费用有可能要花上在步骤(1)信息搜集阶段,而其中最少60%以上的精力和时间花上在了数据预处理过程中。
本文来源:yabo888vip网页登录平台-www.scc23.com