【数据挖掘知识总结】

数据挖掘知识总结

近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。数据挖掘就是从大量的数据中,抽取出潜在的、有价值的知识、模型或规则的过程。作为一类深层次的数据分析方法,它利用了数据库、人工智能和数理统计等多方面的技术。

数据挖掘涉及范围

数据挖掘的研究领域非常广泛,主要包括数据库系统、基于知识的系统、人工智能、机器学习、知识获取、统计学、空间数据库和数据可视化等领域。主要是可以做以下几件事:分类、估计、预测、关联分析、聚类分析、描述和可视化、复杂数据类型挖掘。

应用场景

1.金融公司、银行的分析场景

2.医疗保健领域和保险领域

3.在交通运输领域中的应用

4.数据挖掘在医学领域的应用

  1. 明确目标

在实施数据挖掘之前,你必须明白自己的目标,即需要通过挖掘去解决什么样的问题。

  1. 数据搜集

当你明确自己的目标或需要解决的问题后,下一步就需要准备数据,准备的数据即可以影响到这些问题的解决办法,这一步成为数据搜集过程。数据搜集过程尤为重要,其决定了后期工作进展的顺利程度。

  1. 数据清洗

通过数据搜集得到的相关数据必须保证“干净”,因为数据的质量高低将影响最终结果的准确性。通常数据会有以下几个方面影响数据的“干净”。

  1. 构建模型

据不完全统计,建模前的数据准备将占整个数据挖掘流程80%左右的时间。接下来,在数据保证“干净”的前提下,需要考虑以什么样的模型能进行建模。

分类模型:逻辑回归,KNN,决策树等。

回归模型:线性回归,支持向量回归,岭回归等。

以上模型都是传统机器学习算法,当然,还可以通过神经网络实现分类或回归。

  1. 模型评估

到此阶段,已经完成了数据挖掘流程中的绝大部分工作。并且通过数据得到解决问题的多个方案(模型),接下来要做的就是从这些模型中挑选出最佳的模型,主要目的就是让这个最佳的模型能够更好地反映数据的真实性。例如,对于预测或分类模型,即使在数训练集中的表现很好,但在测试集中结果一般,说明该模型存在过拟合现象。

  1. 应用部署

通常,模型的构建和评估工作的完成,并不代表整个数据挖掘流程的结束,往往还需要最后的应用部署。尽管模型的构建和评估视数据挖掘工程师所擅长的,但是这些挖掘出来的模式或规律是给真正的业务方或客户服务的,故需要将这些模式重新部署到系统中。

graph TB
A[明确目标] --> B{"数据收集"} 
B -->|数据清洗| C[模型结构]