什么是数据挖掘

数据挖掘:用于寻找数据中隐含的知识,并用于产生商业价值的一种手段

为什么要做数据挖掘

技术和商业就像一对双生子,在互相促进中不断演进发展。随之而来的就是个大公司的业务的突飞猛进,也涌现出很多的新模式,使得数据量激增。面对数以千万甚至上亿以及不同形式的数据。很难再用纯人工、纯统计的方法从成千上万的变量中,找到其隐含的价值。所以我们需要一种规范的解决方案,能够利用并且充分利用这些数据中每一个部分,通过一些自动化的机器学习算法,从数据中自动提取价值。

数据挖掘提供了一系列的框架、工具和方法可以处理不同类型的大量数据,并且使用复杂的算法部署,去探索数据中的模式

数据挖掘的产生动因

海量数据维度众多问题复杂

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8Od48RVS-1649587377085)(D:\Typora\img\MyBatis-Plus\image-20220410174702234.png)]

数据挖掘的用处

分类问题 —— 对已知类别的数据进行学习,为新的内容标注一个类别

新浪导航栏图

聚类问题 —— 聚类的类别预先是不清楚的比较适合一些不确定的类别场景

回归问题

回归问题的最大特点 ―— 生成的结果是连续的使用回归的方法预测北京某个房子的总价 (y)

假设总价只跟房子的面积 (x) 有关,那么构建的方程式就是 ax+b=y

回归方法 ―― 通过构建一个模型去拟合已知的数据(自变量),然后预测因变量结果

关联问题

关联问题最常见的一个场景 —— 推荐

京东组合购买推荐图

数据挖掘怎么做

数据挖掘是有方法论的

数据挖掘经过了数十年的发展和无数专家学者的研究,有很多人提出了完整的流程框架

应用最多的方法论︰CRISP-DM (Cross-industry Standard Process for Data Mining,跨行业数据挖掘标准流程)