什么是数据挖掘
数据挖掘:用于寻找数据中隐含的知识,并用于产生商业价值的一种手段
为什么要做数据挖掘
技术和商业就像一对双生子,在互相促进中不断演进发展。随之而来的就是个大公司的业务的突飞猛进,也涌现出很多的新模式,使得数据量激增。面对数以千万甚至上亿以及不同形式的数据。很难再用纯人工、纯统计的方法从成千上万的变量中,找到其隐含的价值。所以我们需要一种规范的解决方案,能够利用并且充分利用这些数据中每一个部分,通过一些自动化的机器学习算法,从数据中自动提取价值。
数据挖掘提供了一系列的框架、工具和方法可以处理不同类型的大量数据,并且使用复杂的算法部署,去探索数据中的模式
数据挖掘的产生动因
海量数据维度众多问题复杂
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8Od48RVS-1649587377085)(D:\Typora\img\MyBatis-Plus\image-20220410174702234.png)]
数据挖掘的用处
分类问题 —— 对已知类别的数据进行学习,为新的内容标注一个类别
新浪导航栏图
聚类问题 —— 聚类的类别预先是不清楚的比较适合一些不确定的类别场景
回归问题
回归问题的最大特点 ―— 生成的结果是连续的使用回归的方法预测北京某个房子的总价 (y)
假设总价只跟房子的面积 (x) 有关,那么构建的方程式就是 ax+b=y
回归方法 ―― 通过构建一个模型去拟合已知的数据(自变量),然后预测因变量结果
关联问题
关联问题最常见的一个场景 —— 推荐
京东组合购买推荐图
数据挖掘怎么做
数据挖掘是有方法论的
数据挖掘经过了数十年的发展和无数专家学者的研究,有很多人提出了完整的流程框架
应用最多的方法论︰CRISP-DM (Cross-industry Standard Process for Data Mining,跨行业数据挖掘标准流程)