机器学习项目课程记录-开班-001

对机器学习的项目理解,学习分析业务如何解决?
机器学习项目课程记录-开班-001

数据分析概述

机器学习项目课程记录-开班-001

机器学习,数据分析,数据挖掘的区别和联系

机器学习项目课程记录-开班-001

数据分析的应用场景

机器学习项目课程记录-开班-001预测模型和建模及分析,也可以做股票建模…
个性化推荐
机器学习项目课程记录-开班-001
机器学习项目课程记录-开班-001  又例如,线下店的选取如何去敲定位置 ,要考虑因素的是什么,例如买家的位置信息,可以用聚类算法K-means,真实业务对接算法。

机器学习的开发流程

机器学习项目课程记录-开班-001

重点

数据清洗:关键的是选取那些是重要的特征,缺失值(NAN),重复值(过拟合问题),去除噪音…
特征工程:独热编码,特征缩放…
机器学习项目课程记录-开班-001这个流程可能是大半年的上线部署过程!!!
机器学习项目课程记录-开班-001Flume:流的形式;Kafka:消息队列;
机器学习项目课程记录-开班-001机器学习项目课程记录-开班-001对于房屋面积,数值明显很大,如何x1w1+x2w2+b,明显x1不做处理x1=2104和x2=3,这x2就没意义了(太小)啦兄弟。就要做特征缩放咯啦!!
还得说说啥玩意是正则化:
正则化的概念及原因
简单来说,正则化是一种为了减小测试误差的行为(有时候会增加训练误差)。我们在构造机器学习模型时,最终目的是让模型在面对新数据的时候,可以有很好的表现。当你用比较复杂的模型比如神经网络,去拟合数据时,很容易出现过拟合现象(训练集表现很好,测试集表现较差),这会导致模型的泛化能力下降,这时候,我们就需要使用正则化,降低模型的复杂度。

机器学习项目课程记录-开班-001标准化后是类似标准正态分布的咯!标准化比归一化更加常用,可能因为归一化后数据会为0(0*权重就不太好了).
机器学习项目课程记录-开班-001方法四的性别问题就是升维的过程!机器学习项目课程记录-开班-001带权学习比较好,但是不是每一个算法都支持这个带权学习!
看看朴素贝叶斯的算法中 有这东西的讲解,可以去我博客中找找哦!祝你好运!
机器学习项目课程记录-开班-001

接下一篇文章002

再写就看不下去了!!!