机器学习——导论
一、大数据4V特征
大数据和机器学习区别:
大数据做的是基本的数据存储和统计计算,机器学习是从大数据里面挖掘有价值的数据。
二、项目名称:电信日志分析系统**
项目描述:
电信日志分析系统是以电信用户上网所产生的数据进行分析和统计计算,数据主要来源于用户的上网产生的访问日志和安全日志,通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能,达到异常IP的检测、关键词过滤、违规违法用户的处理等,整个项目数据量在1T-20T左右,集群数量在10台到100台。
项目架构分析
-
数据采集层:ftp、socket方式
-
数据存储层:HDFS
-
数据分析层:MRHVE\MPALA\SPARK
-
机器学习层:在大数据处理后的应用
-
用户展示:oracle+SSM
项目职责
- 重点负责:实时or离线
- 处理分析了哪些字段,通过何种手段分析?
- 项目有无优化? HDFS+Spark(一站式分析平台)
AI
热门方向
图像识别、 无人驾驶、智能翻译、 语音识别、医疗智能诊断、 数据挖掘。
AI、机器学习、深度学习关系
机器学习是人工智能的分支,深度学习是实现机器学习的一种技术。
数据分析、数据挖掘和机器学习的关系
从数据到信息的过程叫数据分析,从信息到有价值的信息叫数据挖掘,用机器学习的方法进行数据挖掘。
机器学习
机器学习=CPU+GPU(图形图像处理器)+数据+算法
机器学习模型=数据集+算法,用模型预测
- 基于规则学习:人发现规律,制定规则,不是AI范畴。
- 基于模型学习:
利用数据集(x,y)学习模型,通过模型来预测结果