Python与机器学习

绪论:初识机器学习

  1. 什么是机器学习?
    计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高。
    :程序与自己下几万次跳棋,任务T就是玩跳棋,性能度量P就是与新对手玩跳棋时嬴得概率。
    :假如你的邮件系统观察了你将哪些邮件标记为垃圾邮件,基于此,学习如何更好的过滤垃圾邮件。在这个过程中,任务T是什么?
    :任务T:将电子邮件分类为垃圾邮件或非垃圾邮件。
    经验E:观察你是否把邮件标记为垃圾邮件。
    性能度量P:正确归类的邮件比例。
    因此系统在任务T上的性能在得到经验E之后会提高性能度量P。
    Python与机器学习
    机器学习的三种不同方法,本节我们将介绍两种不同类型的机器学习方法:监督学习,无监督学习

  2. 监督学习?(教计算机做事)
    :预测房价
    我们给算法一个数据集,其中包含了正确答案,也就是说我们给它一个房价数据集,在这个数据集中的每个样本,我们都给出正确的价格,即这个房子的实际卖价,算法的目的就是给出更多的正确答案,例如为要卖掉的房子给出估价。这种问题也被称为回归问题。
    回归是指,预测一个连续值输出。分类是指,预测离散值输出。
    :假如你想经营一家公司,想开发学习算法来处理两个问题,第一个问题,你有很多同一件货物的库存,假如你有几千件相同的货物要卖,你想预测在接下来的三个月内,你能卖出多少件。第二个问题,你想写一个软件,来判断客户的账号是否被黑客入侵,这两个问题应该归为分类问题还是回归问题?
    :第一个问题时回归问题,第二个问题是分类问题,因为可能设置0表示未被入侵,1表示被入侵。

  3. 无监督学习?(让计算机自己学习)
    给出的数据集,没有标签,或者具有相同标签,无监督学习可以通过聚类算法,将一堆数据分成不同的簇,其中应用聚类算法的例子有新闻网站,每天爬数十万条新闻,然后自动分类供读者阅读。
    :无监督学习是一种学习机制,给系统大量数据,要求它找出数据的类型结构,垃圾邮件过滤问题是?是监督学习;谷歌新闻是?是无监督学习;市场细分的问题是?无监督学习;判断是否有糖尿病?是监督学习。

    8小时Python零基础轻松入门