Machine Learning with Python(一)

从现在开始准备学习一些机器学习的知识,手边有一本机器学习实战,就从这本书开始八

1. 为了测试机器学习算法的效果,通常需要两组独立的样本集:训练数据测试数据

  • 当机器学习程序开始运行时,使用训练数据作为算法的输入,训练完成之后输入测试数据。
  • 输入测试样本是并不提供目标变量,由程序决定测试样本属于哪个类别。比较测试样本预测的目标变量和实际的目标变量,就可以得到算法的精确度。

2. 监督学习和无监督学习

  • 监督学习
    k-近邻算法,朴素贝叶斯,支持向量机,Rider回归,线性回归,Lasso最小回归系数估计,决策树,局部加权线性回归
  • 无监督学习
    k-均值算法,最大期望算法,DBSCAN,Parzen窗设计

3. 选择合适的算法

  • 入坑前的两个问题 需要算法完成什么任务;需要收集或者分析的数据是什么
  • 如果想要预测目标变量的值,监督或者无监督。监督-> 目标变量是离散值:分类算法;目标变量是连续型的值:使用回归算法。
    不想预测目标变量的值,可以采取无监督学习算法。
  • 数据问题,特征值是连续型或是离散型。特征值中是否缺失…

4. 开发机器学习应用的步骤:

  • 收集数据(初始)
  • 准备输入数据(保证数据格式)
  • 分析输入数据(过滤,剔除垃圾数据)
  • 训练算法(要写算法的地方)
  • 测试算法
  • 使用算法