admin管理员组

文章数量:1794759

什么是机器学习

什么是机器学习

什么是机器学习

机器学习是一门能够让编程计算机从数据中学习的计算机科学.

一个计算程序在完成任务T之后,获得经验E, 表现效果为P. 如果任务T的性能表现(衡量效果P的标准) 随着E的增加而增加. 那么这样的计算机程序就被称为机器学习程序.

为什么需要机器学习

自动化升级与维护

解决那些算法过于复杂, 甚至根本没有已知算法的问题.

在机器学习的过程中协助人类对未知事物的洞察.

机器学习的问题
  • 建模问题

    所谓机器学习, 在形式上可以这样理解: 在数据对象中通过统计或推理等方法, 寻找一个接收特定输入x, 并给出预期输出y的功能函数f. y=f(x)

  • 评估问题

    针对已知的输入, 函数给出的输出(预测值)与实际输出(目标值)之间存在一定的误差, 因此需要构建一个评估体系, 根据误差的大小判定函数的优劣.

  • 优化问题

    学习的核心在于改善模型性能, 通过数据对算法的反复锤炼, 不断提升函数预测的准确性, 直到获得能够满足业务要求的最优解, 这个过程就是机器学习过程.

  • 机器学习的种类

    监督学习 无监督学习 半监督学习 强化学习

  • 有监督学习: 用已知输出评估模型的性能.
  • 无监督学习: 在没有已知输出的情况下,仅仅根据输入信的相关性, 进行类别的划分.
  • 半监督学习: 先通过无监督学习划分类别, 再根据人工标记, 通过有监督学习预测输出.
  • 强化学习: 通过对不同决策结果的奖励和惩罚, 使机器学习系统在经过足够长时间的训练之后, 越来越倾向于期望的结果.
  • 批量学习 增量学习

  • 批量学习: 将学习的过程和应用的过程截然分开, 用全部的训练数据训练模型, 然后在应用场景中实现预测. 当预测结果不够理想时, 重新回到学习过程, 如此循环.
  • 增量学习: 将学习的过程和应用的过程统一起来, 在应用的同时以增量的方式, 不断学习新内容, 边训练边预测.
  • 基于实例的学习 基于模型的学习

  • 根据以往的经验, 寻找与待预测输入最接近的样本, 以其输出作为预测结果.

    年龄学历经验性别月薪
    25硕士210000
    20本科18000
    20本科3?
  • 基于模型的学习: 根据以往经验, 建立用于联系输出和输入的某种数学模型, 将带预测的输入带入该模型, 预测其结果.

  • 机器学习的一般过程

    数据处理

  • 数据收集(数据检索/数据挖掘/爬虫)
  • 数据清洗
  • 机器学习

  • 选择模型(算法)
  • 训练模型(算法)
  • 评估/优化模型 (工具, 框架, 算法知识)
  • 测试模型
  • 业务运维

  • 应用模型

  • 维护模型

  • 机器学习的典型应用

    股价预测 推荐引擎 自然语言识别 语音识别 图像识别 人脸识别

    机器学习的基本问题
  • 回归问题

    根据已知的输入和输出寻找某种性能最佳的模型, 将未知输出的输入代入模型, 得到连续的输出.

  • 分类问题

    根据已知的输入和输出寻找某种性能最佳的模型, 将未知输出的输入代入模型, 得到离散的输出.

  • 聚类问题

    根据已知输入的相似程度, 将输入数据划分为不同的群落.

  • 降维问题

    在性能损失尽可能小的前提下, 降低数据的复杂度.

  • 数据预处理

    数据预处理的过程: 输入数据 -> 模型 -> 输出数据

    通用数据样本矩阵结构:

    年龄学历经验性别月薪
    25硕士210000
    20本科18000
    20本科3?

    一行一样本, 一列一特征.

    数据预处理相关库

    import sklearn.preprocessing as sp

    本文标签: 机器