C_Meng PSNA

Never wait for the storm to pass, just dance in the rain.

0%

计算机应用数学学习笔记(一):背景知识

挑战

计算机科学现在面临的最大挑战是大数据,所有的大公司都在收集数据。为了构建数据化的世界和生活,需要做许多枯燥乏味的工作。需要处理现有的数据然后在此基础上构造新的数据。

纯步骤合成vs纯数据

纯步骤合成:紧凑,但依赖人造,很少在实践中使用

纯数据:质量更高,但是灵活性更低

贝叶斯推理

  • 不确定性的原理建模
  • 非结构化数据的通用模型
  • 不确定性下数据拟合与分析的有效算法

但目前它一直被用作黑盒

数据驱动建模

数据驱动的相关技术

数据驱动系统

学习系统不是直接编程来解决问题,而是根据以下内容开发自己的程序:

  • 他们应该如何表现的例子
  • 从尝试解决问题的试错经验中

与标准CS不同,要实现未知功能,只需要访问样本输入输出对(训练样本)

学习问题的主要分类

根据培训示例中的可用信息,学习场景会有所不同

  • 监督学习:纠正输出可用
    • 分类:1-of-N output(语音识别,对象识别,医学诊断)
    • 回归:实际值输出(预测市场价格、温度)
  • 无监督学习:无反馈,需要构建良好输出的度量
    • 聚类:将参考技术的数据分类为连贯的“聚类”
    • 新颖性检测:检测新的偏离正常的数据点
  • 强化学习:尺度反馈,可能是临时的

更多的应用场景

  • 时间序列分析
  • 降维
  • 模型选择
  • 通用方法
  • 图形化模型

为什么需要数据驱动的方法

  • 开发增强型计算机系统
    • 自动适应用户,自定义
    • 经常很难获得必要的知识
    • 在大型数据库中离线发现模式(数据挖掘)
  • 提高对人类、生物学习的理解
    • 计算分析提供了具体的理论,预测
    • 发掘在学习过程中分析大脑活动的方法
  • 时机不错
    • 越来越多的可用数据
    • 廉价而强大的计算机
    • 一套算法,理论已经发展

成功的数据驱动算法会是什么