挑战
计算机科学现在面临的最大挑战是大数据,所有的大公司都在收集数据。为了构建数据化的世界和生活,需要做许多枯燥乏味的工作。需要处理现有的数据然后在此基础上构造新的数据。
纯步骤合成vs纯数据
纯步骤合成:紧凑,但依赖人造,很少在实践中使用
纯数据:质量更高,但是灵活性更低
贝叶斯推理
- 不确定性的原理建模
- 非结构化数据的通用模型
- 不确定性下数据拟合与分析的有效算法
但目前它一直被用作黑盒
数据驱动建模
数据驱动的相关技术
数据驱动系统
学习系统不是直接编程来解决问题,而是根据以下内容开发自己的程序:
- 他们应该如何表现的例子
- 从尝试解决问题的试错经验中
与标准CS不同,要实现未知功能,只需要访问样本输入输出对(训练样本)
学习问题的主要分类
根据培训示例中的可用信息,学习场景会有所不同
- 监督学习:纠正输出可用
- 分类:1-of-N output(语音识别,对象识别,医学诊断)
- 回归:实际值输出(预测市场价格、温度)
- 无监督学习:无反馈,需要构建良好输出的度量
- 聚类:将参考技术的数据分类为连贯的“聚类”
- 新颖性检测:检测新的偏离正常的数据点
- 强化学习:尺度反馈,可能是临时的
更多的应用场景
- 时间序列分析
- 降维
- 模型选择
- 通用方法
- 图形化模型
为什么需要数据驱动的方法
- 开发增强型计算机系统
- 自动适应用户,自定义
- 经常很难获得必要的知识
- 在大型数据库中离线发现模式(数据挖掘)
- 提高对人类、生物学习的理解
- 计算分析提供了具体的理论,预测
- 发掘在学习过程中分析大脑活动的方法
- 时机不错
- 越来越多的可用数据
- 廉价而强大的计算机
- 一套算法,理论已经发展