【有书共读】机器学习与优化读书笔记 02
机器学习(ML)的目标是用一个训练实例集来建立系统,这个系统能够正确地泛化到新实例上,这些新的实例是在学习阶段没有见过的,但来自同一个问题。
ML 的学习即是为一个灵活的模型找到合适的参数值,这些参数要使得实例集上的误差度量自动最小化, 同时也需要避免复杂的模型,从而增加正确泛化的概率。
这个系统的输出值可以是一个类(分类问题),或者是一个数值(回归问题)。在某些情况下,为了增加可用性,可以输出某一类的概率。
只要我们有丰富的有代表性的数据,我们可以在不知道背景知识的情况下建立一个准确的分类器。相较于基于专业领域知识的手动构建的系统,这是一个了不起的改变。
ML是非常强大的,但是它要求严格的方法(一种ML的“教育学”)。可以肯定的是,不要在训练集上测试性能,因为这是弥天大罪:重用验证数据将导致过于乐观的估计。如果实例非常稀缺,你可以使用交叉验证这一手段来炫耀你是个ML专家。
为了安全起见,也为了置身于ML的天堂,你应该保留一些实例用于测试,仅在最后测试性能的时候使用它们。
测试一个模型的性能的方法并不是唯一的,不同类型的误差可能造成不同的损失。准确率、精确率和召回率是二元分类中性能度量的一些可能的选择,对于更多类别的情况,一个混淆矩阵可以给出全部信息。