1. 回归(Regression)算法指标
    1. Mean Absolute Error 平均绝对误差
      1. 又称为L1范数损失
      2. 公式
      3. 缺点
        1. 绝对值的存在导致函数不光滑,在某些点上不能求导。
        2. 改进方案
          1. 将绝对值改为残差的平方,即均方误差。
    2. Mean Squared Error 均方误差
      1. 又称为L2范数损失
      2. 公式
      3. 缺点
        1. 与目标变量的量纲不一致。
        2. 改进方案
          1. 对MSE的结果进行开方。
    3. Root Mean Squared Error 均方根误差
      1. 公式
      2. 缺点
        1. 取值大小与具体的应用场景有关系,比较难定义统一的规则来衡量模型的好坏。
        2. 改进方案
          1. 决定系数R2
    4. Coefficient of determination 决定系数R^2
      1. 貌似不怎么常用
      2. 相关概念
        1. SST
          1. Total sum of squares
          2. 各个实际值与均值之差的总和
        2. SSR
          1. sum of due to regression
          2. 各个预测值与均值之差的总和
        3. SSE
          1. sum of due to erros
          2. 各个预测值与实际值之差的总和
      3. 公式
  2. 分类(Classification)算法指标
    1. Accuracy 精度
      1. 预测正确的样本占总样本的比例
      2. 公式
      3. 缺陷
        1. 无法衡量有倾向性的问题
        2. 无法衡量样本类别数量严重不均衡的情况
    2. 准确率与召回率
      1. 相关概念
        1. Confusion Matrix 混淆矩阵
      2. Precision 准确率(查准率)
        1. 分类器预测的正样本中预测正确的比例
      3. Recall 召回率(查全率)
        1. 分类器所预测正确的正样本占所有正样本的比例
    3. Fβ Score
      1. 还没用过,暂且跳过
    4. ROC和AUC
      1. 定义
        1. ROC
          1. Receiver Operating Characteristic 接收者操作特性曲线
        2. AUC
          1. Area Under Curve 上述曲线下的面积
      2. 相关概念
        1. 假阳性率(FPR)
          1. 在所有的负样本中,分类器预测错误的比例
        2. 真阳性率(TPR)
          1. 在所有的正样本中,分类器预测正确的比例(等于Recall)
      3. ROC空间
        1. 以假阳性率(FPR)为横轴,真阳性率(TPR)为纵轴,描绘出所有的预测点的FPR和TPR,则可以得到一个ROC空间。
      4. AUC曲线
        1. ROC曲线所覆盖的区域面积
        2. 特性
          1. AUC越大,分类器分类效果越好。
          2. AUC = 1
          3. 完美分类器
          4. 0.5 < AUC < 1
          5. 优于随机猜测。
          6. AUC = 0.5
          7. 跟随机猜测一样
          8. AUC < 0.5
          9. 比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
        3. 举例和计算
          1. 暂且跳过
    5. KS Kolmogorov-Smirnov
      1. 还没用过,暂且跳过