-
回归(Regression)算法指标
-
Mean Absolute Error 平均绝对误差
- 又称为L1范数损失
- 公式
-
缺点
- 绝对值的存在导致函数不光滑,在某些点上不能求导。
-
改进方案
- 将绝对值改为残差的平方,即均方误差。
-
Mean Squared Error 均方误差
- 又称为L2范数损失
- 公式
-
缺点
- 与目标变量的量纲不一致。
-
改进方案
- 对MSE的结果进行开方。
-
Root Mean Squared Error 均方根误差
- 公式
-
缺点
- 取值大小与具体的应用场景有关系,比较难定义统一的规则来衡量模型的好坏。
-
改进方案
- 决定系数R2
-
Coefficient of determination 决定系数R^2
- 貌似不怎么常用
-
相关概念
-
SST
- Total sum of squares
- 各个实际值与均值之差的总和
-
SSR
- sum of due to regression
- 各个预测值与均值之差的总和
-
SSE
- sum of due to erros
- 各个预测值与实际值之差的总和
- 公式
-
分类(Classification)算法指标
-
Accuracy 精度
- 预测正确的样本占总样本的比例
- 公式
-
缺陷
- 无法衡量有倾向性的问题
- 无法衡量样本类别数量严重不均衡的情况
-
准确率与召回率
-
相关概念
- Confusion Matrix 混淆矩阵
-
Precision 准确率(查准率)
- 分类器预测的正样本中预测正确的比例
-
Recall 召回率(查全率)
- 分类器所预测正确的正样本占所有正样本的比例
-
Fβ Score
- 还没用过,暂且跳过
-
ROC和AUC
-
定义
-
ROC
- Receiver Operating Characteristic 接收者操作特性曲线
-
AUC
- Area Under Curve 上述曲线下的面积
-
相关概念
-
假阳性率(FPR)
- 在所有的负样本中,分类器预测错误的比例
-
真阳性率(TPR)
- 在所有的正样本中,分类器预测正确的比例(等于Recall)
-
ROC空间
- 以假阳性率(FPR)为横轴,真阳性率(TPR)为纵轴,描绘出所有的预测点的FPR和TPR,则可以得到一个ROC空间。
-
AUC曲线
- ROC曲线所覆盖的区域面积
-
特性
- AUC越大,分类器分类效果越好。
- AUC = 1
- 完美分类器
- 0.5 < AUC < 1
- 优于随机猜测。
- AUC = 0.5
- 跟随机猜测一样
- AUC < 0.5
- 比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
-
举例和计算
- 暂且跳过
-
KS Kolmogorov-Smirnov
- 还没用过,暂且跳过