-
calibration 分类器的概率校准
- CalibratedClassifierCV([…])
- calibration_curve(y_true, y_prob)
-
clustering
-
类
-
AffinityPropagation
- 一种基于数据点之间的“信息传递”的聚类算法
- 不需要在聚类前确定或估计类的个数。类似于k-medoid
-
AgglomerativeClustering
- 常用的层次聚类算法
- 最初将每个对象看成一个簇,然后将这些簇根据某种规则被一步步合并,就这样不断合并直到达到预设的簇类个数
-
Birch
- 利用层次结构的平衡迭代归约和聚类
-
DBSCAN
- 基于密度的聚类算法
- 聚类的时候不需要预先指定簇的个数
- 最终的簇的个数不确定
-
OPTICS
- 改进DBSCAN对输入参数不敏感
- KMeans
-
MiniBatchKMeans
- 是 KMeans 算法的一个变体,它使用 mini-batches 来减少计算时间
-
MeanShift
- 均值漂移算法是一种基于质心的算法, 其工作原理是更新质心的候选点,使其成为给定区域内点的均值
-
SpectralClustering
- 适用于聚类数少时,在聚类数多是不建议使用
- 比K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀
-
方法
- affinity_propagation(S[, …])
- cluster_optics_dbscan(reachability, …)
- cluster_optics_xi(reachability, …)
- dbscan(X[, eps, min_samples, …])
- k_means(X, n_clusters[, …])
- mean_shift(X[, bandwidth, seeds, …])
- spectral_clustering(affinity[, …])
-
ward_tree(X[, connectivity, …])
- 基于特征矩阵的Ward聚类
-
estimate_bandwidth(X[, quantile, …])
- 使用meanshift算法评估要用的带宽
-
compute_optics_graph(X, min_samples, …)
- 计算OPTICS 可达性图
- 执行对应的聚类
-
compose
-
ColumnTransformer(transformers[, …])
- 对pandas的DataFrame的列或数组做转换
-
TransformedTargetRegressor([…])
- 在拟合回归模型之前对目标y进行转换
- 它以预测所用的回归器为参数,将应用于目标变量的变压器为参数
-
make_column_transformer(…)
- 对给定转换器构建一个列转换器
-
impute: 缺失值插值处理
- SimpleImputer([missing_values, …])
- IterativeImputer([estimator, …])
- MissingIndicator([missing_values, …])
-
feature_extraction : 特征抽取
-
DictVectorizer
- 将特征名称与特征值组成的映射字典构成的列表转换成Numpy数组或者Scipy.sparse矩阵
- 对类别列one-hot编码,连续列不处理
-
FeatureHasher
- 直接对特征应用一个hash函数来决定特征在样本矩阵中的列索引
-
image : 图像特征
-
extract_patches_2d
- 将二维图像切成指定大小的小块
-
grid_to_graph
- 像素到像素之间的连接图
-
img_to_graph
- 像素到像素之间的梯度连接图
-
reconstruct_from_patches_2d
- 从图像的小块中重构图像
-
PatchExtractor
- 从图像集合中抽取每个图片的小块
-
text : 文本特征
-
CountVectorizer
- 将文本中的词语转换为词频矩阵
-
HashingVectorizer
- 文本降维,降维后解释性丢失
-
TfidfTransformer
- 用于统计vectorizer中每个词语的TF-IDF值
-
TfidfVectorizer
- 把原始文本转化为tf-idf的特征矩阵
-
feature_selection : 特征选择
-
GenericUnivariateSelect
- 带配置策略的通用特征选取器
-
SelectPercentile
- 按照最高得分的百分比选取特征
-
SelectKBest
- 按照指定的积分函数,选取得分最高的k个特征
-
SelectFpr
- 基于FPR测试选取低于alpha值的p值过滤器
-
SelectFdr
- 给一个评估的伪发现率选取p值
-
SelectFwe
- 基于族系误差率选取p值
-
VarianceThreshold
- 移除低方差的特征
-
SelectFromModel
- 能够用于拟合后任何拥有coef_或feature_importances_ 属性的预测模型
- 特征对应的coef_ 或 feature_importances_ 值低于设定的阈值threshold,那么这些特征将被移除。
- RFE
- RFECV
-
chi2
- 卡方检验
- f_classif
- f_regression
- mutual_info_classif
- mutual_info_regression
- 单变量特征选择
-
递归特征消除
- 使用一个基模型来进行多轮训练,每轮训练后,移除权值系数低于阈值的特征,再基于新的特征集进行下一轮训练
- 互信息方法可以捕捉任何一种统计依赖
- 方差分析,计算方差分析(ANOVA)的F值 (组间均方 / 组内均方)
-
preprocessing
-
FunctionTransformer
- 用户自定义构造转化器
-
Binarizer
- 按照阈值将数据0/1化
-
KBinsDiscretizer
- 将数据按照间隔分箱
-
LabelBinarizer
- 将标签矩阵二值化
-
LabelEncoder
- 对不连续的数字或者文本进行编号
-
OneHotEncoder
- 对每个特征的每个可能的值,若有这个值则为1,若没有这个属性则为0
-
OrdinalEncoder
- 将每个分类特征转换一个新特征 0至分类数-1的整数
-
MultiLabelBinarizer
- 多标签二值化编码
-
MaxAbsScaler
- 归一到 [ -1,1 ]
-
MinMaxScaler
- 归一到 [ 0,1 ]
-
RobustScaler
- 数据有离群点,对数据进行均差和方差的标准化效果不好时使用
-
StandardScaler
- 将数据减去均值除以标准差
-
Normalizer
- L1/L2正则化
-
KernelCenterer
- 标准化,生成 kernel 矩阵,用于将 svm kernel 的数据标准化
-
PowerTransformer
- 将数据从任意分布映射到尽可能接近高斯分布,以稳定方差和最小化偏度
-
QuantileTransformer
- 将特征变换为均匀分布或正态分布
-
PolynomialFeatures
- 进行特征的构造,构造的方式就是特征与特征相乘
-
add_dummy_feature
- 增加一个附加的虚拟特征数据集。有些数据集不能很好地训练,得这样处理
-
binarize
- 将矩阵X根据阈值转为bool值
-
label_binarize
- 将简单的分类或回归模型拓展到多类分类模型时对y的变换
-
maxabs_scale
- 稀疏数据进行缩放,并且不会破坏数据的稀疏型
-
minmax_scale
- 将数据按照给定范围缩放
-
normalize
- 将输入向量缩放到单位正则化
-
quantile_transform
- 使用分位数信息对特征转换
- robust_scale
- scale
-
power_transform
- 参数化的单调的指数变换族,使得数据分布偏向于高斯分布
- 归一化
- 数据标准化和正则化
- 数据重编码
- 数据分布重映射
- 构造新特征
- 在任意轴上对数据集进行标准化
-
covariance
-
EmpiricalCovariance
- 只想抽取部分数据估计协方差
- 通过最大似然法来估计协方差
-
EllipticEnvelope
- 在一个服从高斯分布的数据集中检测离群点的对象
-
GraphicalLasso
- 使用L1正则的评估器的系数逆协相关评估
- GraphicalLassoCV
-
LedoitWolf
- LedoitWolf 评估器
-
MinCovDet
- 最小协方差行列式:协方差的鲁棒评估器
-
OAS
- Oracle的近似收缩估计
-
ShrunkCovariance
- 使用收缩的协方差估计
-
empirical_covariance
- 计算最大似然协方差估计器
-
graphical_lasso
- L1正则的协方差评估器
-
oas
- 使用Oracle的近似收缩估计评估协方差
-
ledoit_wolf
- 评估收缩的Ledoit-Wolf协方差矩阵
-
shrunk_covariance
- 在对角矩阵上计算一个协方差矩阵
-
cross_decomposition
-
CCA
- 典型相关分析
- 将高维的两组数据降到1维,再用相关系数分析相关性
- 降维到1维之后,两组数据的相关系数最大
-
PLSCanonical
- 偏最小二乘法回归
- PLSRegression
-
PLSSVD
- 偏最小二乘SVD
- 在互协方差矩阵上简单地执行SVD
-
decomposition : 矩阵分解
-
DictionaryLearning
- 字典学习总是尝试学习蕴藏在样本背后最质朴的特征
-
dict_learning
- 求解字典学习问题
- 找到数据的最合适的字典以及对应的编码
- dict_learning_online
-
MiniBatchDictionaryLearning
- minibatch的字典学习
-
FactorAnalysis
- 因子分析:从变量群中提取共性因子的统计技术,这里的共性因子指的是不同变量之间内在的隐藏因子。
-
FastICA
- 独立成分分析,用于信号处理的信道分离
-
fastica
- 在数据上执行独立成分分析
-
PCA
- 找出数据里最主要的方面,用数据里最主要的方面来代替原始数据
-
IncrementalPCA
- 要分解的数据集太大而无法放入内存时,增量主成分分析(IPCA)通常用作主成分分析 (PCA)的替代
- IPCA使用与输入数据样本数无关的内存量为输入数据建立低秩近似
-
KernelPCA
- kernel tricks把低维 feature 映射到高维
- SparsePCA
-
MiniBatchSparsePCA
- 使用一部分样本特征和给定的迭代次数来进行PCA降维,以解决在大样本时特征分解过慢的问题,
-
NMF
- 非负矩阵分解: 将一个非负的矩阵分解为左右两个非负矩阵的乘积
-
non_negative_factorization
- 计算数据的NMF
-
LatentDirichletAllocation
- LDA.pdf
-
主题模型
- 文本建模
-
SparseCoder
- 基于固定的、预先计算好的字典,找到数据的系数表征
- X ~= code * dictionary
-
sparse_encode
- 根据传入的字典进行稀疏编码
-
TruncatedSVD
- 1. 计算奇异值个数和奇异向量,生成一个可以代替原矩阵的近似矩阵
- 2. 将数据集的奇异值表征按重要性排列,舍弃不重要的特征向量
-
discriminant_analysis : 判别分析
-
LinearDiscriminantAnalysis
- 投影后类内方差最小,类间方差最大
- PCA是无监督,它是有监督
-
QuadraticDiscriminantAnalysis
- 相比于PCA,QDA对数据有更好的适用性
- 固定协方差矩阵下,LDA和QDA是没有分类结果差异
但在不同的协方差矩阵下,QDA优于LDA
-
dummy
- DummyClassifier
- DummyRegressor
- 基于简单规则的分类器和回归
-
ensemble : 集成学习方法
- AdaBoostClassifier
- AdaBoostRegressor
- GradientBoostingRegressor
-
GradientBoostingClassifier
- 首先用简单的模型对数据进行建模,并分析错误的数据
- 对于以后的模型,我们特别关注那些难以处理的数据,以使它们正确
- 通过给每个预测变量赋予一些权重来组合所有的预测变量
-
HistGradientBoostingRegressor
- 样本数高于1万时,比GradientBoost快
- 源于 LightGBM.
- HistGradientBoostingClassifier
- BaggingClassifier
- BaggingRegressor
- RandomForestClassifier
- RandomForestRegressor
-
RandomTreesEmbedding
- 无监督的数据转换,通过由完全随机树构成的森林,使用数据最终归属的叶子节点的索引值(编号)对数据进行编码
- 编码的大小和稀疏度可以通过选择树的数量和每棵树的最大深度来确定
- ExtraTreesClassifier
- ExtraTreesRegressor
-
IsolationForest
- 异常检测算法
- 适用于大规模数据,应用于网络安全的攻击检测
和流量异常,以及金融机构的欺诈行为
- VotingClassifier
- VotingRegressor
-
Bagging: 减少方差
- 根据均匀概率分布从数据中重复抽样(有放回)
- 对训练过的分类器进行投票,将测试样本指派到得票最高的类中
- 每个抽样生成的自助样本集上,训练一个基分类器;
- 每个自助样本集都和原数据一样大
-
boosting : 减少偏差
- 元估计器,它开始从最初原始训练数据中拟合一个分类器,然后接着用同样的训练数据进行迭代拟合训练下一个基分类器
- 虽然是同样的数据但是每次迭代时样本数据权重不一样
- 权重调整让下一个分类器更多地关注那些之前迭代中分错的样本
- 多数投票算法
-
极端随机树
- 提供额外的随机性,抑制过拟合;
并且具有更快的训练速度
- 增大了 bias(偏差)(遏制了方差)
-
gaussian_process : 高斯过程
-
类
- GaussianProcessClassifier
- GaussianProcessRegressor
-
kernels
-
WhiteKernel
- 主要用法是作为sum核的一部分,用来解释噪声分量。参数noise_level代表着估计过程中的噪声等级
-
Kernel
- 所有kernel的基类
-
ConstantKernel
- 作为Product Kernel的一部分,并且它
可以对核内的其他因子进行缩放,
- 作为Sum 核 ,它可以修改高斯过程的均值
-
PairwiseKernel
- 成对核的核函数的包装器类
-
Exponentiation
- 核需要一个基本核和一个标量参数 exponent ,然后通过 k_exp(X, Y) = k(X, Y) ^ exponentt来组合他们
-
Product
- 通过 k_product(X, Y) = k1(X, Y) * k2(X, Y) 来组合两个核K1和K2
-
Sum
- 通过k_sum(X, Y) = k1(X, Y) + k2(X, Y)来组合两个核K1和K2
-
CompoundKernel
- 多种其他核的组合
-
RationalQuadratic
- 是RBF 核与各种具有不同特性的长度尺度参数的比例混合(无限和)
- 它通过长度尺度参数l > 0 和比例混合参数 α > 0 来参数化的。但是目前仅支持 l
-
Matern
- 是一种固定核,并且是 RBF核的一种概况。它有着一个额外的参数 ν ,这个参数用来控制产生函数的平滑度
-
RBF
- 径向基函数核,一种固定核。它也以"平方指数"核这一名称被人所知。这个核通过长度尺度 l > 0 来实现参数化
-
ExpSineSquared
- 指数正弦平方核,允许模型化周期函数。它通过长度尺度参数l > 0 与周期参数 p > 0 来参数化。目前仅支持 l
-
DotProduct
- 点乘核是一种非固定核,通过设置先验N(0,1) 于系数 x_d(d = 1, ..., D) 和设置先验 N(0, σ_0 ^ 2) 与偏值上的一个线性回归来获得
-
Hyperparameter
- kernel的超参数,以名称元组形式配置
- 核运算
- 基础核
- 组合核
-
isotonic : 保序回归等
- IsotonicRegression
-
check_increasing
- 检验y是否是与x单调相关
-
isotonic_regression
- 求解单调回归问题
-
kernel_approximation : 基于傅里叶变换的近似内核特征映射
-
Nystroem([kernel, …])
- 近似于使用训练数据子集的核映射
-
AdditiveChi2Sampler
- 按分量进行的确定性采样,每个分量被采样n次,每个输入维(两者的乘积来源于傅里叶变换的实部和复部) 产生2n+1维
-
RBFSampler([gamma, …])
- 近似于RBF核的特征映射
-
SkewedChi2Sampler([…])
- 近似于与斜卡方核类似的特征映射
-
不需要从数据样本中学习
- 只需知道特征数量即可,产生许多随机非线性来很好地拟合你的数据问题
- 没有需要解释的复杂的优化算法,事实上,优化本身被随机化取代
-
kernel_ridge : 使用核技巧的核脊回归(L2正则线性回归)
-
KernelRidge
-
线性回归模型对输入变量x的噪音很敏感
- 输入矩阵存在多重线性
- 在原来最小二乘法模型的基础上加一个惩罚项,L1或L2
- 引入kernel就能够处理非线性数据
-
linear_model
-
ARDRegression([n_iter, tol, …])
- BayesianRidge([n_iter, tol, …])
- ElasticNet([alpha, l1_ratio, …])
- ElasticNet([alpha, l1_ratio, …])
- HuberRegressor([epsilon, …])
- Lars([fit_intercept, verbose, …])
- LarsCV([fit_intercept, …])
- Lasso([alpha, fit_intercept, …])
- LassoCV([eps, n_alphas, …])
- LassoLars([alpha, …])
- LassoLarsCV([fit_intercept, …])
- LassoLarsIC([criterion, …])
- LinearRegression([…])
- LogisticRegression([penalty, …])
LogisticRegressionCV([Cs, …])
- MultiTaskLasso([alpha, …])
- MultiTaskLassoCV([eps, …])
- MultiTaskElasticNetCV([…])
- OrthogonalMatchingPursuit([…])
- OrthogonalMatchingPursuitCV([…])
- PassiveAggressiveClassifier([…])
- PassiveAggressiveRegressor([C, …])
- Perceptron([penalty, alpha, …])
- RANSACRegressor([…])
- Ridge([alpha, fit_intercept, …])
- RidgeClassifier([alpha, …])
- RidgeClassifierCV([alphas, …])
- RidgeCV([alphas, …])
- SGDClassifier([loss, penalty, …])
- SGDRegressor([loss, penalty, …])
- TheilSenRegressor([…])
- enet_path(X, y[, l1_ratio, …])
- lars_path(X, y[, Xy, Gram, …])
- lars_path_gram(Xy, Gram, n_samples
- lasso_path(X, y[, eps, …])
- orthogonal_mp(X, y[, …])
- orthogonal_mp_gram(Gram, Xy[, …])
- ridge_regression(X, y, alpha[, …])
-
贝叶斯自相关确定(ARD)回归
- 贝叶斯领回归
- 带L1和L2先验正则的线性回归
- 沿着正则路径迭代选取L1和L2的ElasticNet
- 对离群点鲁棒的线性回归模型
- 最小角回归,样本数量远远小于特征数量,高维问题
- 交叉验证的最小角回归
- 带L1正则的线性回归模型
- 迭代选取最佳L1正则的线性模型
- 带L1正则的Lars
- 使用BIC或AIC来做模型选取的带L1的Lars
- 逻辑回归分类器
- 多任务,y值不是一元的情况
- y值非一元情况下,L1,L2混合正则的Lasso模型
- 正交匹配追踪算法OMP
- 在线主动攻击型分类,大规模数据中增量学习方法
- 感知器分类算法
- 拟合高鲁棒性回归RANSAC,根据一组包含异常数据的样本数据集,计算出数据的数学模型参数,得到有效样本数据的算法
- 岭回归:使用L2正则的线性最小方差
- 使用岭回归的分类器
- 主要应用在大规模稀疏数据问题上,SGD的线性分类器
- 增量学习
- 稳健的多元回归模型
- 在坐标下降中计算弹性网络(Elastic Net)路径
- 使用LARS算法计算最小角度回归或Lasso路径
- 沿着坐标下降计算Lasso路径
- 使用普通等式解岭回归等式
-
manifold : 流型学习
-
MDS
- 将空间A中系列点映射到新空间B中,同时保持点之间距离关系
- PCA的输入是样本点在原空间的坐标,而MDS则需要输入各个点的距离度量
-
Isomap
- 把原始由欧式距离计算得到的D矩阵换成流形学习中的测地距离(geodesic distance),然后执行MDS
-
LocallyLinearEmbedding
- 空间变换过程中,只关注距离相近的点
- 如果某些样本靠的足够接近,那么其中任意
一个样本必然可以通过其它样本进行重构
-
SpectralEmbedding : 拉普拉斯特征映射LE算法
- 高维空间中距离近的点映射到低维空间中后其位置也相距很近
- 将问题转化为求解图拉普拉斯算子的广义特征值问题
- 对包含离群点的数据鲁棒性很好
-
TSNE
- 每个数据点近邻的分布进行建模
- 在原始高维空间中,我们将高维空间建模为高斯分布,而在二维输出空间中,我们可以将其建模为 t 分布
-
控制拟合的主要参数为困惑度(Perplexity)
- 等价于在匹配每个点的原始和拟合分布时考虑的最近邻数
- smacof
-
locally_linear_embedding
- 在数据集上执行 LLE
-
spectral_embedding
- 执行算法
-
mixture : 高斯混合模型
- BayesianGaussianMixture
- GaussianMixture
-
model_selection
-
切分器类
- KFold
-
GroupKFold
- 在保证kFold的基础上,保证同一个group的数据不会拆分到train和test中
-
StratifiedKFold
- 考虑数据集带有的标签
-
RepeatedKFold
- 将K-Fold重复n次
- RepeatedStratifiedKFold
- LeaveOneGroupOut
- LeavePGroupsOut
- LeaveOneOut
- LeavePOut
-
GroupShuffleSplit
- ShuffleSplit 和LeavePGroupsOut综合
-
ShuffleSplit
- 自定义训练和测试数据
-
StratifiedShuffleSplit
- 要考虑数据的标签
-
PredefinedSplit
- 已经名明确test_fold
-
TimeSeriesSplit
- 时间序列数据
- K折交叉验证 : 某一组为测试
- 留一法 : 固定几个为测试
- 随机划分法 : 先随机再分train/test
-
切分器函数
-
check_cv
- 构建交叉验证之前的输入检查
-
train_test_split
- 数据集切分为train/test/valid
-
超参数优化器
-
GridSearchCV : 网格搜索
- 系统地遍历多种参数组合,通过交
叉验证确定最佳效果参数
-
RandomizedSearchCV : 随机采样
- 对参数的随机搜索, 其中每个设置都
是从可能的参数值的分布中进行取样
-
优势
- 可以选择独立于参数个数和可能值的预算
- 添加不影响性能的参数不会降低效率
-
ParameterGrid
- 应用于GridSearch中的参数词典
-
ParameterSampler
- 从给定参数中采样
- fit_grid_point
- 参数优化
-
模型校验
-
cross_validate
- 使用交叉验证的评估指标,同时记录训练和预测时间
-
cross_val_predict
- 返回的是一个使用交叉验证以后的输出值,而不是评分标准
-
cross_val_score
- 根据训练集,选择K折,以及评估指标,计算得分
-
learning_curve
- 查看模型是否过拟合,计算并绘制模型的验证曲线
-
permutation_test_score
- 通过排序评估交叉验证的得分在重要性
- validation_curve
-
multiclass : 多分类和多标签分类
-
OneVsRestClassifier
- 一个分类器对应一个类别, 每个分类器都把其他全部的类别作为相反类别看待
-
OneVsOneClassifier
- 两两类别之间建立一个判别式,这样n个类别,总共需要n*(n-1)/2个判别式,最后通过投票的方式确定样本所属类别。
- OutputCodeClassifier
-
multioutput : 多输出的回归和分类
-
ClassifierChain
- 多标签模型将所有二分类模型链在一起
- RegressorChain
-
MultiOutputRegressor
- 对于每一个目标可以训练出一个回归器,所以它无法利用目标之间的相关度信息
-
MultiOutputClassifier
- 为每一个目标训练一个分类器
-
naive_bayes : 朴素贝叶斯
-
BernoulliNB
- 适用于离散特征的情况,所不同的是,伯努利模型中每个特征的取值只能是1和0
- 一般用于文本分类
-
MultinomialNB
- 在计算先验概率和条件概率时会做平滑处理,避免未在训练集中出现的值会导致后验概率为0
-
GaussianNB
- 假设这些一个特征的所有属于某个类别的观测值符合高斯分布
- 连续的特征变量,多项式模型就会导致不平滑,即使平滑,得到的条件概率也难以描述真实情况。此时应该采用高斯模型
- ComplementNB
- 连续数据
- 离散数据
-
neighbors : 最近邻
-
BallTree
- 为了改进KDtree的二叉树树形结构,使用超球面而不是超矩形划分区域,在高维甚至很高维的数据上高效
-
KDTree
- KD 树是一个二叉树结构,它沿着数据轴递归地划分参数空间,将其划分为嵌入数据点的嵌套的各向异性区域
- 适用于维度小于20的,过高会产生维度灾难
- DistanceMetric
-
KernelDensity
- 核密度估计
- KNeighborsRegressor
-
LocalOutlierFactor
- 适用局部离群因子的无监督离群点检测
- 基于密度的LOF算法要更简单、直观,不需要对数据的分布做太多要求,还能量化每个数据点的异常程度(outlierness)
-
KNeighborsClassifier
- 可以自然地处理多类问题,而不需要增加模型的大小,并且不引入需要用户进行微调的额外参数
-
RadiusNeighborsClassifier
- 在给定半径范围内的邻居中使用投票机制
-
NearestCentroid
- 是直接选择最近质心来分类,所以仅有两个参数,距离度量和特征选择距离阈值
- 每个质心的每个特征的值除以该特征的类中的方差. 然后通过 shrink_threshold 来减小特征值
- adiusNeighborsRegressor
- NearestNeighbors
-
NeighborhoodComponentsAnalysis
- 提高最近邻分类相对于标准欧氏距离的准确性
- 直接最大化训练集上k近邻(KNN)得分的随机变量,还可以拟合数据的低维线性投影,用于数据可视化和快速分类
-
kneighbors_graph
- 计算X中的点的K个邻居的(权值)图
-
radius_neighbors_graph
- 计算X中的点的邻居的(权值)图
-
neural_network : 神经网络
-
BernoulliRBM
- 伯努利受限玻尔兹曼机
- MLPClassifier
- MLPRegressor
-
pipeline
-
FeatureUnion
- 把若干个transformer objects组合成一个新的transformer
- 训练阶段每个transfer独立训练,数据变换时可以并行执行
- make_union
- Pipeline
-
make_pipeline
- 从给定评估器中构建一个Pipeline
-
random_projection : 随机投影
-
GaussianRandomProjection
- 使用高斯随机投影降维,投影降维前后,数据点的空间分布距离基本保持不变
-
SparseRandomProjection
- 使用稀疏随机矩阵,通过投影原始输入空间来降低维度
- 可以替换高斯随机投影矩阵来保证相似的嵌入质量,且内存利用率更高、投影数据的计算更快
-
johnson_lindenstrauss_min_dim
- 找到`安全`数目的组成成分来投影
- 保守估计随机子空间的最小大小来保证随机投影导致的变形在一定范围内
-
semi_supervised
-
LabelPropagation
- 标签传播分类器
- LabelSpreading
-
svm
-
评估器
-
LinearSVC
- 基于liblinear库实现
- 训练集实例数量大(大于1万)时也可以很好地进行归一化
- 既支持稠密输入矩阵也支持稀疏输入矩阵
- LinearSVR
- SVR
-
SVC
- 基于libsvm库实现
- 训练集实例数量大(大于1万)时很难进行归一化
- NuSVC
- NuSVR
-
OneClassSVM
- 只有正样本,没有负样本,训练数据中没有离群点,构建一个最小超平面
- 异常点检测
-
l1_min_c
- 使用 L1 罚项时 C 的下界,以避免模型为空(即全部特征分量的权重为零)。
- 线性不可分的数据不能使用
- nu代表训练集训练的错误率的上限,或者说支持向量的百分比下限
-
libsvm : 低阶方法
- cross_validation
- decision_function
- fit
- predict
- predict_proba
-
tree
- DecisionTreeClassifier
- DecisionTreeRegressor
-
ExtraTreeClassifier
- 极度随机的分类树
-
与随机森林相同点
- bootstrap了样本
- 随机选取了部分特征,来构造一个棵树
-
与随机森林不同点
- 每棵决策树选择划分点的方式不同
- ExtraTreeRegressor
-
export_graphviz
- 以DOT格式导出一个决策树
-
plot_tree
- 打印决策树
-
export_text
- 导出决策树的所有规则文本
- datasets
-
utils
-
arrayfuncs
-
min_pos
- 返回数组中最小正值
-
as_float_array
- 数组转为浮点类型
-
assert_all_finite
- 数组不包含NaN或极限值的断言
- check_X_y
- check_array
-
check_scalar
- 验证标量参数的类型和值
-
check_consistent_length
- 检查所有的数组有相同的第一维度
- check_random_state
-
class_weight
-
compute_class_weight
- 评估不均衡数据的类别权重
-
compute_sample_weight
- 根据类别评估不均衡数据的类别权重
-
extmath
-
safe_sparse_dot
- 安全的计算稀疏矩阵的点积
-
randomized_range_finder
- 计算正交矩阵其取值范围为传入的范围A
-
randomized_svd
- 计算一个截断的随机的SVD
-
fast_logdet
- 对称计算log(det(A))
-
density
- 计算稀疏向量的密度
- weighted_mode
- gen_even_slices
-
graph
-
single_source_shortest_path_length
- 计算从源到目标的所有可达路径的最短路径
-
graph_shortest_path
-
graph_shortest_path
- 在正的有向图或者无向图上执行最短路径图搜索
-
indexable
- 使得数组可以索引,用于交叉验证
- ...
-
inspection : 模型检查
- partial_dependence
- plot_partial_dependence
-
metrics
-
模型选取
- check_scoring
-
get_scorer
- 根据传入的字符串返回计分器
-
make_scorer
- 根据一个性能指标或损失函数构造计分器
-
分类指标
-
accuracy_score
- 分类准确率
-
auc
- 根据梯形规则计算AUC
-
average_precision_score
- 根据预测【得分】计算平均精度
-
balanced_accuracy_score
- 可以避免在不平衡数据集上作出夸大的性能估计
-
brier_score_loss
- Brier分数是衡量概率校准的一个参数
- classification_report
-
cohen_kappa_score
- kappa系数在医学领域应用比较多,用来评价一个分类器的准确性,特别是在标签不平衡的状态下
-
confusion_matrix
- 混淆矩阵
- f1_score
-
fbeta_score
- 权衡recall和precision之间的重要性的性能指标
- 当beta大于1,更多关注recall;当beta小于1,更多关注precision
-
hamming_loss
- 计算多标签分类(Multi-label classification)模型精度
-
hinge_loss
- 专用于二分类问题
-
jaccard_score
- 雅克比相似度得分
-
log_loss
- 对数回归,逻辑回归损失、交叉熵损失
-
matthews_corrcoef
- 观察到的和预测的二元分类之间的相关系数
- 描述真假阳性和阴性的混淆矩阵最好的一个系数
-
multilabel_confusion_matrix
- 计算多标签/多分类的混淆矩阵,将多分类转换为2分类
- precision_recall_curve
- precision_recall_fscore_support
- precision_score
- recall_score
- roc_auc_score
- roc_curve
-
zero_one_loss
- 所有样本的损失的平均损失
-
回归指标
-
explained_variance_score
- 解释回归模型的方差得分
- 越接近于1说明自变量越能解释因变量的
方差变化,值越小说明效果越差
-
mean_absolute_error
- 评估预测结果和真实数据集的接近程度
-
mean_squared_error
- 拟合数据和原始数据对应样本点的误差的平方和的均值
-
mean_squared_log_error
- log对数的差的平方的均值
-
median_absolute_error
- 绝对值误差的中位数
-
max_error
- 直接返回y_pred和p_true数组中最大的残差
-
r2_score
- 判定系数,解释回归模型的方差得分
-
排序指标
-
coverage_error : 范围误差
- 计算了那些必须在最终预测(所有真实的label都会被预测)中包含的labels的平均数目
- 想知道有多少top高分labels时
-
label_ranking_average_precision_score
- Label ranking平均准确率
-
label_ranking_loss
- 对label对没有正确分配的样本进行求平均
-
聚类指标
-
fowlkes_mallows_score
- 针对训练集和验证集数据之间求得的查全率和查准率的几何平均值
-
adjusted_rand_score : 调整兰德系数
- ARI取值范围为[-1,1],值越大意味着聚类结果与真实情况越吻合
- 需要给定实际类别信息C
-
calinski_harabasz_score
- 计算类中各点与类中心的距离平方和来度量类内的紧密度,通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度,CH指标由分离度与紧密度的比值得到
- 可应用于真实index未知的模型评估
-
davies_bouldin_score
- 度量每个簇类最大相似度的均值
-
cluster.contingency_matrix
- 建立描述标签之间关联的矩阵
-
homogeneity_completeness_v_measure
- 完整性和同质性调和
-
completeness_score
- 完整性分数
- 每个群集只包含单个类的成员
-
homogeneity_score
- 同质性分数
- 给定类的所有成员都分配给同一个群集
- mutual_info_score
-
normalized_mutual_info_score
- 标准化的互信息
-
adjusted_mutual_info_score
- 调整后的互信息
-
silhouette_score
- 轮廓系数适用于实际类别信息未知的情况
- 单个样本,设a是与它同类别中其他样本的平均距离,b是与它距离最近不同类别中样本的平均距离
- 对于一个样本集合,它的轮廓系数是所有样本轮廓系数的平均值
- silhouette_samples
- v_measure_score
-
互信息方法
- 衡量两个数据分布的吻合程度
- 同质性和完整性
-
双向聚类指标
-
consensus_score
- 共识得分
-
配对指标
-
pairwise_distances
- 计算矩阵X和Y的距离矩阵
-
pairwise_distances_argmin
- 计算某点与点集合中最短距离
-
pairwise_distances_argmin_min
- 计算某点与点集合中最短距离
-
pairwise_distances_chunked
- 生成一个距离矩阵块,以可选的衰减分块
-
pairwise
-
cosine_similarity
- 计算X和Y的余弦相似度
-
cosine_distances
- 计算X和Y的余弦距离
-
distance_metrics
- 根据传入的字符串返回距离指标
-
euclidean_distances
- 欧式距离
-
haversine_distances
- 根据经度计算两个点的球面距离
- paired_euclidean_distances
- paired_manhattan_distances
- paired_cosine_distances
- paired_distances
- manhattan_distances
-
additive_chi2_kernel
- 计算观测值X和Y中的加性卡方核
-
chi2_kernel
- 计算X和Y的指数卡方核
- 计算机视觉应用中训练非线性支持向量机时
-
linear_kernel
- 线性核函数,也就是一种在 degree=1 和 coef0=0 (同质化) 情况下的polynomial_kernel
-
polynomial_kernel
- 计算两个向量的d次方的多项式核函数。 多项式核函数代表着两个向量之间的相似度
- pairwise_kernels
-
kernel_metrics
- 根据传入的字符串返回配对的距离度量指标
-
sigmoid_kernel
- S型核函数也被称为双曲切线或者 多层感知机
-
rbf_kernel
- 计算两个向量之间的径向基函数核 (RBF)
-
laplacian_kernel
- 一种径向基函数核的变体
- 辅助
-
单调函数的回归
- 用来做统计推断,估计最大值