machine learning algorithms mindmap

1 Feature Engineer
1. 数值特征归一化 normalization
2. Categorical Feature
3. 组合特征，高维组合特征
4. 特征组合的方法
5. 文本表示模型
6. Word2Vec
7. image Insufficient data
2 Mode Evaluation
1. Limition
2. precision and recall
3. RMSE失效
4. ROC
  1. Draw ROC
5. AUC
6. Cosine distance and Euclidean distance
  1. cosine distance是否是一个严格定义的距离
7. A/B test
  1. online
  2. 实验组和对照组划分
8. 模型评估方法
9. 自助法过程中，多少数据从未被选择过
10. 超参数调优
11. under-fitting and over-fitting
  1. solutions
3. classic Algorithms
1. SVM
2. Logistic Regression
  1. 多标签分类
3. Decision Tree
  1. 启发函数
  2. 剪枝
4. Dimension reduction
1. Principal Components Analysis
  1. 目标函数
  2. 求解方法
  3. 核主成分分析KPCA
2. Linear Discriminant Analysis
  1. 目标函数
  2. 求解方法
  3. fisher LDA
3. LDA和PCA的区别和联系
5. Unsupervised Learning
1. K-Means
  1. 算法步骤
  2. 优缺点，调优
  3. 改进模型
    1. ISODATA
      1. 分裂，合并
  4. Expectation-Maximization algorithms
  5. 收敛性
2. Gaussian Mixed Model (GMM)
  1. 核心思想
  2. 如何迭代计算
3. Self-Organizing Map (SOM)
  1. 如何工作
  2. 如何设计，训练参数
4. 聚类算法评估
6. Probabilistic Graphical Model
1. Bayesian Network
  1. 联合概率分布
  2. 原理
2. Markov Network
  1. 联合概率分布
3. 最大熵模型
  1. 原理
4. 生成式和判别式模型
5. 马尔可夫模型
  1. 马尔可夫链
  2. 隐马尔可夫模型
  3. 中文分词建模和训练
  4. 最大熵马尔可夫模型 Maximum Entropy Markov Model (MEMM)
    1. 标注偏置
  5. 条件随机场 Conditional Random Field (CRF)
6. 主题模型
  1. Probabilistic Latent Semantic Analysis
  2. Latent Dirichlet Allocation
    1. 语料库生成过程
    2. 主题个数
      1. 困惑度 perplexity
    3. Hierarchical Dirichlet Process (HDP)狄利克雷过程
    4. 推荐系统冷启动
7. Optimization algorithm
1. supervised learning Loss Functions
  1. Hinge
    1. Subgradient Descent Method
  2. Logistic Loss
  3. Cross Entropy
  4. 平方损失函数
  5. 绝对损失函数
  6. Huber Loss Functions
2. 凸优化
  1. SVM
  2. Linear regression
3. 非凸优化
  1. 低秩分解
  2. 深度神经网络
4. 无约束优化问题
  1. 直接法
    1. 梯度
  2. 迭代法
    1. 一阶法
    2. 二阶法牛顿法
      1. 鞍点 Saddle Point
5. 验证目标函数梯度功能的正确性
6. 随机梯度下降
  1. Mini-Batch Gradient Descent
    1. 参数m
    2. 学习速率
    3. 挑选m个训练数据
  2. 失效的原因
    1. plateau
  3. Batch Gradient Descent (BGD)
  4. Momentum
  5. AdaGrad
  6. Adam
    1. first moment
    2. second moment
    3. exponential decay average
7. 正则化与稀疏性
  1. 正则化约束
  2. 解空间形状
  3. 函数叠加
  4. 贝叶斯先验
  5. 拉普拉斯先验
8. 参数优化方法
  1. 网格搜索
  2. 随机搜索
  3. TPE Hyperopt
  4. Simulated Anneal
8. Sampling
1. 优势，应用，特性
  1. 适用场景
2. 均匀分布随机数生成器
  1. Linear Congruential Generator 线性同余法
  2. 高维样本
3. 采样方法
  1. 均匀采样
  2. 轮盘赌算法
  3. 逆变换采样 Inverse Transform Sampling
  4. 拒绝采样 Rejection Sampling
  5. Importance Sampling
  6. Adaptive Rejection Sampling
  7. Sampling-Importance Re-sampling SIR
4. 高斯分布采样
  1. 步骤
  2. Box-Muller
  3. 拒绝采样
  4. 逆变换法
  5. 优缺点
  6. 多维高斯分布
  7. 截尾高斯分布 Truncated Gaussian Distribution
5. 马尔可夫蒙特卡洛采样 MCMC
  1. 主要思想
  2. Metropolis-Hastings
  3. 吉布斯采样法
  4. 如何得到相互独立的样本
    1. 同时运行多个条马尔可夫链
    2. 每隔若干个样本取一个，近似独立
6. bayesian Network sampling
  1. 概率图模型
    1. 联合概率分布
  2. 采样方法
    1. 祖先采样 Ancestral Sampling
  3. 只考虑部分变量边缘分布，采样方法
  4. 含有观测变量如何采样
    1. 逻辑采样
    2. 似然加权采样Likelihood Weighted Sampling
    3. MCMC采样法
7. 不均衡样本集的重采样
  1. 二分类
  2. 基于数据
    1. oversampling
      1. SMOTE
      2. borderline-SMOTE
      3. ADASYN
      4. Tomek Links
      5. 数据扩充
    2. undersampling
      1. Informed Undersampling
      2. Easy Ensemble
      3. Balance Cascade
      4. NearMiss
      5. One-sided Selection
      6. Hard Negative Mining
    3. 优缺点
  3. 基于算法
    1. one-class learning
    2. anomaly detection
    3. 代价敏感学习-使用带标签权重的模型
9. Feed-Forward Networks
1. Multi-Layer Perceptron MLP
  1. 最少需要几个隐含层
  2. 只有一个隐层，多少隐节点能够实现n元输入的任意布尔函数
    1. Disjunctive Normal Form DNF析取范式
  3. 多个隐层，需要多少个网络节点和网络层
2. 深度神经网络
  1. 激活函数和导数
    1. sigmoid
    2. Tanh
    3. ReLU
    4. 梯度消失
    5. 优缺点
3. 反向传播算法
  1. 平方误差
  2. 交叉熵损失函数
  3. 梯度计算公式
  4. 适用场景
4. Training
  1. 过拟合
    1. Data Augmentation
    2. Regularization
    3. Model Ensemble
      1. Dropout
    4. Batch Normalization (BN)
    5. Hyperparameter
      1. Learning Rate
      2. Decay Rate
      3. Dropout Rate
  2. 是否可以初始化参数为0
    1. 参数取值范围
  3. why dropout works
    1. Bagging
  4. Batch Normalization
    1. 动机，原理
5. convolutional Neural Networks
  1. 稀疏交互 Sparse Interaction
    1. 局部特征结构
  2. 和参数共享 Parameter Sharing
    1. 平移等变性
  3. Pooling
    1. Mean Pooling
      1. 背景保留效果好
    2. Max Pooling
      1. 纹理信息
    3. 降采样
    4. 空间金字塔池化
    5. 平移，伸缩，旋转操作的不变性
  4. 文本分类
6. Deep Residual Network, ResNet
  1. 目标函数
10. Recurrent Neural Network
1. 处理文本数据时，循环神经和潜亏神经网络相比有什么特点
2. 梯度消失，梯度爆炸
  1. back propagation through time
  2. 梯度裁剪-gradient explosion
  3. 深度残差网络
3. 激活函数
  1. ReLU
    1. W初始化为单位矩阵
4. Long Short Term Memory
  1. input
  2. forget
  3. output
  4. c记忆单元
  5. 激活函数
  6. 窥孔机制
    1. Ct-1参与输入门更新
5. GRU
6. Seq2Seq
  1. Encode
  2. Decode
    1. 贪心法
    2. 集束搜索
    3. 注意力机制
      1. 解决损失的输入序列信息
      2. 对输入序列进行编码
11. Reinforcement Learning
12. Ensemble
1. 种类
  1. Boosting
    1. 减小偏差
    2. 训练残差
    3. 分类器间强关联，缺乏独立性
  2. Bagging Bootstrap Aggregating
    1. 投票
    2. 减小方差
    3. 再抽样，训练结果上取平均
  3. 基分类器
2. 步骤
  1. Voting
  2. Stacking
3. Adaboost
  1. ID3作为基分类器
  2. Training
  3. 加权投票合并结果
4. 常用的基分类器
  1. 决策树
  2. 神经网络
  3. Random Forest
5. 指标
  1. Bias
    1. 错误假设
  2. Variance
    1. 模型复杂度
6. Gradient Boosting Decision Tree
  1. loss function 均方误差经验损失函数
  2. CART
    1. 基尼指数，平方误差
  3. 梯度提升训练
    1. 负梯度方向进行模型更新
  4. 优缺点
7. XGBoost
  1. 构建决策树加入正则项
    1. 控制模型复杂程度，防止过拟合
  2. 对代价函数进行二级泰勒展开
  3. 支持多种类型分类器，如线性分类器
  4. 支持对数据进行采样
  5. 自动学习出缺失值的处理策略
13. GAN