-
Main topics
-
Entropy and Information gain
- https://www.youtube.com/watch?v=IPkRVpXtbdY
-
Train / test split
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
-
K-fold cross-validation
- http://scikit-learn.org/stable/modules/cross_validation.html
-
Hyper parameters and Grid search
- http://scikit-learn.org/stable/modules/grid_search.html
- https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html
-
Roc- curve
- https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html
-
my Jupiter notebooks
- https://gist.github.com/DaryaManuhina
- https://gist.github.com/DaryaManuhina/0b92e59c8cbb0506c9c0c4cc8156ff08
-
Accuracy, Precision, Recall and F-score
-
Accuracy
- TP+TN/(TP+TN+FP+FN)
-
доля правильных ответов алгоритма
- бесполезна в задачах с неравными классами
-
Precision
-
TP/(TP+FP)
- True Positive
- False Positive
-
Точность
-
насколько хорошо получается находить положительные классы, не переплачивая за это ложными срабатываниями
- precision = не прихватить лишнее
-
не отвечает на вопрос
- насколько в целом хорошо получилось находить все положительные примеры
- https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html#sklearn.metrics.precision_score
-
Recall
-
TP/(TP+FN)
- True Positive
- False Negative
-
Полнота
-
насколько в целом мы можем находить все положительные примеры
- recall = не пропустить нужное
-
Вопрос
- правла ли мы нашли всех представителей положительного класса
- не несет не какой информации какую цену переплатили мы
- https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html#sklearn.metrics.recall_score
-
F-score
- F-мера - гармоническое среднее между точностью и полнотой. Cтремится к нулю, если точность или полнота стремится к нулю
- F1 = 2 * (Precision * Recall) / (Precision + Recall)
- https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html
-
It will be interesting
-
Confusion matrix¶
-
формат представления предсказания модели и реальных исходов
- https://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html
-
Classification: True vs. False and Positive vs. Negative
- https://developers.google.com/machine-learning/crash-course/classification/true-false-positive-negative
-
Let's count
- import sklearn
precision = sklearn.metrics.precision_score([15,30], [15,40], average='micro', zero_division=1)
recall = sklearn.metrics.precision_score([15,30], [15,40], average='macro')
F1= precision * recall * 2 / (precision + recall)
- полностью изолированы друг от друга
-
Sources
-
"Popular Classification Models for Machine Learning"
- https://www.analyticsvidhya.com/blog/2020/11/popular-classification-models-for-machine-learning/
-
Открытый курс машинного обучения. "Тема 3. Классификация, деревья решений и метод ближайших соседей"
- https://habr.com/ru/company/ods/blog/322534/
-
"Lets Open the Black Box of Random Forests"
- https://www.analyticsvidhya.com/blog/2020/12/lets-open-the-black-box-of-random-forests/
-
Курс "Введение в Data Science и машинное обучение"
- https://stepik.org/course/4852/syllabus
- https://github.com/dgokondra/stepik_pandas_notebooks.github.io
-
Метрики в задачах машинного обучения
- https://habr.com/ru/company/ods/blog/328372/
-
scikit-learn.org
- https://scikit-learn.org/stable/auto_examples/model_selection/plot_precision_recall.html
- https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html
- https://scikit-learn.org/stable/modules/tree.html
- https://scikit-learn.org/stable/modules/cross_validation.html