-
Области применения
-
максимизировать понимание данных
- насколько данные хороши
- посмотреть насколько данные качественные
- найти все метаданные
-
вычленять наиболее важные переменные для анализа
- на основе полученных данных (графики) получить гипотезы, предположение о распределении данных
- обранаружить выбросы и аномалии
-
Инструменты
-
Построение данных
-
Boxplot
-
понять насколько распределение нормальное
- найти выбросы
- гистограммы
- qq-plot
-
зависимость одной величины от другой
- матрица корреляции
-
===>
- ответ на вопросы
- гипотезы
- направление развития
-
Распределение
- характер распределения и выявить скрытые паттерны данных
- оставляем сырые данные, не только проценты
- Численные показатели
-
Описательная статистика
- мин
- мах
- медиана
- верхний квартиль или третий квартиль
- максимум выборки
-
Что делать с NA
-
Шаг 1
- проверить, что данные были собраны нормально
-
Шаг 2
- убрать наблюдения с отсуствующими значением
-
Шаг 3
- убрать признаки с большим кол-вом NA
-
Шаг 4
- заменить среднее на медиану или моду
-
Шаг 5
- множественная замена
- ....
-
tools
-
CLT for means
- https://gallery.shinyapps.io/CLT_mean/
-
Normal Table - z Table - Standard Normal Table - Normal Distribution Table
- http://www.normaltable.com/ztable-righttailed.html
-
Distribution Calculator
- https://gallery.shinyapps.io/dist_calc/
-
Sample Size Calculator (Evan’s Awesome A/B Tools)
- https://www.evanmiller.org/ab-testing/sample-size.html
-
jypyter notebook
-
Jupyter Notebook для начинающих: учебник - Еще один блог веб разработчика
- https://webdevblog.ru/jupyter-notebook-dlya-nachinajushhih-uchebnik/
-
Values of the t-distribution (two-tailed)
- https://www.medcalc.org/manual/t-distribution.php
-
Understanding and Interpreting Correlations - an Interactive Visualization
- https://rpsychologist.com/d3/correlation/
-
Diagnostics for simple linear regression
- https://gallery.shinyapps.io/slr_diag/
-
My .ipynb
- https://gist.github.com/DaryaManuhina/111d1d2d94774fe6d7c140ffdfa00a43
-
Sources
-
Основы Python. Работа с библиотекой Pandas
- https://www.youtube.com/watch?v=FXZa1qgiHMI&feature=youtu.be&fbclid=IwAR18nL6LUkHHp3j2Uhprvs_2jOp09rfA-YwGWm_-5NJhwwllVmmqH-uG79Q
-
pandas-profiling
- https://github.com/pandas-profiling/pandas-profiling
-
The Ultimate Guide to the Pandas Library for Data Science in Python
- https://www.freecodecamp.org/news/the-ultimate-guide-to-the-pandas-library-for-data-science-in-python/
-
Pandas Project: Make a Gradebook With Python & Pandas
- https://realpython.com/pandas-project-gradebook/
-
Exploratory data analysis в Pandas
- https://www.youtube.com/watch?v=wKrsanSXzk0&feature=youtu.be
- https://pandas.pydata.org/pandas-docs/stable/getting_started/overview.html
-
A Quick Introduction to the “Pandas” Python Library
- https://towardsdatascience.com/a-quick-introduction-to-the-pandas-python-library-f1b678f34673
-
Введение в pandas: анализ данных на Python
- https://khashtamov.com/ru/pandas-introduction/
-
Python Operators from Scratch!!! — A Beginner’s Guide
- https://towardsdatascience.com/python-operators-from-scratch-a-beginners-guide-8471306f4278
- понять, откуда пришло это значение