ML-продукты. Разбираем основы

Изучаем мат часть
1. 2 типа продуктов
  1. на основе ML
  2. ML как дополнительная ценность
2. работа с данными
  1. процессы очистки, нормализации и обогащения
    1. откуда взять данные если их нет
    2. какие данные мы используем по умолчанию
  2. базовые операции с данными
  3. основы статистики
3. основы ML
  1. виды и для каких задач применяются
  2. процесс создания и оптимизации моделей
  3. как оценить результаты проекта
4. понимаем и разговариваем с командой на одном языке
Сложность увеличивает стоимость
1. продукты с МЛ и АИ значительно дороже, чем без них
  1. Правильные данные- это основа успеха!
    1. сбор данных
    2. разметка данных
      1. проще и дешевле найти и разметить достаточно данных, на которых будет обучаться модель, чтобы не пытаться оптимизировать сложный метод обучения без учителя
    3. очистка данных
      1. Mодель сможет стать лишь настолько хороша, насколько хороши ваши данные
      2. очищенный датасет позволит модели выучить значимые признаки и не переобучиться на нерелевантном шуме
    4. выбор хорошего представления данных
    5. классификация
      1. начинаем с логистической регресии
    6. инспектирование
      1. матрица ошибок
      2. ошибки 1 и 2 рода
    7. переход к более сложным моделям
    8. Готовим данные правильно!
    9. 1) начинаем с быстрой и простой модели; 2) объясняем ее предсказания; 3) анализируем типы ошибок; 4) планируем следующий шаг: работа с данными, переход к более сложной модели
  2. вычислительные мощности
    1. аренда серверов
  3. команда поддержки
2. постоянная валидация идей
  1. успешны одна из 100 идей, но дает драматический прирост
3. Приоритезация
  1. Score = Impact * Confidence/ Effort
    1. Impact - если нет у фичи потенциала, то фича не окупится
    2. Confidence играет бо(!)льшую роль, чем Impact
    3. Effort гораздо более волатильно, чем при разработке фич
4. сравниваем решение с Base Linе решением
  1. базовое решение
    1. насколько МЛ решение лучше
  2. минимальное кол-во фич с простыми методами
  3. идем от простого к сложному
    1. оцениваем ROC- AUC
5. А что еще
  1. Оoooчень долгий цикл разработки
  2. Трудно определить DOD
  3. Решение успешно, но не работает?
    1. Развиваем дальше или нет?
  4. ML- это покер на всех этапах
    1. очень сложно предсказать время
ML и Данные. А что с ними может быть не так?
1. Данные. Начем с того, что у нас есть
  1. нет идеального набора данных
  2. организуйте работы с данными, которые у вас есть
    1. отвественность за данные
  3. абстрагируйтесть, чтобы не решать задачу именно этих данных
2. Данные заражены предрассудками
  1. ML amplifies biases
    1. ML усиливает предрассудки!
      1. очень сложно понять действительность
  2. Работаем!
    1. с самым объективным показателем из доступных
    2. взвешиваем данные на ту экспозацию, которую давал элементам тренировочный алгоритм
    3. в каком масштабе можем применять рандомизацию
  3. данные должны быть сбалансированы
3. Самосбывающиеся пророчества
  1. замкнутый круг
    1. тавтология
4. Exploit vs Explore
  1. Known Reward or Mystery Price
5. Ошибка выжившего
  1. кто не представлен в данных
  2. как уменьшить нерепрезентативность выборки
    1. отрезать лишнюю активность, ограничив максимальный объем данных от одного пользователя
    2. ре-семплинг тренировочного датасета, сделав его репрезентативным относительно целевой аудитории
    3. моделирование
    4. рандомизация
6. ML эволюционирует!
  1. постоянный мониторинг
  2. переубочение + валидация
  3. мониторинг распределения важных фич на тренировочном датасете и в продакшене
    1. перетренировка, если данные меняются
    2. данные, которые модели не известны
  4. мониторинг распределения предсказаний на проде
  5. алгоритм не знает особенности системы и ничего о справедливости
7. Почему ML - проект может не работать?
  1. Доступность данных на продакшене
    1. Не работают модели на продакшене из-за разницы данных
    2. Проблема cold start
      1. Что делать, если данных нет на продакшене?
  2. Формат и фактические распределения данных на продакшене
    1. Время отклика модели
    2. Ритм обновления модели
  3. Естественное смещение под действием обратной связи
    1. Экстримальные кейсы становятся непредсказуемыми и взрывоопасны
  4. Ансамбль моделей
8. пользователь всегда прав
Поиск причинно-следственных связей
1. ML определяет корреляции
  1. меняет действительность
  2. не знает в какую сторону работает связь
2. корреляция не так важна как причинно-следственная связь
Команда и Культура
1. Культура
  1. Data-Driven vs Data-Informed
    1. Data-Driven
      1. решения принимают алгоритмы
    2. Data-Informed
      1. принимаем решения, учитывая данные и результаты работы алгоритмов
  2. Множественные, изменяющиеся цели
    1. много чего неясно
2. Специалисты, и они хороши в одном и том же: Data Science
3. DS и РО лучшие друзья
  1. часть продуктовой команды
4. баланс
  1. сложный задач
  2. задач, нужных бизнесу
  3. ОКР- наш выбор
5. Инфраструктура. Умеем готовить
  1. команда поддержки
    1. BackEnd
    2. Data Engineer
    3. Data Analyst
    4. SRE
Особенности задач
1. определить целевую переменную с заказчиком
  1. определить возможные проблемы, связанные с ее изменением
  2. уточнить ожидаемый результат и риски
2. сбор данных, их обработка
3. анализ данных = моделирование
4. объяснить полученные результаты понятныя языком
  1. рассказываем просто о Precision и Recal, ROC-кривая, и что такое PR-кривая и confusion matrix
5. определить cut- off и эффективность внедрения модели
  1. определяем порог- вероятность (predict_proba), выше которой мы говорим, что наша целевая переменная равна 1, а ниже – 0.
  2. ошибки первого и второго рода
высокая окупаемость инвестиций
Источники
1. https://habr.com/ru/post/417497/
2. https://habr.com/ru/company/idfinance/blog/359154/
3. https://habr.com/ru/company/oleg-bunin/blog/352614/
Это будет интересно
1. Some notes about decision tree
  1. https://www.xmind.net/m/9qA5gU/
2. Статистика: Задача- Метод
  1. https://www.xmind.net/m/JgHBfR/
3. Some notes about Exploratory Data Analysis (Python and Pandas)
  1. https://www.xmind.net/m/aTyzbU/
4. Some notes about A/B Testing (V 2.0)
  1. https://www.xmind.net/m/nx3NU8/