Описание
Чему вы научитесь
- EDA: исследовательский анализ данных
- Точность, полнота, F1 и каппа метрики
- Простая кластеризация данных
- Логистическая регрессия: простая и многоуровневая
- Метод ближайших соседей: kNN
- Наивный Байес
- Метод опорных векторов: SVM
- Решающие деревья м случайный лес
- XGBoost и градиентный бустинг
- CatBoost и LightGBM
- Ансамбль голосования и стекинга
Требования
- Продвинутый Python
- Основы математической статистики
- Основы машинного обучения
Описание
Мы разберем прикладные подходы к кластеризации и классификации данных с помощью машинного обучения для страхового скоринга Prudential в соревновании на Kaggle вплоть до формирования конечного результата.
В этом курсе:
- Проведение исследовательского анализа данных для поиска зависимостей: EDA.
- Метрики классификации: точность, полнота, F1, квадратичная каппа и матрица неточностей.
- Очистка данных и оптимизация потребления памяти.
- Кластеризация данных и метод ближайших соседей.
- Простая и иерархическая логистическая регрессия.
- Метод ближайших соседей и поиск оптимальной модели.
- Метод опорных векторов: SVM.
- Дерево принятия решения и случайный лес (бэггинг).
- XGBosot и градиентный бустинг.
- LightGBM и CatBoost
- Ансамбль стекинга для голосования и выбора лучшего результата.
- Выгрузка результата для соревнования на Kaggle.
Для кого этот курс:
- Аналитики Python, изучающие машинное обучение
- Программисты больших данных
- Исследователи больших данных
Отзывы
Отзывов пока нет.