Описание
Чему вы научитесь
- Процесс ETL: загрузка, очистка, объединение данных
- Построение и оценка качества модели линейной регрессии
- EDA: исследовательский анализ данных
- Обогащение данных для извлечение смысла
- Оптимизация потребления памяти набором данных
- Иерархия моделей линейной регрессии
- Ансамбль моделей линейной регрессии
- Экспорт и импорт данных в CSV и HDF5
- Участие в соревнование Kaggle
Требования
- Продвинутый Python
- Основы математической статистики
Описание
Мы рассмотрим все практические аспекты применения линейной регрессии для предсказания числовых показателей энергопотребления ASHRAE в соревновании на Kaggle вплоть до формирования конечного результата.
В этом курсе:
- Особенности процесса анализа данных (ETL): загрузка, очистка, объединение наборов данных с pandas.
- Проведение исследовательского анализа данных для поиска зависимостей: EDA.
- Использование sklearn для линейной регрессии.
- Интерполяция и экстраполяция данных.
- Расчет метрики качества RMSLE для моделей линейной регрессии.
- Оптимизация линейной регрессии: выбор наилучших параметров и гиперпараметров.
- Оптимизация потребления памяти при работе с большими данными.
- Запасные модели линейной регрессии.
- Ансамбли линейной регрессии для уточнения предсказания.
- Экспорт и импорт данных, включая промежуточные.
- Выгрузка результата для соревнования на Kaggle.
Для кого этот курс:
- Аналитики Python, изучающие машинное обучение
- Программисты больших данных
- Исследователи больших данных
Отзывы
Отзывов пока нет.