Практический курс по машинному обучению и Data Science [2022]
bigdata team
Алексей Драль, Дмитрий Игнатов, Наталья Корепанова, Кирилл Власов, Павел Клеменков, Арсений Ашуха
Лучший способ погрузиться в Data Science для IT-специалистов. Получите практические навыки по машинному обучению и реализуйте итоговый проект при поддержке наставников из отрасли.
Кому подойдет этот курс:
1. Разработчикам
Вы программируете, но хотите расширить профессиональные возможности и получить практические навыки в машинном обучении? Вы научитесь строить модели машинного обучения и нейронные сети, правильно использовать инструменты для работы с большими данными.
2. Аналитикам
Хотите освоить машинное обучение, чтобы решать более сложные и интересные аналитические задачи?
Вы научитесь строить модели машинного обучения и использовать инструменты работы с большими данными для решения ваших задач.
Часть 1 – Классическое машинное обучение
Вы научитесь строить модели машинного обучения, решать задачи регрессии и классификации, создавать ансамбли решающих деревьев, а аббревиатуры RF, GBDT, XGBoost и LightGBM станут родными и понятными.
1.1 Введение в машинное обучение и библиотеки ML для Python
- Совершать базовые операции с данными в numpy,
- Cтроить графики функций с matplotlib,
- Оптимизировать функции с scipy,
- Визуализировать данные с seaborn.
- А еще вы построите свою первую модель с помощью sklearn
1.2 Линейные модели, регуляризация, SVM, метрики качества
- Применение алгоритмов Scikit-learn к синтетическому набору данных и к данным соревнования Kaggle Inclass (классификация, регрессия),
- Логистическую регрессию и обучение моделей с помощью SGD,
- Метод опорных векторов (Support Vector Machine) и ядра,
- Настройку параметров и кросс-валидацию,
- Предобработку данных (строки, пропуски, категориальные признаки).
1.3 Деревья
- Обучать деревья на наборах данных (MNIST, UCI, кредитный скоринг),
- Визуализировать деревья,
- Работать с признаками и пропущенными значениями в деревьях,
- Оценивать время работы и “стричь” деревья (прунинг).
1.4 Ансамбли решающих деревьев
- Общие методы построения композиций: усреднение, бустинг, блендинг, стекинг,
- Бустинг и GBM,
- Выбор параметров в ансамблях решающих деревьев, сравним Random Forest и GBDT с демонстрацией,
- Связь между ответами моделей и качеством модели в бэггинге,
- Bias-variance trade-off на примере бэггинга и бустинга. Обсудим преимущества и недостатки RF и GBDT, разберем XGBoost и LightGBM.
Часть 2 – Нейронные сети и Deep learning
Вы познакомитесь с нейронными сетям (Deep learning) и Unsupervised learning, а также поработаете с большими данными. На протяжении этой части курса вы будете работать над итоговым проектом при поддержке наставников. Вы сможете реализовать собственный проект или проект, который предложат кураторы курса.
2.1 Нейронные сети и введение в глубокое обучение (Deep learning)
- Нейронные сети и сверточные нейронные сети, общие веса, локальность иерархичность,
- Слои в сверточных сетях, функции потерь для классификации, регуляризация нейросетей,
- Эффективные методы вычисления градиентов, проверка реализации разностным дифференцированием.
2.2 Deep Learning: CNN, RNN, Attention
- Рекуррентные нейронные сети в задаче анализа сигналов и естественного языка,
- Генеративные модели на основе RNN,
- Механизм внимания (Attention mechanism) в задаче машинного перевода и других задачах,
- Сверточные нейронные сети в задачах обработки текста, сравнение с рекуррентными нейронными сетями,
- DNN на практике: инициализация, предобработка данных, модельный зоопарк, дообучение, вычисления на видеокартах, визуализация.
2.3 Обучение без учителя (Unsupervised learning)
- Разберемся с определением координат дома и работы по GPS-треку (определение регулярных координат
- с помощью DBSCAN).
- Освоим метод главных компонент на практике,
- Научимся применять PCA и tSNE для визуализации данных, сжатия данных и предобработки датасета.
2.4 Погружение в большие данные (Big Data)
- Изучите основы работы с большими данными: Hadoop, HDFS, MapReduce, Spark и многое другое!
2.5 Защита проекта