Описание
Разработчик BigData [2022]
МФТИ (ФПМИ МФТИ Физтех-школа прикладной математики и информатики)
Олег Ивченко
Программа профессиональной переподготовки.
Дополнительное профессиональное образование ФПМИ МФТИ — это возможность выбора необходимого для Вас направления обучения в ведущем вузе страны, входящим в рейтинг лучших университетов мира без вступительных экзаменов.
Вас ждут сложные задачи, интенсивная самостоятельная работа. Возможность общаться со студентами и преподавателями занимающими топовые позиции в крупных IT-компаниях. Выбрав профессию, Вы присоединяетесь к группе и проходите программу профессиональной переподготовки вместе с основной магистратурой.
Программа профессиональной переподготовки Разработчик Big Data соответствует запросам рынка. Мы обновляем материалы и развиваемся вместе с индустрией.
Кому подойдёт профессия разработчик BigData:
1. Разработчик
2. Аналитик
3. Data engineer
4. Data scientist
Блок 1 – Технологии программирования и операционные системы
Модуль 1 – Семейство ОС Unix. Современные инструменты для работы в консоли
- Семейство ОС Unix, основные дистрибутивы и их отличия.
- Основные командные интерпретаторы, их отличия.
- Утилита sed, язык awk.
- Использование Python как заменителя shell.
- Jupyter и TmpNb как его модификация.
- Терминальные мультиплексоры, автоматизация работы с ними.
Модуль 2 – Системы контроля версий
- Системы контроля версий в современных проектах.
- CVS – первая система контроля версий.
- SVN.
- Современные VCS – Git, Mercurial и работа с ними.
- Работа над проектами в команде.
- Автоматизация работы с Git.
Модуль 3 – Виртуализация
- Виртуализация. Её виды (контейнерная, на уровне ОС).
- Современные платформы виртуализации и работа с ними.
- Автоматизация работы с виртуальными окружениями.
Модуль 4 – Непрерывная интеграция
- Непрерывная интеграция (continuous integration) и её этапы.
- Основные инструменты CI и их связь с VCS.
Модуль 5 – Оркестрация контейнеров. Kubernetes
- Компьютерные сети, модель OSI, её уровни.
- Сетевые протоколы обмена информацией.
Блок 2 – Хранение и обработка больших объёмов данных
Модуль 1 – Распределённые файловые системы (GFS, HDFS)
- Распределённые файловые системы (GFS, HDFS). Её составляющие. Их достоинства, недостатки и сфера применения.
- Чтение и запись в HDFS. HDFS APIs: Web, shell, Java.
Модуль 2 – Парадигма MapReduce
- Парадигма MapReduce. Основная идея, формальное описание. Обзор реализаций.
- Виды и классификация многопроцессорных вычислительных систем. Hadoop. Схема его работы, роли серверов в Hadoop-кластере.
- API для работы с Hadoop (Native Java API vs. Streaming), примеры.
- MapReduce, продолжение.
- Типы Join’ов и их реализации в парадигме MR.
- Паттерны проектирования MR (pairs, stripes, составные ключи).
Модуль 3 – Управление ресурсами Hadoop-кластера. YARN
- Hadoop MRv1 vs. YARN.
- Нововведения в последних версиях Hadoop.
- Планировщик задач в YARN. Apache Slide.
Модуль 4 – SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive
- SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive.
- Повторение SQL.
- HiveQL vs. SQL.
- Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи.
- Аналитические функции в Hive.
- Расширения Hive: Streaming, User defined functions.
- Оптимизация запросов в Hive.
Модуль 5 – Технологии обработки данных в распределенной оперативной памяти. Apache Spark
- Spark RDD vs Spark Dataframes
- Spark SQL
- Spark GraphFrames
Модуль 6 – Обработка данных в реальном времени. Kafka, Spark Streaming
- Обработка данных в реальном времени.
- Spark Streaming.
- Распределённая очередь Apache Kafka. Kafka streams.
Модуль 7 – BigData NoSQL, Key-value базы данных
- HBase.
- NoSQL подходы к реализации распределенных баз данных, key-value хранилища.
- Основные компоненты BigTable-подобных систем и их назначение, отличие от реляционных БД.
- Чтение, запись и хранение данных в HBase.
- Minor- и major-компактификация.
- Надёжность и отказоустойчивость в HBase.
- Cassandra. Основные особенности. Чтение и запись данных. Отказоустойчивость.
- Примеры применения HBase и Cassandra.
- Отличие архитектуры HBase от Сassandra.
Блок 3 – Машинное обучение на больших объёмах данных
Модуль 1 – Методы оптимизации и линейные модели
- Машинное обучение с учителем на больших данных. Закон Ципфа. Тематическое моделирование.
- Метод стохастического градиента. Постановка задачи. Оптимизации обучения на больших данных: градиентный спуск, стохастический градиент.
- Признаки. Пространства признаков, веса признаков, нормализация признаков. Генерация и хеширование признаков.
- Онлайн обучение линейных моделей. Метод стохастического градиента: выбор функции потерь. Оценка качества метода стохастического градиента. Алгоритм Бутстрап.
- Хеширование, чувствительное к расстоянию (LSH). Меры сходства: расстояние Жаккара, Хемминга, косинусное расстояние, Евклидово расстояние.
- Оптимизация и тестирование гиперпараметров. Симплекс-метод.
Модуль 2 – Алгоритмы работы с графами большого размера
- Графы, их виды. Стохастический граф.
- Представление графа: матрицы смежности, инцидентности, достижимости. Списки смежности. Алгоритмы перевода из одного представления в другое.
- Социальный граф. Задача поиска общих друзей в социальном графе. Язык DSL.
- Граф пользовательских предпочтений.
- Использование подхода BigData в анализе графов
Модуль 3 – Информационный поиск
- Постановка ранжирования. Основные подходы к решению задачи ранжирования
- Метрики измерения точности ранжирования. Кликовые модели.
- Тематическое моделирование и его связь с ранжированием.
- Проблемы тематического моделирования при больших данных. AD-LDA, его недостатки, Y!LDA, Mr. LDA. ARTM. Архитектура библиотеки BigARTM. Online LDA и его применение в Vowpal Wabbit.
Модуль 4 – Рекомендательные системы
Отзывы
Отзывов пока нет.