Распродажа!

Разработчик BigData [2022] [МФТИ] [Олег Ивченко]

р.500

-75%

Вас ждут сложные задачи, интенсивная самостоятельная работа. Возможность общаться со студентами и преподавателями занимающими топовые позиции в крупных IT-компаниях.

Категория:
Если вы сомневаетесь в нашей честности, то напишите нам по контактам на сайте. по ссылке: https://unimys.com/obratnaya-svyaz/
Любой товар стоит от 150 до 500 рублей (цена не зависит от стоимость продажи у автора)
  • После оплаты вы сразу же получаете курсы на e-mail;
  • Низкая цена;
  • Легко оплатить (мы используем все популярные платежные системы).

Если вы оплатили продукт, и он не пришел вам на почту в течение 30 минут, то свяжитесь с нами по ссылке: https://unimys.com/zakaz-ne-prishel/

Описание

Разработчик BigData [2022]
МФТИ (ФПМИ МФТИ Физтех-школа прикладной математики и информатики)
Олег Ивченко

Программа профессиональной переподготовки.

Дополнительное профессиональное образование ФПМИ МФТИ — это возможность выбора необходимого для Вас направления обучения в ведущем вузе страны, входящим в рейтинг лучших университетов мира без вступительных экзаменов.

Вас ждут сложные задачи, интенсивная самостоятельная работа. Возможность общаться со студентами и преподавателями занимающими топовые позиции в крупных IT-компаниях. Выбрав профессию, Вы присоединяетесь к группе и проходите программу профессиональной переподготовки вместе с основной магистратурой.

Программа профессиональной переподготовки Разработчик Big Data соответствует запросам рынка. Мы обновляем материалы и развиваемся вместе с индустрией.

Кому подойдёт профессия разработчик BigData:
1. Разработчик

Сможете совершенствовать навыки программирования, расширить и получить новые знания в desktop, web разработки, а также в работе с большими данными.​

2. Аналитик

Сможете проводить аналитику с помощью SQL и NoSQL инструментов, визуализировать данные и отчеты на основе больших массивов информации.​

3. Data engineer

Курсы помогут увеличить свой рабочий арсенал прикладных знаний в работе с данными.​

4. Data scientist

Получите знания по современным инструментам и подходам, необходимым для сбора, хранения и обработки данных. Изучите модели машинного обучения в применении к большим данным.​

Блок 1 – Технологии программирования и операционные системы

Модуль 1 – Семейство ОС Unix. Современные инструменты для работы в консоли

  • Семейство ОС Unix, основные дистрибутивы и их отличия.
  • Основные командные интерпретаторы, их отличия.
  • Утилита sed, язык awk.
  • Использование Python как заменителя shell.
  • Jupyter и TmpNb как его модификация.
  • Терминальные мультиплексоры, автоматизация работы с ними.

Модуль 2 – Системы контроля версий

  • Системы контроля версий в современных проектах.
  • CVS – первая система контроля версий.
  • SVN.
  • Современные VCS – Git, Mercurial и работа с ними.
  • Работа над проектами в команде.
  • Автоматизация работы с Git.

Модуль 3 – Виртуализация

  • Виртуализация. Её виды (контейнерная, на уровне ОС).
  • Современные платформы виртуализации и работа с ними.
  • Автоматизация работы с виртуальными окружениями.

Модуль 4 – Непрерывная интеграция

  • Непрерывная интеграция (continuous integration) и её этапы.
  • Основные инструменты CI и их связь с VCS.

Модуль 5 – Оркестрация контейнеров. Kubernetes

  • Компьютерные сети, модель OSI, её уровни.
  • Сетевые протоколы обмена информацией.

Блок 2 – Хранение и обработка больших объёмов данных

Модуль 1 – Распределённые файловые системы (GFS, HDFS)

  • Распределённые файловые системы (GFS, HDFS). Её составляющие. Их достоинства, недостатки и сфера применения.
  • Чтение и запись в HDFS. HDFS APIs: Web, shell, Java.

Модуль 2 – Парадигма MapReduce

  • Парадигма MapReduce. Основная идея, формальное описание. Обзор реализаций.
  • Виды и классификация многопроцессорных вычислительных систем. Hadoop. Схема его работы, роли серверов в Hadoop-кластере.
  • API для работы с Hadoop (Native Java API vs. Streaming), примеры.
  • MapReduce, продолжение.
  • Типы Join’ов и их реализации в парадигме MR.
  • Паттерны проектирования MR (pairs, stripes, составные ключи).

Модуль 3 – Управление ресурсами Hadoop-кластера. YARN

  • Hadoop MRv1 vs. YARN.
  • Нововведения в последних версиях Hadoop.
  • Планировщик задач в YARN. Apache Slide.

Модуль 4 – SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive

  • SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive.
  • Повторение SQL.
  • HiveQL vs. SQL.
  • Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи.
  • Аналитические функции в Hive.
  • Расширения Hive: Streaming, User defined functions.
  • Оптимизация запросов в Hive.

Модуль 5 – Технологии обработки данных в распределенной оперативной памяти. Apache Spark

  • Spark RDD vs Spark Dataframes
  • Spark SQL
  • Spark GraphFrames

Модуль 6 – Обработка данных в реальном времени. Kafka, Spark Streaming

  • Обработка данных в реальном времени.
  • Spark Streaming.
  • Распределённая очередь Apache Kafka. Kafka streams.

Модуль 7 – BigData NoSQL, Key-value базы данных

  • HBase.
  • NoSQL подходы к реализации распределенных баз данных, key-value хранилища.
  • Основные компоненты BigTable-подобных систем и их назначение, отличие от реляционных БД.
  • Чтение, запись и хранение данных в HBase.
  • Minor- и major-компактификация.
  • Надёжность и отказоустойчивость в HBase.
  • Cassandra. Основные особенности. Чтение и запись данных. Отказоустойчивость.
  • Примеры применения HBase и Cassandra.
  • Отличие архитектуры HBase от Сassandra.

Блок 3 – Машинное обучение на больших объёмах данных

Модуль 1 – Методы оптимизации и линейные модели

  • Машинное обучение с учителем на больших данных. Закон Ципфа. Тематическое моделирование.
  • Метод стохастического градиента. Постановка задачи. Оптимизации обучения на больших данных: градиентный спуск, стохастический градиент.
  • Признаки. Пространства признаков, веса признаков, нормализация признаков. Генерация и хеширование признаков.
  • Онлайн обучение линейных моделей. Метод стохастического градиента: выбор функции потерь. Оценка качества метода стохастического градиента. Алгоритм Бутстрап.
  • Хеширование, чувствительное к расстоянию (LSH). Меры сходства: расстояние Жаккара, Хемминга, косинусное расстояние, Евклидово расстояние.
  • Оптимизация и тестирование гиперпараметров. Симплекс-метод.

Модуль 2 – Алгоритмы работы с графами большого размера

  • Графы, их виды. Стохастический граф.
  • Представление графа: матрицы смежности, инцидентности, достижимости. Списки смежности. Алгоритмы перевода из одного представления в другое.
  • Социальный граф. Задача поиска общих друзей в социальном графе. Язык DSL.
  • Граф пользовательских предпочтений.
  • Использование подхода BigData в анализе графов

Модуль 3 – Информационный поиск

  • Постановка ранжирования. Основные подходы к решению задачи ранжирования
  • Метрики измерения точности ранжирования. Кликовые модели.
  • Тематическое моделирование и его связь с ранжированием.
  • Проблемы тематического моделирования при больших данных. AD-LDA, его недостатки, Y!LDA, Mr. LDA. ARTM. Архитектура библиотеки BigARTM. Online LDA и его применение в Vowpal Wabbit.

Модуль 4 – Рекомендательные системы

Отзывы

Отзывов пока нет.

Будьте первым, кто оставил отзыв на “Разработчик BigData [2022] [МФТИ] [Олег Ивченко]”

Ваш адрес email не будет опубликован. Обязательные поля помечены *