ТОП-13 лучших курсов Data Engineer: обучение онлайн, бесплатные и платные в 2023 году

Data Engineer — это специалист, который занимается разработкой и поддержкой систем обработки и хранения данных. Он работает с большим объемом информации, умеет оптимизировать базы данных и настраивать инфраструктуру для ее хранения и обработки. Также Data Engineer должен быть знаком с основными алгоритмами обработки данных и методами их анализа.

На курсах Data Engineering можно научиться проектировать и оптимизировать базы данных, работать с SQL и NoSQL системами управления данными, освоить методы обработки больших данных с использованием Hadoop, Spark и других фреймворков. Также в рамках курсов можно научиться работать с облачными технологиями и использовать их для хранения и обработки данных.

Кроме того, на курсах Data Engineering можно получить опыт в разработке и использовании ETL (Extract, Transform, Load) процессов, которые используются для передачи данных между различными системами. Эти знания помогут Data Engineer улучшить производительность системы обработки данных и уменьшить время на ее разработку и сопровождение.

Лучшие курсы:

1 место. Курс «Профессия Data Engineer от Skillbox»

Цена: Рассрочка — 6 785 ₽ / мес

Ссылка на сайт: https://skillbox.ru/course/data-engineer/

Освоите дата-инженерию с нуля. Научитесь собирать и обрабатывать данные, работать с Big Data и программировать на Python и SQL.
Через год сможете устроиться Junior-аналитиком, а параллельно с работой продолжите проходить курс и дорастёте до уровня Middle.

Через 6 месяцев возможность стажировки
Авторы курса дата-сайентисты из Сбера, VISA, ЮMoney
3 больших проекта для каждого уровня
Курс обновлён в ноябре 2021 года
Гарантируем трудоустройство — или вернём деньги.

Перейти на официальный сайт →

Дата-инженер собирает информацию, выстраивает инфраструктуру для её хранения и готовит данные для использования другими специалистами.
Задача специалиста — проанализировать сырые данные, отобрать полезные, создать экспериментальные модели и отдать их дата-сайентисту для дальнейшего изучения.

В этом курсе больше практики и разборов кейсов. Вы освоите актуальные версии инструментов для работы: Python, Spark, PowerQuery, Airflow, Git. Научитесь самостоятельно решать нестандартные задачи. Вас ждут:

80+ практических заданий для отработки навыков и развития критического и системного мышления
3 больших итоговых проекта на реальных данных
курс по Git и подготовка к командной работе в компании.

Кому подойдёт этот курс:

Новичкам
С нуля освоите Python и SQL. Научитесь собирать, анализировать и обрабатывать данные. Решите задачи на основе реальных кейсов и добавите их в портфолио. Сможете начать карьеру в Data Engineering во время обучения.
Программистам
Подтянете знание SQL для работы с базами данных. Пройдёте весь путь дата-инженера от сбора сырых данных до деплоя модели. Опыт в программировании поможет быстро разобраться в новой профессии и сменить сферу.
Начинающим аналитикам
Изучите все этапы работы с данными. Научитесь собирать информацию из разных источников, выстраивать архитектуру для её хранения и визуализировать отчёты. Сможете самостоятельно подготовить данные для последующего анализа.

Чему вы научитесь:

Использовать инструменты анализа
Освоите языки Python и SQL. Сможете работать с библиотеками и фреймворками pandas, airflow, spark.
Обрабатывать данные
Узнаете, как подключаться к источникам информации и загружать их в систему. Сможете очищать, сохранять и интегрировать данные.
Тестировать код
Поймёте, как проводить регрессионное тестирование. Сможете тестировать пакеты, пайплайны и обрабатывать ошибки.
Взаимодействовать с заказчиком
Разберётесь, как готовить отчётность и согласовывать инфраструктуру данных. Сможете предоставить корректные данные заказчику.
Разворачивать Data Science проект
Поймёте, как реализовывать загрузку данных и собирать информацию из разных источников. Сможете выстраивать готовый пайплайн проекта.
Работать в команде
Познакомитесь с git и облачными сервисами для совместной работы. Сможете эффективно взаимодействовать со всеми участниками процесса.

Содержание курсов:

Вас ждут тематические модули и практика на основе реальных кейсов.
80+ практических заданий, 3 итоговых проекта

Первый уровень: базовая подготовка
Среднее время прохождения — 6 месяцев.

Введение в Data Science
Познакомитесь с основными направлениями Data Science. Узнаете, какие задачи решают дата-аналитики, дата-инженеры и специалисты по машинному обучению.
Пройдёте все этапы работы с данными. Научитесь выявлять проблемы, собирать бизнес-требования. Будете выгружать данные из различных источников, проводить разведочный анализ и готовить датасет к дальнейшему использованию. Обучите и внедрите готовую ML-модель, попробуете себя в роли продуктового и маркетингового аналитика. Узнаете, как формулировать и проверять гипотезы. Освоите базовые инструменты для работы: Python, SQL, Excel, Power Bi, Airflow.
Основы математики для Data Science
Получите базовые знания по математике для работы с машинным обучением. Поймёте, что такое аппроксимация, интерполяция, функции, регрессии, матрицы и векторы. Научитесь работать с математическими сущностями в Python-библиотеке SymPy.
Основы статистики и теории вероятностей
Поймёте принципы работы со случайными величинами и событиями. Познакомитесь с некоторыми видами распределений и статистическими тестами, которые пригодятся при составлении моделей и проверке гипотез.
Возможность стажировки
Базовых знаний и навыков хватит, чтобы устроиться на стажировку — сможете продолжить учиться и на курсе, и в компании одновременно.

Второй уровень: введение в дата-инженерию и трудоустройство
Среднее время прохождения — 6 месяцев.

Data Engineer Junior

Узнаете, чем занимается Data Engineer, какую роль играет в Data Science проекте и какие у него пути карьерного развития. Поймёте, как построен курс и какие темы вы будете изучать.
Научитесь манипулировать данными в существующих таблицах, выполнять операции вставки, очистки и обновления данных. Сможете сохранять данные из БД в различные форматы.
Познакомитесь с оконными функциями и основами подготовки витрин данных, использующих SQL. Научитесь обеспечивать корректную вставку информации в режиме транзакции. Сможете читать и понимать лог транзакций.
Узнаете, что такое индексы и архитектура индексов, где они применяются. Изучите методы ускорения запросов.
Рассмотрите типы данных, возможности их преобразования и принцип совместной работы Python и SQL — получение данных из БД, работа с данными и выполнение запросов. Изучите основные понятия схем данных JSON и XML. Сможете настраивать отладку приложений, писать тесты, обезличивать и шифровать данные.
Узнаете, что такое библиотеки для работы с графиками, обучение с учителем, визуализация метрик и источники датасетов. Научитесь использовать Python и библиотеки для работы с данными. Сможете продолжить изучение Pandas.
Рассмотрите ключевые понятия и практики по работе с Airflow. Изучите архитектуру и основы взаимодействия от UI до CLI. Построите свой первый data pipeline.
Освоите Spark: узнаете, какими ресурсами вычислений он оперирует, как хранит данные и работает с памятью и диском. Развернёте свой первый локальный стенд.
Изучите основы RDD: базовые концепции, работу с источниками, actions. Научитесь работать с Dataframe API. Изучите вопросы производительности и оптимизации при использовании Dataframe, источники и типы данных, работу с валидными/невалидными данными, обработку ошибок, UDF, взаимодействие с Python и SQL.
Разберёте основные виды моделей машинного обучения, ключевые термины и определения. Изучите алгоритмы регрессии и алгоритмы кластеризации.
Изучите основные этапы подготовки модели к деплою, подходы к построению API и способы обработки ошибок и отладки приложений. Сможете устранять проблемы при деплое и освоите основные инструменты swagger.
Познакомитесь с ключевыми процессами bash: написанием скриптов, работой с переменными и текстовыми редакторами sed и awk.

Трудоустройство с помощью Центра карьеры

Карьерный консультант поможет подготовиться к собеседованию в компании-партнёре. Разберёте частые вопросы и научитесь меньше переживать на интервью.
Напишете сопроводительное письмо и грамотно оформите резюме.
Будете готовы пройти собеседование — карьерный консультант организует встречу с работодателем.
На интервью презентуете проекты, над которыми вы работали на курсе, а знания и навыки пригодятся для выполнения тестовых задач.

Продвинутый уровень: погружение в профессию
Среднее время прохождения — до года.

Data Engineer Advanced
Научитесь пользоваться типовыми средствами мониторинга, настраивать алерты. Будете выбирать архитектуру для хранения данных и работать со сложными типами архитектуры хранилищ. Выстраивать инфраструктуру и пайплайны для обучения ML-моделей.

Дипломные проекты
Выполните большую работу в конце каждого уровня, чтобы закрепить знания. Сможете добавить проекты в портфолио.

Базовый уровень
Закрепите новые знания Data Science на индивидуальном проекте — пройдёте путь от загрузки данных до внедрения модели. Решите задачи дата-инженера, ML-инженера и дата-аналитика, чтобы определиться со специализацией.
Уровень Junior
Проведёте когортный анализ и выгрузите справочники по API. Построите дашборды по полученным данным.
Уровень Middle
Хакатон.

Бонусные курсы

Карьера разработчика: трудоустройство и развитие
Узнаете, как выбрать подходящую вакансию, подготовиться к собеседованию и вести переговоры с работодателем. Сможете быстрее получить должность, которая соответствует вашим ожиданиям и умениям.
Система контроля версий Git
Научитесь версионировать изменения в коде, создавать и управлять репозиториями, ветками, разрешать конфликты версий. Узнаете полезные правила работы с Git.
Английский для IT-специалистов
Получите языковые навыки, которые помогут пройти собеседование в иностранную компанию и комфортно общаться в смешанных командах.

Итоговый проект – дашборды на основе данных источника
Вы объедините и обработаете данные из различных источников: истории транзакций от партнёров, текстовых логов, выгрузки справочников по API и других. На основе этих данных построите интерактивный отчёт.

Авторы программы:

Евгений Виноградов
Руководитель отдела разработки хранилищ данных и аналитических сервисов в ЮMoney. 5 лет разрабатывает системы поддержки принятия решений

Владимир Ершов
Автор курса Machine Learning, Data Solutions Manager, VISA. В Data Science больше 7 лет

Вячеслав Архипов
Автор курса «Статистика и теория вероятностей». Математик, Banuba development. В Data Science больше 7 лет

Юлдуз Фаттахова
Автор курса Machine Learning. Senior Data Scientist, Team Lead в SberData, Сбер. 5+ лет в профессии

Николай Герасименко
Data Scientist в Сбербанке, математик в ВЦ РАН. Блок «Основы математики для Data Science». Опыт преподавания высшей математики более 4 лет

Пётр Емельянов
Спикер курса, R&D Director, UBIC Tech. Более 15 лет опыта в разработке.

Отзывы об обучении в Skillbox доступны на сайте.

Подробнее о курсе Data Engineer →

2 место. Курс «Дата-инженер с нуля до middle от Нетология»

Цена: 120 000 ₽ или рассрочка на 24 месяца — 5 000 ₽ / мес

Ссылка на сайт: https://netology.ru/programs/data-engineer

Научитесь автоматизировать работу с данными, настраивать мониторинги, создавать конвейеры обработки и схемы хранения данных. Сможете претендовать на позицию инженера данных или ETL-разработчика уже через 12 месяцев обучения.

Формат обучения: Вебинары, видеолекции, практика
Уровень: С нуля
Документ: Диплом о профессиональной переподготовке.

Перейти на официальный сайт →

Обучение на курсе поможет вам
— Перейти в профессию с высоким окладом на низкоконкурентном рынке
Окажетесь одним из первых в профессии, пока все учатся на data scientists
— Освоить ключевые технологии и опередить запрос рынка
Станете востребованным специалистом сразу после обучения и не растеряете накопленные знания и навыки
— Прожить опыт 2-3 лет самостоятельного изучения инжиниринга данных
Получите знания в концентрированном формате и с обратной связью от экспертов.

Кому будет полезен курс:

Системным и сетевым администраторам
Сможете масштабировать инфраструктуру, выбирать из множества разных специфических инструментов, внедрять в продакшн решения коллег
Backend и Fullstack-разработчикам
Сможете вырасти в деньгах и получить интересные задачи. Станете незаменимым сотрудником, погрузитесь в ключевой продукт и его метрики
Новичкам, желающим войти в сферу Data Science
Сможете влиться в новую сферу и приобрести базу, с которой можно постоянно развиваться — в любых компаниях и продуктах.

Чему вы научитесь:

Объяснять архитектуру и структуру базы данных
Проектировать схемы хранилищ и выбирать DWH под задачу и бюджет бизнеса среди популярных решений: Snowflake, BigQuery, Azure SQL DW, Redshift
Создавать процессы обработки данных
Настраивать и конфигурировать ETL / ELT-процессы в нескольких дата-инструментах
Работать с основными инструментами обработки больших данных
Lambda architecture, kappa architecture, а также hdfs, yarn, hive и другими обязательными частями инфраструктуры
Обрабатывать события в режиме реального времени
Построите свой конвейер обработки даннных, сборщик событий, RTDM-систему с выводом в массовые enterprise BI-решения
Разовьёте навык data literacy
Сможете понимать, пояснять и обогащать данные отчётов, дашбордов и других источников информации
Строить работающий пайплайн в облачной среде
И включать в него модели машинного обучения, нейронные сети, сервисы оркестрирования контейнеров и проверку версионности.

Структура программы:

Курс состоит из трёх больших модулей

Часть 1. Хороший аналитик
Программа построена от простого к сложному. В первом модуле вы научитесь пользоваться запросами SQL и работать с классическим хранилищем данных. Узнаете, как спроектировать аналитическую базу данных для ваших нужд, создадите свой первый OLAP-куб и научитесь выбирать и подключать Business Intelligence решения.
Работа студентки Анастасии Орел, ETL-пайплайн: посмотреть на GitHub.

Часть 2. Data Engineer
Получите базовые навыки по работе с Python. Установите и запустите свой первый hadoop. Создадите витрины данных. Освоите продвинутые методы работы с данными. Выполните обработку данных при помощи Spark. Построите конвейер обработки данных. Научитесь работать с базами данных для хранения и обработки потоковых данных. Создадите облачную базу данных и запустите Pipeline в облаке.
Работа студента Владимира Герингера после прохождения модуля по Python: посмотреть на GitHub.

Часть 3. ML-engineer
В этом модуле вы познакомитесь с моделями машинного обучения, построите свой первый классификатор и регрессию и обучите нейронную сеть. Узнаете, что такое CI/CD, запустите свой первый сервис в кластере и изучите подходы к масштабируемости ML-модели.

Программа курса:

SQL и получение данных

Основы баз данных
Работа с базами данных
Основы SQL
Продвинутый SQL
Углубление в SQL
Работа с PostgreSQL
Работа с MongoDB

Data Warehouse
Научим работать с классическим хранилищем данных.

Введение в хранилища данных
Проектирование хранилища данных
Знакомство с Pentaho
Pentaho как инструмент ETL
ETL-pro
Общие рекомендации по разработки ETL
Смежные темы
DWH в облаке

Business Intelligence решения и многомерная модель данных

BI как сердце аналитики
Многомерные модели
Real-time отчётность
Современные подходы

Python

Основы Python
Введение в анализ данных на Python
Статистика в Python
Предобработка данных
Feature Selection

Data Lake & Hadoop
Познакомим с основным инструментом обработки больших данных.

Основы Hadoop
HDFS
MapReduce
MapReduce 2
Yarn
Pig & Hive
HBase & Cassandra
Кластер. Управление и администрирование

Продвинутые методы работы с данными

Apache Spark
Работа со Spark
Spark SQL
Продвинутый Spark
Airflow
Работа с Airflow
Продвинутый Airflow
Data Build Tool как инструмент ETL

Работа с потоковыми данными
Научим работать с потоковыми данными.

Устройство Clickhouse и загрузка данных в корпоративное хранилище
Устройство Kafka и работа с кластером
Конфигурация Kafka Streams
Kafka Streams Interactive Queries, Kafka Streams Processor API, Kafka Connect
Spark Streaming: характеристики и особенности использования
Создание простого приложения на Spark Structure Streaming + Kafka

Работа с данными в облаке

Google Cloud Platform — хранение данных
Spark в GCP
Managed ETL в GCP
Обработка real-time данных в GCP
Поиск инсайтов в данных при помощи ML
Другие облачные провайдеры

Введение в DS & ML

Введение в машинное обучение
Задача классификации
Задача кластеризации
Ансамблевые методы решения задачи классификации
Feature engineering
Нейронные сети

MLOps

Зачем нужен DevOps
Docker и микросервисная архитектура
K8S
Оркестраторы
CI/CD
Мониторинг
Инструменты DevOps для обучения ML-моделей
Deploy ML-моделей

Английский язык для начинающих инженеров
Вас ждут восемь видеолекций, которые помогут начать разговаривать на английском языке по темам IT-сферы.

Лексика, без которой не обойтись IT-специалисту
Как вести переписку на английском
Чтение документации и анализ требований
Программирование
Стрессовые ситуации
Работа и роли в команде
Как поддержать любую беседу на английском
Собрания, презентации

Дипломный проект
Разработка и документирование ETL-процессов заливки данных в хранилище.

Преподают практикующие эксперты

— Дарья Буланова
Senior Data Engineer, Dodo Brands
Преподаёт «Продвинутые методы работы с данными»
— Андрей Макеев
Бизнес-архитектор, «Комус»
Преподаёт «Выбор и подключение Business Intelligence-решений»
— Ольга Титова
Старший аналитик, GlowByte Consulting
Преподаёт «Выбор и подключение Business Intelligence-решений»
— Алёна Парамонова
Старший бизнес-аналитик, GlowByte Consulting
Преподаёт «Выбор и подключение Business Intelligence-решений»
— Дмитрий Турченков
IT Cluster Lead, Сбер
Преподаёт «Продвинутые методы работы с данными», «Работа с потоковыми данными».

И др.

Подробнее о курсе Data Engineer →

3 место. Курс «Data Engineering от SkillFactory»

Цена: 32 400 ₽

Ссылка на сайт: https://skillfactory.ru/data-engineer

Длительность – 10 недель
Формат – онлайн.

Перейти на официальный сайт →

Data Engineer — это специалист, который собирает данные из разных источников, очищает их и передает в удобном виде аналитикам для принятия бизнес-решений.
Аналитикам данных нужно знать, как работает хранилище данных, в каком виде там хранятся данные, как они обрабатываются и как их можно получить для анализа.

Курс ориентирован на практику и основные инструменты, подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.

Преподаватель – Михаил Королев
Ведущий Data Engineer в «АльфаСтрахование»

Системный программист, изобретатель, руководитель, наставник
Серьезно занимался параллельным программированием
Имеет большой опыт в ритейле, страховании и брокерском бизнесе
Работает с данными с 1996 года
Приверженец и практик в Agile и самоуправлении
Работал в крупных компаниях, в том числе зарубежных.

Программа курса:

Введение, практический linux
Кто такой Data Engineer и зачем ему Linux?
Современные хранилища данных
Разнообразие баз данных и их особенности
Экосистема Hadoop
Что такое Hadoop, что он умеет и как им пользоваться
Источники данных и работа с ними
Файлы как источники данных, JDBC — структурированные данные, SQL для выгрузки данных
Apache Spark и обработка данных
Зачем нужен Apache Spark и как с ним работать
Hadoop как хранилище данных
Особенности и нюансы hdfs
Apache Airflow для оркестрации конвейеров
Настройка data pipelines
Обзор облачных хранилищ
Особенности и нюансы работы с облачными хранилищами: Google, Amazon, Azure.

В рамках курса вас ждет сквозной проект — реальная задача дата-инженера. На каждом новом этапе вы будете решать часть большой задачи, а в финале автоматизируете весь процесс.
Курс основан на практике. Мы рассматриваем инструмент или технологию, после чего сразу отрабатываем ее на практике.
Программа построена по принципу от простого к сложному. Вы узнаете и освоите самое важное о Data Engineering, что нужно знать инженеру данных.
В процессе обучения вам будет помогать преподаватель и команда кураторов, которые помогут разобраться с предметом и решат все технические и организационные вопросы.

Персональный сертификат о прохождении курса, по запросу предоставляется на английском языке.

Подробнее о курсе Data Engineer →

Курс «Факультет Data Engineering от GeekBrains»

Цена: Рассрочка до 36 месяцев — от 5 092 ₽ / мес

Ссылка на сайт: https://gb.ru/geek_university/data-engineer

Вы научитесь собирать и обрабатывать данные, проектировать хранилища и работать с инфраструктурой. Повысьте квалификацию и уровень дохода вместе с GeekBrains.

12 месяцев, 2 занятия в неделю
Диплом о профессиональной переподготовке
Трудоустройство после обучения.

Перейти на официальный сайт →

Программа курса:

Наша программа одна из самых объёмных и содержательных. В то же время её легко понять, потому что знания даются постепенно: от базы к продвинутым инструментам.
141 часов обучающего контента, 279 часов практики, 2-3 вебинара в неделю

Подготовительный блок
Мы рекомендуем пройти подготовительные курсы, чтобы закрыть возможные пробелы в знаниях.

Базовый курс

Введение в Git
Установка и настройка Git
Основные команды терминала
Работа с репозиториями в Git
Управление файлами репозитория
История изменений
Работа с ветками репозитория
Публикация репозитория
Слияния веток
Управление версиями
Создание pull-request
Сложные операции
Работа с Fork-репозиториями.

Сбор и хранение данных
Вы погрузитесь в профессию дата-инженера: познакомитесь с понятием базы данных, научитесь использовать SQL, создавать запросы, программировать на Python. Также познакомитесь с открытыми данными, RESTful и SOAP-сервисами, форматами XML и JSON.

Основы реляционных баз данных. MySQL

Вебинар. Установка окружения. DDL-команды
Видеоурок. Управление базами данных. Язык запросов SQL
Вебинар. Введение в проектирование баз данных
Вебинар. CRUD-операции
Видеоурок. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
Вебинар. Операторы, фильтрация, сортировка и ограничение. Агрегация данных
Видеоурок. Сложные запросы
Вебинар. Сложные запросы
Видеоурок. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
Вебинар. Транзакции, переменные, представления. Администрирование. Хранимые процедуры и функции, триггеры
Видеоурок. Оптимизация запросов. NoSQL
Вебинар. Оптимизация запросов.

Основы Python

Знакомство с Python
Некоторые встроенные типы и операции с ними
Функции. Словари
Функции. Словари
Генераторы и comprehensions. Множества
Работа с файлами
Работа с файловой системой. Исключения в Python
Регулярные выражения и декораторы в Python
Объектно-ориентированное программирование (ООП). Введение
Объектно-ориентированное программирование (ООП). Продвинутый уровень
Объектно-ориентированное программирование (ООП). Полезные дополнения.

Методы сбора и обработки данных из интернета

Основы клиент-серверного взаимодействия. Парсинг API
Парсинг HTML. Beautiful Soup, MongoDB
Системы управления базами данных MongoDB и SQLite в Python
Парсинг HTML. XPath
Фреймворк Scrapy
Парсинг фото и файлов
Selenium в Python
Работа с данными.

Построение хранилищ данных для систем аналитики
Познакомитесь с реляционными и нереляционными базами данных, узнаете, как строить хранилища данных и выбирать архитектуры под конкретную задачу.

Построение хранилища данных и основы ETL-процессов

Введение
Архитектура хранилищ
Проектирование хранилища, часть 1
Проектирование хранилища, часть 2
Создание ETL-процесса, часть 1
Создание ETL-процесса, часть 2
Управление качеством данных
Курсовой проект.

Технологии OLAP + BI

Почему OLAP. Готовим ETL и DWH
Многомерное хранилище. Работа с измерениями
Создание мер. Процессинг и его оптимизация
Работа в MDX. Автопроцессинг
Подключение BI-системы.

Введение в NoSQL баз данных. Tarantool

Подходы к организации NoSQL данных
Redis
MongoDB. Часть 1-3
Tarantool. Часть 1-2

Распределенные базы данных
В данной четверти вы познакомитесь с инструментами обработки больших массивов данных, в первую очередь с инструментами экосистемы Hadoop: HDFS, Yarn, Hive, Hue, Flume, Cassandra и другими. Вы освоите возможности фреймворка Apache Spark для распределённой обработки неструктурированных и слабоструктурированных данных. В конце четверти познакомитесь с популярным инструментом Apache Airflow для планирования и мониторинга пакетных процессов работы с большими данными.

Big Data. Экосистема Hadoop

Введение в Hadoop
HDFS
YARN, MR
Hive, HUE
Форматы хранения
ETL
NoSQL
DWH

Big Data. Фреймворк Apache Spark

Архитектура Принципы исполнения запросов. Сохранение и чтение данных
Операции с данными: агрегаты, джойны. Оптимизация SQL-запросов
Типы данных в Spark. Коллекции как объекты User-defined Functions
Машинное обучение на PySpark на примере линейной регрессии.

Настройка потоков данных. Apache Airflow

Планирование задач. Введение Apache AirFlow
Установка Airflow. Создание и основные параметры DAG
Разработка потоков данных
Airflow в production. Примеры реальных задач.

Real-time обработка данных и инфраструктура
В последней четверти вы освоите потоковую обработку данных с использованием инструментов Kafka и Spark Streaming. Также освоите практики DevOps, необходимые для работы дата-инженером.

Потоковая обработка данных

Архитектура Kafka, Kafka Workflow
Kafka Producer и Kafka Consumer
Kafka Broadcasting and Groups
Kafka Stream
Processor API
Динамические запросы в Apache Kafka.

Микросервисная архитектура и контейнеризация

Микросервисы и контейнеры
Docker
Введение в Kubernetes
Хранение данных и ресурсы
Сетевые абстракции Kubernetes
Устройство кластера
Продвинутые абстракции
Деплой тестового приложения в кластер, CI/CD.

Предметы с индивидуальным выбором даты старта
Курсы вне четверти являются частью основной программы обучения и обязательны к прохождению. Вы можете формировать часть расписания самостоятельно и регулировать интенсивность обучения. На прохождение этих предметов у вас есть 2.5 года с момента покупки обучения в GeekUniversity. Проходите параллельно с четвертями или после года обучения.

JVM в экосистеме Hadoop

JVM & Apache Hadoop
Введение в Scala
Spark Core DSL
Spark Core техники
Преобразование структурированных данных в Spark SQL
Потоковая обработка данных Spark Streaming
Введение в машинное обучение на Spark ML
Интерактивный анализ данных в Apache Zeppelin.

Рабочая станция

Введение. Установка ОС
Настройка и знакомство с интерфейсом командной строки
Пользователи. Управление пользователями и группами
Загрузка ОС и процессы
Устройство файловой системы Linux. Понятия файла и каталога
Введение в скрипты Bash. Планировщики задач crontab и at
Управление пакетами и репозиториями. Основы сетевой безопасности
Введение в Docker.

Вас будут обучать топовые эксперты

– Фёдор Ерин
Декан факультета Data Engineering, Data Scientist в X5 Retail Group
Разрабатывает интеллектуальные системы в ритейле. Был аналитиком данных в Mail.ru Group, помогал бизнесу принимать решения на основе данных, создавал проекты с помощью машинного обучения.
– Василий Кузнецов
Data Engineer в Mail.ru Group
Создает, поддерживает и тестирует ETL-процессы. Работал ETL-разработчиком в МТС, писал sql-запросы, проектировал хранилища данных, настраивал Power BI. Автор и преподаватель курса «Построение хранилища данных и основы ETL». Окончил МГТУ им. Н.Э. Баумана.
– Андрей Деканович
Администратор Big Data в «МегаФоне»
Занимается поддержкой и развитием Hadoop-инфраструктуры в нефтегазовой отрасли, банковском деле, промышленной автоматизации, телекоме. Считает, что в области Big Data важно уметь траблшутить проблемы. Окончил Новосибирский государственный технический университет в 2002 году.

И др.

Подробнее о курсе Data Engineer →

Курс «Data Engineer от OTUS»

Цена: 89 000 ₽

Ссылка на сайт: https://otus.ru/lessons/data-engineer/

Освойте работу с Architecture, Data Lake, DWH, MLOps с практикой в Yandex Cloud!

Длительность обучения: 4 месяца, 4 ак. часа в нед.
Формат: Online.

Перейти на официальный сайт →

Что даст вам этот курс:

Понимание ключевых способов интеграции, обработки, хранения больших данных
Умение работать с компонентами экосистемы Hadoop, распределенными хранилищами и облачными решениями
Практические навыки разработки дата-сервисов, витрин и приложений
Знание принципов организации мониторинга, оркестрации, тестирования

Курс адресован разработчикам, администраторам СУБД и всем, кто стремится повысить профессиональный уровень, освоить новые инструменты и заниматься интересными задачами в сфере работы с данными.

После обучения Data Engineering вы станете востребованным специалистом, который:

разворачивает, налаживает и оптимизирует инструменты обработки данных
адаптирует датасеты для дальнейшей работы и аналитики
создает сервисы, которые используют результаты обработки больших объемов данных
отвечает за архитектуру данных в компании.

Программа курса:

Data Architecture

Инженер данных. Задачи, навыки, инструменты, потребность на рынке
Архитектура аналитических приложений: базовые компоненты и принципы
On premises / Cloud solutions
Автоматизация пайплайнов и оркестрация – 1
Автоматизация пайплайнов и оркестрация – 2.

Data Lake

Распределенные файловые системы. HDFS / S3
SQL-доступ к Apache Hive / Presto
Разбор ДЗ по 1 модулю
Форматы хранения данных и их особенности
Очереди сообщений. Обзор Kafka
Выгрузка данных из внешних систем
Apache Spark – 1
Apache Spark – 2.

DWH

Аналитические СУБД. MPP-базы данных
Моделирование DWH – 1. Основы работы с dbt
Моделирование DWH – 2. Data Vault 2.0
Data Quality. Управление качеством данных
Разбор ДЗ по 2 модулю
DevOps практики в Аналитических приложениях. CI + CD
Развертывание BI-решения
Мониторинг / Метаданные.

NoSQL/NewSQL

NoSQL Хранилища. Wide-column и key-value
NoSQL Хранилища. Document-oriented
ELK
ClickHouse
Разбор ДЗ по 3 модулю.

MLOps

Организация и Packaging кода
Docker и REST-архитектура
MLFlow + DVC
Деплоймент моделей
Разбор ДЗ по 4 модулю
Разбор ДЗ по 5 модулю.

Выпускной проект

Выбор темы и организация проектной работы
Консультация по проектам и домашним заданиям
Защита проектных работ.

После обучения вы

Заберете с собой:

основные и дополнительные материалы, и видеозаписи занятий;
образцы кода;
собственный проект, который можно будет показывать при трудоустройстве;
сертификат о прохождении обучения.

В результате обучения вы:

будете иметь представление об основных классах задач Инженера Данных, инструментах, предназначенных для их решения, а также их преимуществах и особенностях;
научитесь выстраивать пайплайны пакетной и потоковой обработки данных;
сможете проектировать хранилища данных и организовывать оптимальный доступ для потребителей;

Преподаватели:

– Егор Матешук
CDO AdTech-компании Квант
Последние 6 лет работает с большими данными: строит системы для обработки данных, консультирует по вопросам построения аналитических решений.
До 2018 года руководил отделом инфраструктуры данных в Ostrovok.ru. Затем занимал аналогичную позицию в MaximaTelecom (один из проектов компании — публичная сеть Wi-Fi в метро Москвы). На данный момент является CDO AdTech-компании Квант.
Большой опыт работы с сервисами Hadoop (HDFS, Hive, Impala), оркестраторами (Airflow, Oozie), MPP-базами (Vertica, Kudu, Greenplum) и различными фреймворками для обработки данных (Spark, Flink).
Образование: МФТИ, факультет инноваций и высоких технологий по специальности прикладная математика и физика.

– Максим Пантелеев
Специалист по машинному обучению и разработке (BigData). Работал в таких компаниях как Mail.Ru Group, Wamba, NVidia, Sber, Megafon, Техносерв Консалтинг, где реализовывал практические кейсы применения машинного обучения полного цикла — прогнозирование временных рядов, детектирование аномалий, системы анализа соц. медиа поля (NLP), рекомендательные системы в ритейле и тд, так и HighLoad практическая реализация этих кейсов в продуктивном окружении — Hadoop, Spark, Flink, Kafka и тд.
Долгое время занимался преподаванием курсов по машинному обучению и технологиям BigData в таких организациях как тренинговый Центр Люксофт, ВШЭ

– Максим Мигутин
Более 5-ти лет опыта в индустрии Данных & Аналитики в роли внешнего косультанта (IBM) и in-house лидера Data Engineering и Data Science-проектов (Альфа-Банк, Yum! Brands).
Сферы интересов: построение end-to-end аналитических систем, внедрение инструментов Машинного обучения в промышленную эксплуатацию, Рекомендательные системы, MPP-базы данных.
Образование: МГУ им. Ломоносова, математическая кафедра Экономического факультета.

И др.

Отзывы:

Сергей Баранов
«Курс более, чем понравился и удачно оказался «стопроцентно в руку».
— Курс значительно отодвинул наметившиеся ограничения в области архитектурных решений по работе с данными для нашей компании.
— Практически каждый (ровно каждый) вебинар курса дал мне варианты решений различных реальных проблем в реальных кейзах по работе.
— Корпус приобретённых практических навыков позволил реализовать эти решения как минимум на уровне работающих прототипов.
— Хочу отметить также серьёзный уровень владения и подачи теории, и погружённости в реальную практику преподавателей курса.
Рекомендую всем как для расширения архитектурного горизонта, так и для приобретения практических навыков работы с заявленным в программе инструментарием.»

Вадим Заигрин
«Очень полезный курс для инженеров данных. Широкий охват тем, глубокая проработка материала. Даже по темам, с которыми ты работаешь пару лет, узнаешь что-то новое.
Из недостатков можно отметить некоторую несогласованность между преподавателями. Например, один говорит, что системы визуального проектирования неудобны, а второй, что с их помощью можно делать то, что нужно.
Ещё хорошо бы оптимизировать последовательность тем. Теорию потоковой обработки лучше давать до практической работы со Spark Streaming.»

Подробнее о курсе Data Engineer →

Курс «Data Engineer 10.0 от НОЧУ ДПО «НЬЮПРОЛАБ»»

Цена: 125 000 руб.

Ссылка на сайт: https://newprolab.com/ru/dataengineer

Онлайн-формат.

Перейти на официальный сайт →

После этой программы вы реально сможете работать дата-инженером и быстро расти, так как будете хорошо разбираться не только в теории, но и иметь практический опыт решения характерных задач DE. Программа направлена на практику в виде лабораторных работ (лаб), которые максимально приближены к реальным задачам, с которыми работают дата-инженеры. Все лабы будут реализовываться в облаке, используя современные инструменты и окружение.

Одна из первых задач в программе — развернуть свой облачный кластер и настроить окружение: это сложно, но интересно и навсегда подружит вас и документацию. Даже если вы уже продвинутый дата-инженер, эта программа поможет вам структурировать ваши знания и дополнительно познакомиться с новыми инструментами и подходами.

Для кого:

Аналитики данных
Аналитика данных всё больше перестаёт быть изолированной от инфраструктуры обработки данных. Вам будет полезно пройти эту программу, чтобы лучше понимать общий цикл работы с данными и, если не расширить область своих возможностей, то уметь самим ставить задачи дата-инженерам. Также вы сможете понять, каково это – работать в более инженерной роли без серьёзных карьерных потрясений.
Бэкенд-разработчики
Как у бэкенд-разработчика, у вас уже есть необходимый инженерный опыт, и данная программа поможет понять, чем занимается дата-инженеры, и либо сменить область работы, либо расширить свои возможности при разработке высоконагруженных приложений. Таким образом, программа будет интересна, если у вас есть опыт работы в нагруженном проекте, и вы хотите узнать больше про задачи обработки данных.
Менеджеры
Если вы управляете командой дата-инженеров или сами является «играющим тренером», программа поможет сориентироваться в инструментах и технологиях так, чтобы понимать, куда развивать направление и лучше оценивать сроки в команде. А если вы давно не были в непосредственной близи к данным, программа поможет освежить в памяти особенности инструментов и практик DE.

По итогам успешного прохождения программы выдаётся сертификат, который подтвердит полученные вами знания и навыки.

Содержание:

Подготовка инфраструктуры
В первой лабораторной работе вы настроите собственный кластер, который будет являться инфраструктурой для всего проекта. На этой простой задаче вы освоитесь с тем, как работает автоматическая проверка и мы настроим необходимые доступы чтобы в дальнейших лабораторных работа эта часть уже не отвлекала. Прокачаются базовые практики devops и получится познакомиться поближе с компонентами дата-инфраструктуры
Batch-обработка
Вторая лабораторная работа направлена на то, чтобы организовать пакетную обработку данных в хранилище. Вы получите данные из Kafka, положите их на HDFS, а затем используя Airflow будете по расписанию перекладывать данные в ClickHouse. Вы напишете свой DAG для обработки и научитесь ходить в консоль всех этих инструментов. Здесь понадобятся базовые знание питона и надо не бояться работать с командной строкой
Стриминг
В рамках этой лабораторной работы мы добавим в хранилище возможность обработки данных «на лету». Так как за термином «потоковая обработка» часто скрывается «батч-обработка просто с очень маленькими батчами», она во многом опирается на предыдущую, но некоторые новые инструменты надо будет подключить. В этой лабе заложена вариативность поэтому вы познакомитесь с несколькими решениями как реализовать стриминг в зависимости от технических условий задачи
Дашборды
В этой лабораторной работе нам надо будет написать свой небольшой сервис на питоне (мы покажем как), и добавить две системы для дашбордов: одну с бизнес-метриками и одну для операционных задач. В рамках программы мы разберёмся в чём разница, и на каких технологиях это часто делают, и чем, собственно, занимаются Analytics Engineers.
Managed-сервисы в облаке
Часто облачные провайдеры предоставляют не просто виртуальные машины и доступ к ним, но и различные решения для разворачивания популярных технологий без лишних настроек. В рамках этой лабы мы посмотрим, как такие сервисы использовать для DE-задач и разберём несколько примеров.
Перенос инструментов в свои проекты
За первую половину программы мы познакомимся, соберём ваши реальные запросы и проекты, для которых полезны изучаемые инструменты. В рамках последней лабы каждый подберёт технологию и инфраструктуру для своих задач, а наши менторы сделают ревью и дадут рекомендации и советы, помогут понять, как выбрать технологию под задачу и чего ожидать от предложенных решений.

Преподаватели:

Егор Матешук
Технический директор
ГПМ Дата
Антон Пилипенко
Руководитель разработки больших данных Сбермаркет
Игорь Мосягин
Data Infrastructure Engineer
Klarna
Сергей Зайцев
Senior engineer
Nvidia
Александр Зайцев
CTO

И др.

Отзывы участников:

Сергей Данилов
Выпускник прошлых потоков программы Data Engineer
«Понравилось развертывание всего кластера: сложно непонятно, но интересно, никогда так много не гуглил в своей жизни.»

Дмитрий Новиков
Выпускник прошлых потоков программы Data Engineer
«Сложное оказалось относительно простым. Теперь я умею деплоить модели в прод 🙂 Ну и паззл сильно лучше сложился.»

Подробнее о курсе Data Engineer →

Курс «Data Engineer от МФТИ »

Цена: 117 000 ₽

Ссылка на сайт: https://fpmi-edu.ru/dataengineering

Освойте все необходимые навыки новой профессии за 5 месяцев и постройте свою карьеру в BIG DATA.

Онлайн вебинары с преподавателем
Длительность обучения — от 5 месяцев, 8 ак.ч. в неделю.

Перейти на официальный сайт →

Чем занимается Data Engineer:

собирает информацию о продукте и/или клиентах из разных источников
сортирует и обрабатывает информацию так, чтобы с ней можно было работать дальше
организовывает безопасное хранение данных, на основании которых принимаются взвешенные бизнес-решения и создаются конкурентоспособные продукты.

Для кого программа?

Для аналитиков
Освоите работу с большими данными, чтобы решать более сложные и интересные аналитические задачи, перейдете на более оплачиваемую работу
Для начинающих IT-специалистов
Освоите продвинутые инструменты работы с большими данными, прокачаете навыки и будете готовы для ускоренного карьерного роста
Для практикующих разработчиков
Расширите свои профессиональные возможности и получите новые навыки работы с большими данными, сможете перейти в востребованное направление и зарабатывать больше.

Вас ждёт много практической работы, разбор кейсов, а благодаря выполнению финального проекта под руководством преподавателя вы получите свой первый выполненный проект.

Программа:

1 курс — «Старт в Data Engineering»
3 месяца, 8 часов в неделю

Автоматизируете процессы сбора, очистки и анализа реальных данных без разработчиков (ETL)
Освоите инструменты: Git, SQL, базовый Python
Научитесь работать с хранилищами данных (DWH)

2 курс — «Инструменты работы с большими данными»
2 месяца, 8 часов в неделю
Освоите самые популярные инструменты для работы с большими данными.

Apache Hadoop (HDFS, MapReduce, YARN)
Apache Hive
Apache Spark (в том числе технологии Streaming)
Apache Kafka
NoSQL в больших данных (Apache Cassandra, Apache HBase).

Успешное окончание каждого курса подтверждается Удостоверением о повышении квалификации.

Преподаватели:

Гайк Инанц
7 лет опыта работы в Big Data и разработки в веб на различных проектах (ВТБ, Райффайзен, Альфа).
На данный момент работает над проектом Ингосстраха, Лаборатории Инноватики и школы Феникс по подготовке middle fullstack разработчиков. Преподает в МФТИ и израильской школе программирования HackerU

Олег Ивченко
Разработчик системы HJudge — системы автоматизирванного тестирования Hadoop-приложений, системный администратор инфраструктуры больших данных в группе Яндекс-CERN, преподаватель курсов по обработке больших данных в МФТИ, ВШЭ, ШАД, Harbour.Space.

Какие компетенции вы получите:

Настраивать и автоматизировать процессы сбора, трансформации, очистки, хранения и первичного анализа данных с помощью SQL и базового Python
Пользоваться высокоуровневыми языками программирования для BigData для обработки большого объема данных на вычислительном кластере
Анализировать проблемы, возникающие при решении задач извлечения данных, трансформации и очистки, и предложить пути их решения
Решать задачи статистики, задачи поиска и индексации, задачи машинного обучения на Hadoop кластере
Пользоваться распределенной файловой системой
Работать с большими объемами данных и располагать кругозором в выборе архитектурного решения поставленной задачи
Писать задачи для запуска на Hadoop кластере с помощью нативного Java-интерфейса, а также любого другого языка программирования (с помощью инструментария Hadoop streaming) и запускать.

Подробнее о курсе Data Engineer →

Курс «Специалист по Data Science от АНО ДПО «ШАД»»

Цена: 112 000 ₽

Ссылка на сайт: https://practicum.yandex.ru/data-scientist/

Можно заниматься онлайн из любой точки мира
Python и его библиотеки, Jupyter Notebook и SQL
75% курса — практика
После обучения помогаем трудоустроиться
16 проектов в портфолио: исследования и задачи для бизнеса
Команда сопровождения поддержит вас в обучении.

Перейти на официальный сайт →

Что вы будете делать, когда станете специалистом по Data Science:

Анализировать большие объёмы данных.
Применять машинное обучение, чтобы предсказывать события, прогнозировать значения и искать неочевидные закономерности в данных.
Помогать создавать и улучшать продукты в бизнесе, промышленности и науке.

Программа курса:

Основы Python и анализа данных: бесплатный вводный курс
Узнаете основные концепции анализа данных и поймёте, чем занимаются аналитики данных и специалисты по Data Science. Решите пять кейсов по работе с данными из разных областей:

выясните причину массовой поломки гаджетов,
проверите окупаемость рекламы мобильного приложения,
найдёте лучшее место для нового магазина,
поможете выбрать стратегию развития ИИ-стартапа
оцените эффективность роботов в службе поддержки.

Введение в профессию «Специалист по Data Science»

Кто такой специалист по Data Science
Как мы учим

Базовый Python
Глубже погрузитесь в язык программирования Python и работу с библиотекой pandas.
Темы:

Переменные и типы данных. Вывод данных и арифметические операции
Строки
Списки
Цикл for
Вложенные списки
Условный оператор. Цикл while
Функции
Словари
Pandas для анализа данных
Предобработка данных
Анализ данных и оформление результатов
Jupyter Notebook — тетрадь в ячейку

Предобработка данных
Научитесь очищать данные от выбросов, пропусков и дубликатов, а также преобразовывать разные форматы данных.
Темы:

Введение в предобработку данных
Работа с пропусками
Изменение типов данных
Поиск дубликатов
Категоризация данных
Системное и критическое мышление в работе аналитика

Исследовательский анализ данных
Изучите основы теории вероятностей и статистики. Примените их для исследования основных свойств данных, поиска закономерностей, распределений и аномалий. Познакомитесь с библиотеками scipy и matplotlib. Отрисуете диаграммы, поупражняетесь в анализе графиков.
Темы:

Введение в исследовательский анализ данных
Первые графики и выводы
Изучение срезов данных
Работа с несколькими источниками данных
Взаимосвязь данных
Валидация результатов

Статистический анализ данных
Научитесь анализировать взаимосвязи в данных методами статистики. Узнаете, что такое статистическая значимость, гипотезы и доверительные интервалы.
Темы:

Введение в статистический анализ данных
Описательная статистика
Теория вероятностей
Проверка гипотез.

Теория вероятностей. Дополнительный курс
Вспомните или узнаете базовые термины в теории вероятностей: независимые, противоположные, несовместные события и т. д. На простых примерах и забавных задачах потренируетесь работать с числами и выстраивать логику решения.
Это необязательный спринт. Значит, каждый студент сам выбирает один из вариантов прохождения:

Освоить дополнительный курс из десяти коротких уроков, освежить в памяти теорию и решить задачи.
Открыть только блок с задачами для собеседований, вспомнить практику без теории.
Пропустить курс совсем или вернуться к нему, когда будет время и необходимость.

Итоговый проект первого модуля
Научитесь предварительному исследованию данных, сформулируете и проверите гипотезы.
Каникулы
Введение в машинное обучение
Освоите основные концепции машинного обучения. Познакомитесь с библиотекой scikit-learn и примените её для создания первого проекта с машинным обучением.
Темы:

Введение в курс
Первая обученная модель
Качество модели
Улучшение модели
Переходим к регрессии

Обучение с учителем
Углубитесь в самую востребованную область машинного обучения — обучение с учителем. Узнаете, как обращаться с несбалансированными данными.
Темы:

Введение в обучение с учителем
Подготовка признаков
Метрики классификации
Несбалансированная классификация
Метрики регрессии
Поведенческие алгоритмы.

Машинное обучение в бизнесе
Узнаете, как машинное обучение (сокр. МО) помогает бизнесу, как собирать данные и как продуктовые метрики связаны с показателями МО. Научитесь запускать новую функциональность сервиса, применяя МО. Узнаете, что такое бизнес-метрики, KPI и A/B-тестирование.
Темы:

Введение в машинное обучение в бизнесе
Метрики бизнеса
Запуск новой функциональности
Сбор данных
Поведенческие алгоритмы.

Итоговый проект второго модуля
Подготовите данные для машинного обучения. С помощью модели оцените её качество.
Линейная алгебра
Заглянете внутрь нескольких изученных ранее алгоритмов и лучше поймёте, как их применять. На практике освоите с нуля главные концепции линейной алгебры: линейные пространства, линейные операторы, евклидовы пространства.

Введение в линейную алгебру
Векторы и векторные операции
Расстояние между векторами
Матрицы и матричные операции
Линейная регрессия изнутри

Численные методы
Разберёте ряд алгоритмов и приспособите их к решению практических задач с использованием численных методов. Освоите приближённые вычисления, оценки сложности алгоритма, градиентный спуск. Узнаете, как обучаются нейронные сети и что такое градиентный бустинг.
Темы:

Введение в численные методы
Анализ алгоритмов
Градиентный спуск
Обучение градиентным спуском
Градиентный бустинг
Поведенческие алгоритмы

Временные ряды
Временные ряды описывают, как меняются параметры, например, объём потребления электроэнергии или количество заказов такси, с течением времени. Вы научитесь анализировать ряды, искать тренды и выявлять сезонность. Узнаете, как создавать табличные данные и задачу регрессии из временных рядов.
Темы:

Введение во временные ряды
Анализ временных рядов
Прогнозирование временных рядов

Машинное обучение для текстов
Научитесь делать числовые векторы из текстов и решать для них задачи классификации и регрессии. Узнаете, как вычисляются признаки TF-IDF и познакомитесь с языковыми представлениями word2vec и BERT.
Темы:

Введение в машинное обучение для текстов
Векторизация текстов
Языковые представления

Каникулы
Базовый SQL
Изучите основы языка запросов SQL и реляционной алгебры для работы с базами данных. Познакомитесь с особенностями работы в PostgreSQL — популярной системе управления базами данных (сокр. СУБД). Научитесь писать запросы разного уровня сложности и переводить бизнес-задачи на язык SQL.
Вы будете работать с базой данных онлайн-магазина, который специализируется на фильмах и музыке.
Темы:

Введение в базы данных
Срезы данных в SQL
Агрегирующие функции. Группировка и сортировка данных
Взаимоотношения между таблицами. Типы объединений таблиц
Подзапросы и временные таблицы
PySpark

Компьютерное зрение
Научитесь решать простые задачи компьютерного зрения с привлечением готовых нейронных сетей и библиотеки Keras. Познакомитесь с Deep learning.
Темы:

Введение в компьютерное зрение
Полносвязные сети
Свёрточные нейронные сети
Поведенческие алгоритмы

Обучение без учителя
Обучение без учителя — это один из способов машинного обучения, при котором система решает задачу без размеченных заранее данных на основе их особенностей и структуры. Познакомитесь с задачами кластеризации и поиска аномалий.
Темы:

Введение в обучение без учителя
Кластеризация
Поиск аномалий

Каникулы
Выпускной проект
В последнем проекте подтвердите, что освоили новую профессию. Уточните задачу заказчика, пройдёте все стадии анализа данных и машинного обучения. Теперь без уроков и домашних заданий — всё как на реальной работе.
+1 проект в портфолио.

Что вы получите в Практикуме:

Диплом о повышении квалификации
Портфолио из 16 учебных и реальных проектов, сделанных во время обучения
Выпускники Практикума создают совместные проекты, нанимают студентов, проводят мастер-классы и помогают друг другу во время и после обучения.
Навыки: python и основные библиотеки, SQL, решение бизнес-кейсов, умение учиться и взаимодействовать с командой, задавать вопросы и работать с ошибками.

Отзывы:

Владислав Ивченко
Студент пятнадцатого потока на программе «Специалист по Data Science»
«Недолго я искал себе школу для получения образования. При первом взгляде на бесплатную часть программы понял, что мне это подходит. Тренажер очень удобный, материал подается с юмором и в понятной форме. Пройдя бесплатную часть я уже начал испытывать ломку без новых знаний и перешел на платный курс.
Спустя полгода обучения хочу сказать, что я не только узнал много нового и интересного, я научился на практике строить прогнозы и обучать модели. Впереди еще финальные испытания и я чувствую силы в себе закончить курс и найти себе работу по специальности 🙂
Спасибо преподавателям и кураторам за то, что сделали процесс обучения мега френдли.»

Михаил Клевалин
Студент двенадцатого потока на программе «Специалист по Data Science»
«Как получилось?
Пока сидел на карантине наткнулся на курс DataScience от практикума. Первый урок дают пройти бесплатно и это позволяет понять в каком режиме построено обучение. Понравилось. Решил продолжить и закончил. Не с чем сравнивать, но лучшая форма образования на мой взгляд.
В чем прелесть?
Информацию дают постепенно, но есть сроки, которые нельзя нарушать, что неплохо мотивирует. Также очень здорово, что в конце каждого спринта (спринт — отдельная тема, 2 недели) есть проект, на котором можно применить полученные знания. Так гораздо лучше происходит усвоение материала. Также надо отметить еженедельные консультации с наставниками, которые делятся опытом из реальной работы.
Что в итоге?
По окончании курса сменил сферу деятельности и устроился аналитиком данных.»

Подробнее о курсе Data Engineer →

Курс «Data Engineering от robot dreams»

Цена: нет информации

Ссылка на сайт: https://robotdreams.cc/course/data-engineering

Курс в записи
18 занятий, 27 часов контента.

Перейти на официальный сайт →

Курс для тех, кто хочет навести порядок в архитектуре данных и освоить ключевые инструменты data engineer на практике.

Курс подойдет:

Software/ SQL/ ETL Developer
Изучите весь процесс обработки данных, освоите 6 ключевых инструментов инженера данных и научитесь проектировать Big Data Platforms, которые способны масштабироваться.
Data Analyst / Data Scientist
Научитесь не просто анализировать данные, но и выстраивать процессы загрузки/выгрузки, проектировать хранилища, настраивать автоматическое обновление дата-пайплайнов, чем упростите себе работу.
Data Engineer (beginner)
Наведете порядок в данных, научитесь проектировать понятную архитектуру под задачи бизнеса и сможете оперативно обрабатывать 1 Пбайт данных.

За 18 видеоуроков вы детально изучите все этапы обработки данных, будете строить ETL-системы и хранилища, настраивать автоматическое обновление дата-пайплайнов и успешно обрабатывать 1 Пбайт данных.

В программу курса входят:

Сильный контент
Вы разберете существующие решения обработки big data на части, рассмотрите и повторите каждую делать. В результате ― узнаете, что учитывать при разработке и как не паниковать, если требования к системе меняются.
Инструменты
Разберетесь в интерфейсе и научитесь пользоваться Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS, MapReduce. Получите бесплатный доступ к среде разработки Pycharm от JetBrains на 4 месяца.
Проект
Построите собственную Big Data Platform, которая способна масштабироваться, и добавите кейс в свое портфолио.
Карьера
Откроете новый подход в работе с big data и начнете путь в Data Engineering.

Лектор – Антон Бондарь
Big Data Consultant в Cognizant
консультирует компании из списка Fortune 500 (DXC Technology, AVI-SPL)
более 7 лет работает с Big Data
занимался построением Data Platform в AVI-SPL, работал над технологией прогнозирования отказов техники на основе больших данных
работал с Big Data в DXC Automotive, занимался подготовкой данных для платформы сбора и обработки показателей автопилотов.

Программа курса:

Введение в Data Engineering
Узнайте всё, что вы хотели о профессии Data Engineer: цели, направления, задачи, обязанности и функция в команде. Сравните Data Engineer vs Big Data Engineer. Ознакомьтесь с технологиями, с которыми вы будете работать во время курса. Поймите, какие задачи решает конкретная Big Data технология.
Python для Data Engineering
Научитесь работать с разными структурами данных: string, list, tuple, set, dictionary. Начните загружать данные из внешних источников с помощью Python. Узнайте специфику работы с модулями Python: import и relative import модулей.
SQL для Data Engineering
Узнайте, для чего используется SQL в Big Data. Научитесь объединять наборы данных при помощи SQL: JOIN, UNION, EXCEPT. Начните использовать SQL для аналитических запросов: аналитические функции, группирование данных, оконные функции. Поймите, как писать быстро-выполняющийся SQL.
Аналитические базы данных
Выявите различия между OLTP и OLAP системами. Поймите техническую реализацию системы управления баз данных, предназначенных для аналитики. Научитесь описывать структуру базы данных при помощи ER-модели для ее будущего конструирования (Crow’s foot notation).
Проектирование хранилищ данных
Узнайте, какое назначение хранилищ данных и какие существуют подходы к их проектированию. Научитесь проектировать (строить) хранилища данных. Освойте навык “представление данных в виде витрин”. Разберите примеры существующих хранилищ данных.
Передача данных между системами. Часть 1
Спроектируйте ETL решение. Поймите, как передавать данные между системами. Научитесь извлекать данные из внешних источников, трансформировать и очищать.
Передача данных между системами. Часть 2
Научитесь создавать, запускать и мониторить ETL при помощи Apache Airflow. Начните описывать ETL процессы, используя Directed Acyclic Graph. Напишите свой оператор Airflow для доступа к API. Подключитесь к внешним источникам данных с помощью Apache Airflow.
Распределенные вычисления. Лекция
Разберитесь с понятием распределенных систем и вычислений. Узнайте, какие задачи они решают и какие готовые решения уже существуют. Выявите отличия распределенных систем от обычных, разберите их преимущества и недостатки. Поймите, что означают свойства распределенных систем и ограничения распределенных систем в САР-теореме для вашей работы. Узнайте, на что стоит обратить внимание при построении распределенных систем и чем можно пожертвовать при решении конкретной задачи.
Экосистема Hadoop для распределенной работы с файлами
Научитесь пользоваться экосистемой Hadoop. Узнайте, в чем предназначение каждой технологии в рамках экосистемы Hadoop. Изучите альтернативы Hadoop. Начните использовать Hadoop Distributed File System.
Распределенная файловая система (HDFS)
Научитесь работать с распределенной файловой системой Hadoop. Ознакомьтесь со спектром решаемых задач. Изучите внутреннюю архитектуру HDFS и особенности её реализации. Научитесь управлять файлами, загружать, выгружать данные, администрировать кластера при помощи HDFS.
BigData архитектуры
Узнайте три поколения BigData архитектуры и зачем они нужны. Разберитесь, какие технологии имеют и какие проблемы решают разные поколения архитектур.
Распределенные вычисления в оперативной памяти (Apache Spark)
Начните обзор технологии Apache Spark, выявите её отличие от MapReduce. Поймите, почему Apache Spark флагманская технология в мире BigData. Узнайте, какие задачи решает Apache Spark. Используйте технологию Apache Spark для организации больших данных.
Работа со структурированными данными при помощи SparkSQL. Часть 1
Начните знакомство со SparkSQL — одним из синтаксисов Apache Spark. Научитесь загружать данные в Spark. Изучите работу Spark со внешними источниками данных. Совершите трансформации над структурированными данными при помощи SparkSQL.
Работа со структурированными данными при помощи SparkSQL. Часть 2
Начните выгрузку данных из Spark. Научитесь проводить аналитику на структурированных данных в Spark.
Оптимизация выполнения задач в Apache Spark
Поймите, как написать эффективный код и ускорить обработку больших данных в Apache Spark. Научитесь выявлять основные проблемы производительности Spark, устраните их. Организуйте данные в кластере Apache Spark.
Потоки данных в Apache Spark
Поймите, чем отличается обработка потоковых данных от статичных. Научитесь обрабатывать потоки данных с помощью Spark Streaming. Разберите пример программы по анализу потоковых данных.
Подведение итогов
Объедините все полученные знания. Создайте data platform. Сделайте обзор полного цикла подготовки и реализации проекта. Начните подготовку к курсовому проекту.
Защита курсового проекта
Получите тему курсового проекта. Ознакомьтесь с форматом работы. Выполните ряд обязательных требований для реализации проекта. Успешно защитите его.

Подробнее о курсе Data Engineer →

Курс «Data Engineering and Analytics от DATALEARN»

Бесплатно

Ссылка на сайт: https://datalearn.ru/

Занятия в режиме онлайн из любой точки мира
Много практики для портфолио
Реальная востребованность на рынке
Сертификат после прохождения курса.

Перейти на официальный сайт →

Аналитика больших данных позволяет бизнесу принимать верные управленческие решения
Данные — главное оружие бизнеса в эпоху цифровой трансформации. Не использовать его — значит сознательно вредить бизнесу и обрекать его на поражение!

Курсы:

Getting start with Data Engineering and Analytics (DE — 101)
~10 недель, с одним вебинаром в неделю и с домашкой, от простого к сложному, что-то вроде моей карьеры за 10 недель.
Getting Started with Machine Learning и Data Science (ML-101)
Требуется серьезная мотивация и целеустремленность, чтобы закончить курс, и если вы справитесь со всеми модулями курса ML-101, то вы легко справитесь с базовым уровнем задач на позициях Data Science Intern, Junior Data Scientist, Applied Scientist
Курс по поиску работы для аналитических специальностей в России и за рубежом (JH — 101)
Getting started with SQL for beginners
Практический видеокурс по работе с базами данных с использованием языка структурированных запросов SQL (Structured Query Language).
Подойдет тем, кто слышал об SQL, но боялся попробовать
Women in Data Community
Наша цель — создать наиболее комфортную среду для девушек, которые интересуются карьерой в data. В дополнение к основным курсам, коммьюнити — платформа, где можно пообщаться с девушками из data, узнать про карьеры в data и задать любые интересующие вопросы.

Для кого подойдут эти курсы:

Аналитики
Изучите инструменты и станете более востребованными специалистами
Маркетологи
Сможете структуризировать данные, увеличить эффективность рекламных каналов
Руководители
Сможете анализировать продажи в разных разрезах и в динамике
Предприниматели
Построите систему аналитики и найдете точки роста для своей компании
Инженеры
Сможете сменить специализацию и зарабатывать больше, ваши технические знания упростят обучение
Фрилансеры
Сможете предлагать дополнительные услуги вашим клиентам или работать на западные компании
Финансисты
Загружать, анализировать данные, строить отчёты.

Подробнее о курсе Data Engineer →

Курс «Data Engineer от АНО ДПО «Корпоративный университет Сбербанка»»

Цена: 90 000 рублей

Ссылка на сайт: https://sberuniversity.ru/learning/programmes/open-programmes/12814/

Длительность — 299 ак. часов
Уровень — Базовый.

Перейти на официальный сайт →

Задача инженера данных (Data Engineer): работать с огромными массивами данных – собирать, обрабатывать и хранить их правильным образом.
Инженер данных обеспечивает инфраструктуру для хранения данных и разрабатывает эффективные правила их автоматизированной обработки, которые требуют меньше ресурсов и снижают потери и сбои, а также формирует условия для сбора информации, которая должна попасть на обработку и последующее хранение. Можно утверждать, что ученый может открыть новую звезду, но не может создать её. Для этого ему пришлось бы обратиться к инженеру. Без инженера по данным математические модели исследователей данных часто не имеют никакой ценности.

Программа подойдет:

желающим начать свой путь в ИТ: мы дадим нужные знания и умения в SQL, Python и хранилищах данных, автоматизации процессов обработки данных, чтобы вы смогли сделать первые шаги навстречу карьере мечты;
аналитикам: вы получите навыки работы с хранилищами данных. Сможете автоматизировать сбор, трансформацию и очистку данных с помощью SQL и Python без разработчиков. Повысите компетенции для перехода в роль data engineer или data scientist;
начинающим программистам: набьете руку в сборе, очистке и хранении данных. Сможете дальше развиваться как data engineer или аналитик!
специалистам в маркетинге или продукте: Научитесь быстро извлекать нужные данные без помощи разработчиков. Научитесь считать статистику по извлеченным данным без привлечения аналитиков. Научитесь работать с одними из самых востребованных в ИТ инструментами: SQL, Python, Git.

На программе вы научитесь настраивать и автоматизировать процессы сбора, трансформации, очистки, хранения и первичного анализа данных с помощью SQL и базового Python на примерах реальных задач.

Вы будете работать над выпускным проектом, для которого есть два варианта выполнения:

взять задачу, заранее подготовленную преподавателями;
согласовать собственную тему, например, связанную с работой слушателя.

На проекте, который подготовили преподаватели, слушателей ждет работа с реальными транзакционными банковскими данными. C помощью Python и SQL слушатели реализуют:

собственное хранилище данных – DWH;
процесс сбора, очистки, трансформации и хранения данных;
систему автоматического поиска мошеннических операций (AntiFraud-система).

Обучение состоит из двух частей:

Базовый модуль, «бассейн» – онлайн-интенсив из электронных курсов и вебинаров для освоения базовых знаний и умений в программировании и основах работы с данными на Python и SQL.
Профильный модуль – обучение в формате вебинаров под руководством преподавателей, интересными ДЗ, персонализированной обратной связью и проектами!
На профильном модуле занятия проходят 2 раза в неделю в формате «живых» вебинаров с преподавателем. Мы не набираем больших групп, чтобы каждый слушатель мог получить ответы свои вопросы во время занятий, личную обратную связь по домашним заданиям и проектам!

Команда преподавателей, методистов и кураторов с более чем трехлетним опытом организации обучения Data Science и Data Engineering.

Структура программы:

Базовый модуль

Основы языка SQL. PostgreSQL
Основы Python
Основы решения алгоритмических задач
Практикум.

Профильный модуль

SQL для работы с данными
Основы построения ETL процесса на SQL и Python.

Отзывы о курсе доступны на сайте.

Подробнее о курсе Data Engineer →

Курс «Профессия: Data Engineer от ProductStar»

Цена: 39 000 рублей

Ссылка на сайт: https://productstar.ru/analytics-dataengineer-info

Вы сможете претендовать на позицию инженера данных, ETL-эксперта или MLOps уровня миддл+
Инструменты: от SQL до ETL и DWH.

Длительность — 6 месяцев
Онлайн в удобное время
Обучение на практике
Доступ к курсу навсегда.

Перейти на официальный сайт →

Чему вы научитесь:

Работать SQL
Научитесь писать запросы, работать с данными в базе без переноса в таблицы, загружать данные и сохранять историю, работать с разными форматами файлов
Использовать Python и библиотеки анализа данных
Автоматизировать работу с большими массивами, получать данные из внешних источников, обосновывать выводы, сделанные на основании данных
Оптимизировать системы работы с данными
Научитесь создавать необходимые условия для хранения и организации полезных данных всей компании. Настраивать и конфигурировать ETL / ELT-процессы в нескольких дата-инструментах
Объяснять архитектуру и структуру базы данных
Проектировать схемы хранилищ и выбирать DWH под задачу и бюджет бизнеса среди популярных решений: Snowflake, BigQuery, Azure SQL DW, Redshift.

Программа курса:

60 лекций и воркшопов

Блок 1: «Получение и подготовка данных: SQL»

Основы SQL
Обновление, добавление и удаление данных. Работа с таблицами
Представления и хранимые процедуры. Особенности обработки транзакций
Расширенные возможности SQL и основные ограничения
Фильтрация данных и вычисляемые поля — практика (SELECT, SUM, AVG, GROUP BY, ..)
Группировка данных, подзапросы и объединение таблиц — практика (INNER, LEFT, RIGHT, DISTINCT, ..)
Обновление, добавление и удаление данных. Работа с таблицами (INSERT, UPDATE, DELETE, MERGE, FOREIGN KEY, ..)
Работа с популярными программами (MySQL, SQL Server, Redash, Tableau)

Блок 2: «Python, мат.модели и обработка данных»

Python: настройка окружения, базовые структуры данных и основные операторы
Python: работа с файлами и форматированный вывод
Python: пространства имен и области видимости, классы и объекты
Python: инструменты функционального программирования
Python: стандартные и сторонние библиотеки Python для анализа данных
Основы линейной алгебры и теории множеств
Методы математической оптимизации
Основы описательной статистики
Статистический анализ данных

Блок 3: «Data Warehouse»

Проектирование хранилища данных
Организация работы с традиционными хранилищами данных
ETL / ELT-процессы: знакомство с Pentaho
ETL-pro
Заливка данных и создание OLAP-кубов
Data Governance
Изучение Snowflake, BigQuery: плюсы и минусы
Практика с Azure SQL DW
Практика работы с Redshift и выгрузки данных
DWH в облаке

Блок 4: «Business Intelligence-решения и аналитика больших данных»

Установка и настройка Power BI
Подключение к данным: загрузка стационарных файлов, загрузка файлов из папок
Очистка и преобразование данных: типы данных, фильтрация данных
Знакомство с инфраструктурой Tableau. Загрузка данных. Первый дашборд
Tableau Professional.
Подключение к базам данных SQL Основы работы с Tableau Server
Знакомство с Pentaho BI
Многомерные модели. Pentaho Analysis Services
Машинные методы для обработки данных
Культура сбора и источники данных
Предобработка и визуализация данных в pandas
Улучшение качества работы с данными
Основы архитектуры хранения и обработки больших данных, виды обработки и масштабирования
Основы работы в Hadoop и MapReduce
Работа с облачными платформами: AWS, EMR, Azure
Продвинутые подходы в MapReduce
Организация команды для работы с данными. CRISP-DM

Блок 5: Дипломная работа и помощь с трудоустройством

Работа над дипломным проектом для портфолио
Подготовка резюме
Подготовка к собеседованию
Финальная защита и консультации.

Выпускники получают сертификат об успешном прохождении курса — что, вместе с дипломным проектом, будет хорошим аргументом при трудоустройстве.

Спикеры курса:

Денис Соболев
Skyeng
Илья Чухляев
OWOX
Чайзат Ховалыг
Точка банк
Анна Морозова
Яндекс
Андрей Менде

И др.

Отзывы:

Александр Елисеев (слушатель)
Data Engineer в Wrike
«Мне очень нравится качество материалов лекций, особенно то, как структурирован опыт работы организаторов и приглашенных лекторов. Нравится, что у лекторов разные взгляды на управление продуктами, разный опыт и специализация, это позволяет создать своё понимание профессии.»

Михаил Нестеренко (слушатель)
Project manager, Bookmate
«Очень крутой курс! Миша и Рома суперпозитивные и отзывчивые, всегда ответят и подскажут, сложность скорее хороший вопрос придумать)) Очень нравится, что много разных лекторов из разных направлений, у каждого свой опыт и мнение, это помогает смотреть на некоторые вещи с разных сторон. Хочется больше разборов конкретных кейсов, но, конечно, всегда можно спросить. Спасибо!»

Подробнее о курсе Data Engineer →

Курс «Data Engineer от DataLearn»

Бесплатно

Ссылка на сайт: https://www.youtube.com/watch?v=Ei21wxKKCMI

Перейти на официальный сайт →

В индустрии существует 2 типа инженера данных. Мы рассмотрим более детально их обязанности, сходства и различия.

Gentle Data Engineer
Hardcore Data Engineer
VPN
Firewall
Учетная запись на AWS
Хостинг на AWS Lightsail
Модель данных в облаке.

Подробнее о курсе Data Engineer →