ТОП-25 лучших курсов Big Data: обучение онлайн, бесплатные и платные в 2023 году

Big Data — это область науки, которая занимается обработкой, хранением и анализом больших объемов данных. В этой области много востребованных профессий, таких как аналитики данных, инженеры данных, специалисты по машинному обучению и т.д.

На курсах Big Data можно научиться работе с различными инструментами и технологиями, которые используются для обработки и анализа больших объемов данных. В частности, можно изучить язык программирования Python и его библиотеки для анализа данных (например, NumPy, Pandas, Matplotlib), технологии хранения данных (например, Hadoop, Spark, NoSQL), а также основы машинного обучения и анализа данных.

Лучшие курсы:

1 место. Курс «BIG DATA с нуля от Нетология»

Цена курса: 24 850 ₽ или рассрочка на 12 месяцев — 2 070 ₽ / мес

Ссылка на сайт: https://netology.ru/programs/big-data#!

Научитесь работать с большими данными. Расширьте знания в аналитике. Перейдите на новый уровень в профессии.

  • Формат обучения: Видеолекции, вебинары и практические задания
  • Для всех, кто готов повышать свою грамотность в IT-технологиях
  • Удостоверение о повышении квалификации установленного образца.
Перейти на официальный сайт →

Big data — инструменты, подходы и методы обработки огромных объёмов данных. По сути, это альтернатива традиционным системам обработки данных.
Если вам требуется общее расширение кругозора в теме технологий работы с данными и необходимость апгрейда на текущем месте работы, курс даст возможность расширить профессиональные навыки, работать с новыми задачами и быстро приносить результаты в проектах.

Зачем изучать Big Data?

  • Up skill профессии
    Вас ждёт апгрейд навыков в аналитике данных и понимание, зачем и где нужна big data, новая траектория развития карьеры и более сложные рабочие проекты.
  • Расширение кругозора
    Вы расширите свой кругозор, освоите технологии для перехода на уровень middle и сможете быстрее выполнять свои рабочие задачи.
  • Переход в новую область
    Курс даёт ключевые технологии и навыки для старта погружения в самую горячую профессиональную область. Вы получите практику, достойную включения в резюме.

Что вы узнаете на курсе?

  • Как собрать и управлять командой big data проекта
    Освоите подход CRISP-DM: межотраслевой стандартный процесс для исследования данных. Определите компетенции и состав команды.
  • Как создать стратегию работы с большими данными
    Определите, сколько данных вам нужно для нахождения инсайтов. Найдёте задачи под биг дату в своей компании.
  • Как улучшить результаты обработки данных
    Поймёте, как и по каким правилам хранить данные. Сможете обосновывать влияние на сбор данных, мониторинг и отчётность.

Практика на курсе:

  • 8+ часов в неделю интенсивных уроков и практики с экспертами отрасли
  • 9 изучаемых инструментов must-have для работы с большими данными
  • Домашние задания с проверкой и обратной связью от преподавателей курса
  • Лабораторная работа от загрузки данных до построения модели
  • Нетворкинг (работа в команде с экспертом) имитирует работу над проектом на удалёнке
  • Дипломный проект работающая модель классификации данных.

Программа курса:

  1. Аналитика больших данных
    Часто аналитик данных нужен именно в тех компаниях, которые накопили «какую-то свою» Big data. Чтобы понимать, как он может принести пользу для бизнеса, нужно владеть не только стандартными инструментами вроде Excel и SQL, но и знать характерные только для больших данных принципы обработки, иметь представление о компонентах экосистемы Hadoop и облачных платформах для реализации решений по Big data. Мы не только поговорим об этом, но и попрактикуемся работать с главными инструментами.
  • Традиционные аналитические подходы. Причины выбора Big data среди многообразия подходов
  • Машинные методы для обработки данных. Как перестать реагировать и начать прогнозировать
  • Культура сбора и источники данных. Дорожная карта и главное правило аналитика
  • Предобработка и визуализация данных в pandas для отчётности на примере международного ритейлера
  • Улучшение качества работы с данными. Основы архитектуры хранения и обработки больших данных, виды обработки и масштабирования
  • Основы работы в Hadoop и MapReduce. Обзор облачных платформ: AWS, EMR, Azure и прочих
  • Продвинутые подходы в MapReduce. Работа в pyspark, доступная каждому
  • Организация команды для работы с данными. CRISP-DM
  1. Итоговый проект
    В итоговом проекте вы примените полученные навыки для решения задачи предсказания: создадите работающую модель классификации, опишете найденные в данных инсайты, разработаете стратегию внедрения хранилища данных и работы с большими данными в реальной компании. Сформулируете цели проекта внедрения больших данных и ключевые метрики, на которые будете влиять с их помощью.
    Итоговая работа выполняется самостоятельно под руководством экспертов курса, закрепляет весь спектр знаний и навыков, полученных на программе и систематизирует рабочий опыт.

Преподаватель курса – Алексей Кузьмин
Директор разработки и руководитель Data Science и работы с данными, «ДомКлик».

Вашу квалификацию подтвердят документы установленного образца.

Подробнее о курсе Big Data →

2 место. Курс «Факультет аналитики Big Data от GeekBrains»

Стоимость курса: Рассрочка до 36 месяцев — от 5 191 ₽ / мес

Ссылка на сайт: https://gb.ru/geek_university/big-data-analytics

Вы научитесь собирать и анализировать данные, извлекать полезную информацию и находить закономерности. После обучения сможете проверять гипотезы и помогать бизнесу принимать взвешенные решения.

  • 15 месяцев
  • Трудоустройство через 9 месяцев
  • Для тех, кто хочет войти в IT.
Перейти на официальный сайт →

Аналитик Big Data извлекает ценные данные из большого массива информации: отзывов, прогнозов, результатов исследований. Он помогает бизнесу принимать взвешенные решения: строить гипотезы, запускать продукты, улучшать процессы, планировать развитие.

Кому подойдет курс:

  • Новичкам
    Сможете стать специалистом по анализу больших данных, даже если никогда не работали в IT-сфере.
  • Начинающим аналитикам
    У вас будет всё для ускоренного карьерного роста: комплексные знания и опыт работы с продвинутыми инструментами, методологиями и стандартами.
  • Практикующим IT-специалистам
    Подскажем, как перейти в востребованное направление и зарабатывать больше.

Программа курса:

Базовый блок — 3 месяца
Погружение в сферу IT. На данном этапе вы изучите прикладную математику, познакомитесь с профессиями в разработке, популярными языками программирования и получите базовые навыки.

  • Введение в программирование
  • Математика и информатика
  • Введение в контроль версий
  • Знакомство с языками программирования
  • Основы языка Python
  • Введение в базы данных.

Аналитика — 9 месяцев
Получите фундаментальные знания в аналитике данных, освоите основные инструменты, научитесь проектировать и работать с базами данных.

  • Теория вероятностей и математическая статистика
  • A/B-тестирование
  • Основы анализа данных в Excel
  • Базы Данных и SQL
  • Введение в BI
  • Введение в веб-аналитику
  • Python для аналитиков
  • Введение в Data Science
  • Профориентация и выбор аналитической специализации. Карьерное консультирование.

Аналитик Big Data — 3 месяца
На этом этапе вы изучите необходимый инструментарий аналитика big data, получите практические навыки на основе выполненных проектов и получите знания и инструментарий, необходимые для успешного старта в профессии.

  • Big Data. Введение в экосистему Hadoop
  • Big Data. Системы машинного обучения
  • Big Data. Фреймворк Apache Spark.

Курсы со свободной датой старта:

  • Умение учиться
  • Гибкие методологии
  • Основы Jira и Confluence GU
  • Знакомство с web-технологиями.

Вас будут обучать топовые эксперты:

Иван Максимов
Data Scientist в Delivery Club
Работал 2 года в PwC Data & Analytics Lab и 1,5 года в ML Research Group. Среди проектов — рекомендательные системы для ритейла, оптимизация маркетинговых кампаний на основе машинного обучения, поиск оптимальной геолокации для новых точек продаж. Выпускник факультета анализа данных Сколтеха.

Андрей Деканович
Big Data cluster administrator в МегаФон
Писал код на множестве языков, потом занялся программированием для баз данных и в итоге стал администратором кластеров Big Data. Окончил Новосибирский государственный технический университет в 2002 году.

Екатерина Колпакова
Ведущий системный аналитик в DWH рекламных технологий Mail.ru Group.
Преподаватель открытого курса «Проектирование хранилищ больших объёмов данных» в Технопарке Mail.ru при МГТУ им. Н. Э. Баумана.

Артем Зраев
Data scientist в игровой студии Creative Mobile
Создает внутриигровые системы рекомендаций и автоматизирует распределение бюджетов рекламных кампаний. До этого строил поведенческие профили пользователей в Mail.ru Group и прогнозировал отток клиентов в МТС. Преподаватель в МГУ.


Вы получите диплом о профессиональной переподготовке.
У вас будет официальный документ, который подтвердит профессиональную переподготовку. Для работодателя это показатель, что вы разобрались в Data Science и самостоятельно выполнили проекты из вашего портфолио.

Плюсы курса:

  • Обучение на практике
  • Полноценная программа обучения
  • Документ об образовании

Минусы курса:

  • Не найдено
Подробнее о курсе Big Data →

3 место. Курс «Аналитик данных с нуля от Skillbox»

Цена: Рассрочка на 22 месяца — 4 711 ₽ / мес

Ссылка на сайт: https://skillbox.ru/course/data-analyst/

Научитесь анализировать данные с помощью сервисов аналитики и BI-инструментов, освоите Python и SQL. Сможете строить прогнозы на основе данных и помогать бизнесу принимать решения.

  • Практические работы SQL, Power BI, Python
  • Спикеры с опытом работы от 10 лет
  • Бонусный курс по Power Point для всех участников
  • Занятия онлайн в удобное время.
Перейти на официальный сайт →

Кому подойдёт этот курс:

  • Студенты технических вузов
    Узнаете, как проводить исследования, анализировать данные и делать наглядные отчёты. В короткие сроки получите специализацию и сможете начать карьеру в аналитике на позиции Junior.
  • Руководители и владельцы бизнеса
    Взглянете по-новому на свой продукт, изучите его сильные и слабые стороны. Узнаете, как делать прогнозы для бизнеса, развивать продукт и решать текущие проблемы на основе данных аналитики.
  • Разработчики, которые хотят сменить профиль
    Поймёте, как применить свои знания в программировании для решения бизнес-задач. Изучите инструменты для анализа, сборки и презентации данных заказчику — и станете более востребованным специалистом.
  • Бизнес-аналитикам
    Подтянете знания аналитики, изучите основы программирования на Python. Сможете работать с базами данных и Power BI, создавать эффектные презентации. Расширите компетенции и станете лучше решать текущие задачи.

Чему вы научитесь:

  • Проводить исследования и делать точные выводы
    Изучите математическую основу анализа, научитесь работать с массивами данных и находить закономерности в цифрах.
  • Использовать программирование в аналитике
    Освоите основы программирования на Python для решения базовых бизнес-задач. Научитесь собирать базы данных на языке SQL и управлять ими.
  • Строить гипотезы и оценивать перспективы бизнес-решений
    Узнаете, какие метрики эффективности использует бизнес. Поймёте, как их собирать, читать, строить прогнозы и находить рабочие идеи.
  • Работать с сервисами аналитики и дашбордами
    Научитесь работать с Яндекс.Метрикой и Google Analytics и собирать данные в одно окно для быстрого доступа к отчёту.
  • Делать развёрнутые аналитические отчёты
    Поймёте, как пользоваться инструментами для визуализации данных, таблицами Google и Excel — и формировать отчёты для клиентов.
  • Работать с заказчиками аналитики
    Научитесь обрабатывать различные типы аналитических запросов от бизнеса и презентовать результаты своей работы убедительно и понятно для коллег.

Содержание курса:

Вас ждут онлайн-лекции и практические задания с разным уровнем сложности. Этих знаний хватит, чтобы устроиться в компанию на junior-позицию.
45 тематических модулей, 230 видеоматериалов

Аналитик данных с нуля

  1. Часть 1. Введение. Excel, Google Таблицы
  • Общая информация о курсе
  • Источники данных и инструменты для анализа
  • Введение. Интерфейс Excel. Книги и листы
  • Анализ таблиц. Печать таблиц
  • Сводные таблицы
  • Вычисления и формулы. Умные таблицы
  • Функции подсчёта и суммирования. Статистические функции. Функции округления
  • Логические функции
  • Основы, интерфейс Google Таблиц
  • Сводные таблицы: основы
  1. Часть 2. Python, библиотеки NumPy и Pandas
  • Введение в Python
  • Основы языка
  • Операторы, выражения
  • Условный оператор if: ветвления
  • Условный оператор if: продолжение
  • Цикл while
  • For: циклы со счётчиком. Часть 1
  • For: циклы со счётчиком. Часть 2
  • Цикл for: работа со строками
  • Вложенные циклы
  • Цикл for: продолжение работы со списками
  • Функции
  • Float
  • Установка и настройка IDE
  • Базовые коллекции: списки
  • Методы для работы со списками
  • Представление списков
  • Библиотека NumPy. Часть 1
  • Библиотека NumPy. Часть 2
  • Библиотека Pandas. Часть 1
  • Библиотека Pandas. Часть 2
  1. Часть 3. SQL, чтение и запись данных, Power BI
  • Основы SQL
  • Чтение и запись данных. Часть 1
  • Чтение и запись данных. Часть 2
  • Введение в статистику
  • Знакомство с Big Data
  • Основные метрики и системы аналитики (Я.Метрика и Google Analytics)
  • Загрузка данных в Power BI
  • Соединение данных из разных таблиц и ресурсов.

Power Point (бонусный курс)

  1. Интерфейс PowerPoint. Создание и редактирование слайдов
  2. Работа со стилем презентации: единый стиль, цвет и шрифт, форматирование текста
  3. Работа с фигурами, таблицами и изображениями
  4. Расширенные возможности редактирования и дизайна
  5. Печать, презентация и публикация
  6. Keynote и PowerPoint

Итоговый проект

  1. Анализ результатов A/B-тестирования
    Рассмотрите результаты A/B-тестирования в компьютерной игре. Оцените, какой эффект оказала внутриигровая акция. Сделаете вывод, стоит ли проводить такую активность внутри игры ещё раз.

Спикеры:

Павел Булавин
Начальник отдела развития данных в банке «Открытие»

Александр Джумурат
Руководитель команды разработки рекомендательной системы в ivi

Алла Тамбовцева
Преподаватель НИУ ВШЭ
Ведёт курсы по статистике, анализу данных и программированию на языках R и Python. Опыт преподавания — больше 7 лет.

Михаил Овчинников
Ведущий инженер-программист в Badoo
Специалист в области разработки высоконагруженных систем и обработки больших данных. Докладчик крупнейших IT-конференций России. Более 15 лет опыта в IT — от стартапов до крупных компаний.

Отзывы об обучении в Skillbox доступны на сайте.

Сертификат Skillbox
Подтвердит, что вы прошли курс, и станет дополнительным аргументом при устройстве на работу.

Подробнее о курсе Big Data →

Курс «Big Data для менеджеров от SkillFactory »

Цена: Рассрочка на 12 месяцев — 9 250 ₽ / мес

Ссылка на сайт: https://skillfactory.ru/big-data-dlya-menedzherov

Научись использовать силу больших данных и AI для трансформации вашего подразделения или компании на курсе Big Data для менеджеров, руководителей департаментов и собственников бизнеса.

  • Формат – онлайн
  • Длительность – 6 месяцев.
Перейти на официальный сайт →

Управление Big Data и AI – это отдельная область знаний, которая требует не столько технических навыков программирования и знания математики, сколько высокоуровневого понимания технологий и умения увидеть возможности для роста и трансформации.
На курсе Вы освоите основы технологии Big Data, необходимые для менеджеров и управленцев, а также разберете кейсы, которые помогут в решении собственных рабочих задач.

Краткая программа обучения:

  1. Основы Big Data и ML
  • Теория и основные термины
  • Модели ML
  • Работа с данными: как собирать и хранить
  • Анализ и обработка данных.
  1. Работа менеджера проектов в Big Data
  • Внедрение Big Data в бизнес-процесс
  • Технологии искусственного интеллекта для бизнеса
  • Как собрать команду для работы с AI
  • Ведение AI проекта.
  1. Специальные знания в управлении Big Data проектом
  • Big Data с юридической точки зрения
  • Презентация проекта
  • Как разработать проектное предложение.

Что вы будете знать и уметь после обучения:

  • Глубокое представление об особенностях и преимуществах Big Data & ML
  • Опыт работы с Dataset и фреймворками
  • Понимание алгоритмов искусственного интеллекта и инструментов BD
  • Навыки организации командной работы над BD/DS-проектом
  • Умение проверять гипотезы с помощью MVP
  • Умение планировать дедлайны и распределять обязанности внутри проекта
  • Работа с системами AI и Big Data, владение алгоритмами
  • Навык подбора специалистов в работе с Big Data и формирования команды
  • Знание юридических тонкостей в Big Data.

Преподаватели:

Александр Хайтин
CEO Mechanica AI
ex-Yandex Data Factory CEO (2014-2017).

Антон Попов
Советник по цифровой трансформации для компаний: PayPal, Яндекс, Mail.ru Group, Bosch, Росатом, Intel, S7 Airlines и др.

Андрей Попов
Эксперт ФРИИ, РВК
Co-founder HumanVenture, RocketFounders, ZenMall.
ex-Intel,ex-RedBull, ex-I-Jet Media.

И др.

Мы предоставим вам сертификат об окончании курса «Big Data для менеджеров», если нужно — переведем его на английский язык.

Отзывы о курсе Big Data:

Александр Халипов
Большие Данные Правительства города Москвы
«Если в полной мере включиться в образовательный процесс, то это довольно интенсивное приключение на полгода, расширяющие кругозор вне зависимости от того, чем вы раньше занимались. Просто, потому что каждый преподаватель, а их немало, привносит свой взгляд на то, с чем он соприкасается по работе и это интересный взгляд. При этом, где-то (достаточно часто) это и самообразование, после первоначального толчка, который получаешь на курсе. В общем в такой учебе бывает непросто, но оно того стоит, чтоб попробовать. Спасибо всему коллективу SkillFactory за интересно и с пользой проведенное время!»

Бреус Наталья Леонидовна
Заместитель генерального директора АО «Мостострой-11»
«Я занимаюсь вопросами экономики в производственной компании и скорость доступа к информации и ее качество — это самые важные критерии для принятия правильных и своевременных решений. Наша ИТ система постоянно развивается и для того, чтобы использовать ее на максимум было необходимо изучить последние достижения и понять как можно их интегрировать в деятельность компании. На курсе эту информацию мне дали в очень интересной и доступной форме! Эксперты-практики сразу расставляли точки над и, что позволило не повторить чьих-то ошибок. Живо, харизматично и увлечённо делились с нами своими знаниями и опытом. Очень удобен формат он-Лайн и возможность 1 раз в 2 недели получить личную консультацию по проекту, которым ты занимаешься. Мне понравились абсолютно все преподаватели, очень рекомендую посетить всем, кто ищет ответ на вопрос «а что это» и «как» — все ответы вы найдёте!»

Подробнее о курсе Big Data →

Курс «MLOps от OTUS»

Цена: нет информации

Ссылка на сайт: https://otus.ru/lessons/ml-bigdata/

Практический курс по инструментам и технологиям работы с большими данными.

  • Длительность обучения: 5 месяцев, 4 ак. часа в нед.
Перейти на официальный сайт →

Данный курс даст вам понимание того, как устроен процесс внедрения ML-решения от идеи до вывода его в прод. Преподаватели поделятся лучшими практиками и инструментами MLOps, которые устоялись в современной индустрии.
Каждый модуль вы будете закреплять на практике, выполняя домашнее задание. В конце обучения вас ждет финальный проект, который позволит обобщить все полученные знания и пополнить портфолио. Он может быть выполнен в рамках рабочих задач на вашем датасете или быть учебным проектом, основанным на данных, предоставляемых OTUS.

Для кого этот курс?
Для специалистов по Машинному обучению или Software инженеров, которые хотят научиться использовать современные инструменты MLOps для развертывания их решений в проде.

Вы научитесь:

  • Использовать стандартные инструменты ML-конвейеров в распределенной среде;
  • Разрабатывать собственные блоки для ML-конвейеров;
  • Адаптировать ML-алгоритмы к распределенной среде и инструментам big data;
  • Использовать Spark, SparkML, Spark Streaming;
  • Разрабатывать алгоритмы потоковой подготовки данных для машинного обучения;
  • Обеспечивать контроль качества на всех этапах движения ML-решений в промышленную эксплуатацию;
  • Использовать инструменты Kubernetes и Docker для развертывания ML-решений в проде.

Преподаватели:

Павел Филонов
Ex-Data Science Manager в Kaspersky.
Занимается развитием Data Science команды, которая предоставляет для продуктов и сервисов компании функционал на основе машинного обучения. В роли Data Scientist участвовал в разработке Kaspersky MLAD и MDR AI Analyst. В роли разработчика C++ участвовал в создании MaxPatrol SIEM. В течение многих лет преподает computer science дисциплины в МГТУ ГА. Автор серии докладов про ML, С++, управление DS проектами и развитии команды. Член ПК конференции C++ Russia.

Дмитрий Бугайченко
Управляющий директор в Сбербанке
Специалист по работе с большими данными и машинному обучению. В течение 8 лет работал в «Одноклассники». Руководил командой OK Data Lab (лаборатория для исследователей в области big data и machine learning). Анализ больших данных в Одноклассниках стал уникальным шансом совместить теоретическую подготовку и научный фундамент с разработкой реальных, востребованных продуктов. С 2019 года работает в Сбербанке на должности управляющего директора. Выступает в роли лидера кластера разработки платформы рекомендательных систем дивизиона массовой персонализации. Окончил Санкт-Петербургский государственный университет в 2004 году, там же защитил кандидатскую по формально-логическим методам в 2007. Почти 9 лет проработал в аутсорсинге, не теряя контакта с университетом и научной средой.

Максим Мигутин
Более 5-ти лет опыта в индустрии Данных & Аналитики в роли внешнего косультанта (IBM) и in-house лидера Data Engineering и Data Science-проектов (Альфа-Банк, Yum! Brands).
Сферы интересов: построение end-to-end аналитических систем, внедрение инструментов Машинного обучения в промышленную эксплуатацию, Рекомендательные системы, MPP-базы данных. Образование: МГУ им. Ломоносова, математическая кафедра Экономического факультета.

И др.

Программа обучения:

  1. Процессы
  • Вводное занятие
  • Цели и метрики ML проектов
  • Организация исходного кода
  • Взаимодействие с командой
  • Практика. Формирование процессов команды
  1. Инфраструктура
  • Базовые блоки инфраструктуры
  • Облачные провайдеры
  • Собственная инфраструктура
  • Хранение кода и CI/CD
  • Биллинг и Identity and Access Management
  • Практика. Настройка облачной инфраструктуры
  1. Подготовка данных
  • Выбор хранилища. HDFS/S3/DataBase/etc
  • Сбор данных по расписанию. AirFlow
  • Сбор данных на потоке. Kafka
  • Валидация данных
  • Обнаружение сдвигов в данных
  • Подготовка и обогащение данных
  • Извлечение признаков
  • Версионирование данных. DVC
  • Практика. Конвейер подготовки данных
  1. Моделирование
  • Воспроизводимость и версионирование. MLFlow
  • Перенос ML алгоритмов в распределенную среду
  • Популярные фреймворки в распределенной среде
  • Подбор гиперпараметров и AutoML
  • Практика. Регулярное переобучение
  1. Валидация
  • Стратегии валидации моделей
  • Анализ моделей
  • Интерпретируемость
  • A/B тестирование
  • Практика. Автоматическая валидация
  1. Развертывание
  • Пакетный режим работы
  • Асинхронный потоковый режим
  • Синхронный режим
  • Подготовка артефактов
  • Развертывание в k8s
  • Обновление моделей
  1. Мониторинг
  • Инструменты и метрики. Prometheus
  • Поиск отклонений и сдвигов в данных
  • Построение обратной петли
  • Алертинг
  1. Проектная работа
  • Выбор темы и организация проектной работы
  • Консультация по проектам и домашним заданиям
  • Защита проектных работ.

Выпускной проект – возможность закрепить навыки, наработанные в процессе обучения. Вам на выбор будет предоставлено 2 варианта:

  • взять свою задачу и свои данные;
  • разработать и развернуть на Spark рекомендательную систему.

После обучения Вы получите материалы по всем занятиям (видеозаписи занятий, презентации, примеры кодов) и сертификат об окончании курса.

Подробнее о курсе Big Data →

Курс «Аналитик Big Data от Центр компьютерного обучения «Специалист» при МГТУ им.Н.Э.Баумана»

Цена: 142 890 ₽ — 204 990 ₽

Ссылка на сайт: https://www.specialist.ru/track/dp-bigdat

Перейти на официальный сайт →

Big Data – современный тренд и предмет высокого спроса со стороны работодателей. Бизнес хочет расти, а для этого требуется анализировать большие объемы данных. Данные о клиентах, продажах, посетителях. На основе больших данных строятся гипотезы и принимаются решения о создании новых продуктов, тарифов, оптимизации расходов.

Аналитик Big Data – сотрудник, использующий разнообразные инструменты для анализа и визуализации данных, такие как Tableau, Excel, Power Query/Pivot/Map.
Кроме того, особенно ценятся специалисты, которые могут не только использовать существующие инструменты, но и создавать новые. Поэтому в программу включены курсы по основам python и «Анализ и визуализация данных на python».

В программу включены курсы:

  1. Основы работы с большими данными (Data Science)
  2. Анализ данных на языке SQL
  3. Введение в статистику
  4. Microsoft Excel 2019/2016. Уровень 3. Анализ и визуализация данных
  5. Основы работы с Tableau – визуализация и анализ данных
  6. Microsoft Excel 2019/2016. Уровень 6. Бизнес-аналитика с использованием Power Pivot, Power Query и 3D Map
  7. Основы графов и нечетких логик для анализа больших данных
  8. Программирование на языке Python. Уровень 1. Базовый курс
  9. Программирование на языке Python. Уровень 2. Продвинутый курс
  10. Программирование на языке Python. Уровень 4. Анализ и визуализация данных на языке Python. Библиотеки Pandas, numpy, Matplotlib

Ваше резюме после прохождения обучения:

  • Анализ данных на языке SQL
  • Уверенное владение Excel
  • Анализ и визуализация данных в Tableau, Power Query/Pivot/Map
  • Владение языком Python
  • Библиотеки python для визуализации и анализа данных: numpy, pandas, matplotlib.

В зависимости от программы обучения выдаются следующие документы:

  • Удостоверение о повышении квалификации
  • Свидетельство выпускника
  • Диплом о профессиональной переподготовке
  • Cертификат международного образца.
Подробнее о курсе Big Data →

Курс «Специалист по большим данным 17.0 от NEWPROLAB»

Цена: 140 000 руб.

Ссылка на сайт: https://newprolab.com/ru/bigdata

  • Онлайн
  • 12 недель.
Перейти на официальный сайт →

Полное погружение в мир больших данных за 12 недель:

Алгоритмы
Научитесь обрабатывать данные в Pandas, строить модели машинного обучения (логистическая регрессия, деревья, случайный лес) в Scikit-learn, анализировать текстовые данные, применять разные алгоритмы рекомендательных систем.

Технологии
Научитесь писать MapReduce-джобы на Python с использованием Hadoop Streaming, писать SQL-like запросы в Hive для решения аналитических задач, обращаться к данным на HDFS, анализировать данные в Apache Spark.

Бизнес
Научитесь выбирать правильную метрику качества для вашей задачи, собирать требования перед стартом проекта и оценивать финансовый эффект от внедрения моделей.

Программа обучения:

36 занятий, 9 лаб, 2 проекта.

Часть 1. Построение DMP-системы
Проект: прогнозирование пола и возрастной категории пользователей в интернете по их логам.

  • Лаба 1. Деплой кластера в облаке и запуск MapReduce
    По итогам только первой недели обучения вы научитесь разворачивать Hadoop-кластер в облаке, используя дистрибутив HortonWorks. Сможете написать свой первый MapReduce-джоб, используя Hadoop Streaming и Python.
  • Лаба 2. Классификация пользователей по интересам в Hive
    Используя простые эвристики, вам нужно будет классифицировать пользователей по интересам (автомобилисты, предприниматели, домохозяйки и др.). Для выполнения лабы необходимо будет использовать Hive.
  • Лаба 3. Прогнозирование оттока клиентов банка
    Используя обезличенные данные клиентов банка, вам нужно будет предсказать вероятность ухода из банка каждого из них в ближайшие несколько месяцев.
  • Лаба 4. Похожесть текстов вакансий
    В этой лабе вам нужно будет найти похожие тексты вакансий. Суперачивка — участие в соревновании на Kaggle по определению эмоциональной окраски отзывов в интернете.

Часть 2. Разработка рекомендательной системы
Проект: рекомендательная система товаров в интернет-магазине

  • Лаба 5. Неперсонализированные рек. Системы
    Задача — построить различного рода топы для рекомендации фильмов пользователям, по которым еще нет никаких данных.
  • Лаба 6. Коллаборативная фильтрация
    Используя матричные разложения, разработать рекомендации, учитывающие жанр, стиль и другие неявные факторы фильма.
  • Лаба 7. Content-based рек. Системы
    Вам нужно будет, рассчитывая похожесть описаний онлайн-курсов, выявить те, которые можно рекомендовать в дополнение пользователям.
  • Лаба 8. Рекомендации фильмов по телесмотрению
    Используя данные по просмотру телепередач разных пользователей, сделать рекомендации фильмов по подписке.
  • Лаба 9. A/B-тестирование
    Используя данные и модель прогнозирования оттока лабораторной работы 4, необходимо проэмулировать настоящий АБ тест по удержанию клиентов банка и получить значимое улучшение метрик в тестовой группе.

Преподаватели — это практики из ведущих российских и международных компаний: Lamoda, Яндекс, NVIDIA, 1C Битрикс, Cбербанк, ЦИАН, CleverDATA и др.

  1. Алексей Астафьев
    Рук Senior Data Scientist
    CrazyPanda
  2. Петр Ермаков
    Senior Data Scientist
    Lamoda
  3. Дмитрий Коробченко
    Senior Manager of AI

И др.

Подробнее о курсе Big Data →

Курс «Oracle Big Data Fundamentals от ITShop»

Цена: 140 000 руб.

Ссылка на сайт: https://www.itshop.ru/Oracle-Big-Data-Fundamentals/l4t3i357920

  • Продолжительность — 5 дней.
Перейти на официальный сайт →

Этот курс дает базовые навыки работы с Oracle Big Data Solution. При помощи практики и интерактивных инструкций вы нарабатываете навыки работы в Большими данными — захвата, организации, анализа и принятия ключевых решений.
Во время прохождения курса слушатели будут изучать:

  • Понимание Больших Данных и интегрированного решения Oracle’s Big Data Solution и его компонентов
  • Использование Hadoop и его компонентов
  • Захват сырых данных при помощи Oracle NoSQL базы данных и распределенной файловой системы Hadoop
  • Организация собранных данных при помощи Hive и Oracle Big Data коннекторов
  • Анализ Больших Данных при помощи инструментария Oracle Analytics
  • Получение бизнес-решения при помощи Oracle BI tools
  • Обсуждение сценариев успешного применения Oracle Big Data.

Круг слушателей – администраторы баз данных и разработчики приложений.

Цель курса:

  • Определить Big Data
  • Понять важность технологий Big Data
  • Получить представление о деталях текущей реализации — понимание решения Oracle Big Data Solution
  • Обзор интеграционных возможностей инженерных систем Oracle. Использование Big Data Appliance (BDA) и его аппаратных и программных компонентов
  • Дистрибутив Cloudera для Hadoop
  • Определение Экосистемы Hadoop
  • 2 способа захвата Больших Данных и их применение
  • Изучение использования HDFS для захвата неструктурированных данных
  • Понимание Oracle NoSQL базы данных
  • Определение Hive, его создание и использование.

Программа курса:

  1. Введение
  • Обзор технологий Больших Данных
  • Четыре характеристики Больших Данных и бизнес-значение
  • Примеры реализации
  1. Понимание интеграционного решения Oracle для Больших Данных
  • Понимание фаз Больших Данных
  • Интеграционный процесс Больших Данных
  1. Использование Oracle Big Data Appliance
  • Обзор BDA
  • Сопровождение аппаратных компонентов
  • Обзор of the Software Components
  • Сетевые механизмы
  • Конфигурационные механизмы
  • Инсталяционные указания
  • Ограничения в использовании
  1. Опции захвата данных в BDA
  • Обзор Oracle NoSQL базы данных
  • Обзор структуры Hadoop
  • Понимание HDFS
  • NoSQL против HDFS
  • Сценарии использования в реальном времени
  1. Использование распределенной файловой системы Hadoop (HDFS)
  • Определение HDFS
  • Компоненты
  • Архитектура
  • Список достоинств
  • Запуск тестового приложения для добавления лог-файлов в HDFS
  1. Использование Flume in HDFS
  • Определение Flume
  1. Понимание потоков данных во Flume
  • Конфигурация Flume
  • Преимущества использования Flume
  • Запуск тестового приложения
  1. Использование Oracle NoSQL Базы Данных
  • Определение Oracle NoSQL базы данных
  • Компоненты
  • Архитектура
  • Определение KVStore и KVLite
  • Список достоинств
  1. Использование Hive
  • Обзор Hive
  • Вызов Hive
  • Создание базы данных Hive и таблиц
  • Работа с данными в Hive
  • Создание секционированной таблицы для анализа лог-файлов
  1. Использование Oracle Big Data Коннекторов
  • Введение в Oracle Big Data коннекторы
  • Соединение Oracle Exadata с BDA
  • Процесс MapReduce
  • Пример решения проблемы с подсчетом слов в файле при помощи MapReduce
  1. Использование Oracle Loader для Hadoop
  • Архитектура OLH
  • Установка OLH
  • Моды OLH
  • Загрузка из различных входных источников — различные форматы OLH
  • Балансировка нагрузки при загрузке в секционированные таблицы
  • Пример загрузки данных при помощи OLH
  1. Использование Oracle Sql Коннектора для HDFS
  • Установка OSCH в кластер Hadoop и на машину с базой данных Oracle
  • Роль внешних таблиц в OSCH и их создание
  • Сравнение производительности коннекторов
  • Загрузка данных в базу при помощи OSCH
  • Пример доступа к данным из HDFS при помощи внешних таблиц
  1. Использование Адаптера ODI для Hadoop (ODIAAH)
  • Обзор of ODI
  • Архитектура ODI и агенты
  • Модули знаний ODI
  • Установка топологии
  • Reverse Engineering таблиц Hive
  • Пример трансформации данных внутри Hadoop с помощью ODIAAH
  1. Использование Oracle R Коннектора для Hadoop (ORCH)
  • Пример доступа к данным из HDFS при помощи внешних таблиц
  • Список пакетов ORCH
  • Архитектурные компоненты
  • Установление соединения между HDFS и базой данных Oracle
  • пример R программы с использованием ORCH
  1. Использование In-Database Analytics
  • Обзор Oracle In-Database MapReduce
  • Обзор Oracle In-Database Analytics
  1. Использование Oracle Big Data Iинтеграционных опций
  • Архитектура и компоненты Oracle Big Data Solution
  • Соединение Oracle exalytics с BDA
  • Интеграция результатов BDA с OBIEE
  1. Изучение примеров использования Big Data
  • Использование Big Data в промышленности
  • Финансовые сервисы
  • Страховые сервисы
  • Сектор обслуживания
  • Телекоммуникации
  • Розничная торговля.

По окончании обучения Вы получите сертификат.

Подробнее о курсе Big Data →

Курс «Разработчик BigData от ФПМИ МФТИ»

Цена: 136 000 руб.

Ссылка на сайт: https://fpmi-edu.ru/dpo-magistr/bigdatadeveloper

  • 3 курса (длительность каждого курса — 4 месяца).
  • Онлайн, 1 раз в неделю
  • После успешного прохождения обучения — диплом о профессиональной переподготовке.
Перейти на официальный сайт →

Программа профессиональной переподготовки включает три курса:

  1. «Технологии программирования и операционные системы»
  • Семейство ОС Unix. Современные инструменты для работы в консоли
    Семейство ОС Unix, основные дистрибутивы и их отличия. Основные командные интерпретаторы, их отличия. Утилита sed, язык awk. Использование Python как заменителя shell. Jupyter и TmpNb как его модификация. Терминальные мультиплексоры, автоматизация работы с ними.
  • Системы контроля версий
    Системы контроля версий в современных проектах. CVS – первая система контроля версий. SVN. Современные VCS – Git, Mercurial и работа с ними. Работа над проектами в команде. Автоматизация работы с Git.
  • Виртуализация
    Виртуализация. Её виды (контейнерная, на уровне ОС). Современные платформы виртуализации и работа с ними. Автоматизация работы с виртуальными окружениями.
  • Непрерывная интеграция
    Непрерывная интеграция (continuous integration) и её этапы. Основные инструменты CI и их связь с VCS.
  • Оркестрация контейнеров. Kubernetes
    Компьютерные сети, модель OSI, её уровни. Сетевые протоколы обмена информацией.
  1. «Хранение и обработка больших объемов данных»
  • Распределённые файловые системы (GFS, HDFS). Управление ресурсами Hadoop-кластера. YARN
    Распределённые файловые системы (GFS, HDFS). Её составляющие. Их достоинства, недостатки и сфера применения. Чтение и запись в HDFS. HDFS APIs: Web, shell, Java.
    Hadoop MRv1 vs. YARN. Нововведения в последних версиях Hadoop. Планировщик задач в YARN. Apache Slider.
  • Парадигма MapReduce
    Парадигма MapReduce. Основная идея, формальное описание. Обзор реализаций. Виды и классификация многопроцессорных вычислительных систем. Hadoop. Схема его работы, роли серверов в Hadoop-кластере. API для работы с Hadoop (Native Java API vs. Streaming), примеры.
    MapReduce, продолжение. Типы Join’ов и их реализации в парадигме MR. Паттерны проектирования MR (pairs, stripes, составные ключи). Интернет-маркетинг стратегии, проверенные экспертами, которые действительно работают.
  • SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive.
    SQL over BigData: Apache Drill, Cloudera Impala, Presto, Hive. Повторение HiveQL vs. SQL. Виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи. Аналитические функции в Hive. Расширения Hive: Streaming, User defined functions. Оптимизация запросов в Hive.
  • Технологии обработки данных в распределенной оперативной памяти. Apache Spark
    Spark RDD vs Spark Dataframes
    Spark SQL
    Spark GraphFrames.
  • Обработка данных в реальном времени. Kafka, Spark Streaming
    Обработка данных в реальном времени. Spark Streaming. Распределённая очередь Apache Kafka. Kafka streams.
  • BigData NoSQL, Key-value базы данных
    NoSQL подходы к реализации распределенных баз данных, key-value хранилища. Основные компоненты BigTable-подобных систем и их назначение, отличие от реляционных БД. Чтение, запись и хранение данных в HBase. Minor- и major-компактификация. Надёжность и отказоустойчивость в HBase.
    Cassandra. Основные особенности. Чтение и запись данных. Отказоустойчивость. Примеры применения HBase и Cassandra.
    Отличие архитектуры HBase от Сassandra.
  1. «Машинное обучение на больших объемах данных».
  • Методы оптимизации и линейные модели
    – Машинное обучение с учителем на больших данных. Закон Ципфа. Тематическое моделирование.
    –  Метод стохастического градиента. Постановка задачи. Оптимизации обучения на больших данных: градиентный спуск, стохастический градиент.
    –  Признаки. Пространства признаков, веса признаков, нормализация признаков. Генерация и хеширование признаков.
    –  Онлайн обучение линейных моделей. Метод стохастического градиента: выбор функции потерь. Оценка качества метода стохастического градиента. Алгоритм Бутстрап.
    –  Хеширование, чувствительное к расстоянию (LSH). Меры сходства: расстояние Жаккара, Хемминга, косинусное расстояние, Евклидово расстояние.
    –  Оптимизация и тестирование гиперпараметров. Симплекс-метод.
  • Алгоритмы работы с графами большого размера.
    – Графы, их виды. Стохастический граф.
    – Представление графа: матрицы смежности, инцидентности, достижимости. Списки смежности. Алгоритмы перевода из одного представления в другое.
    –  Социальный граф. Задача поиска общих друзей в социальном графе. Язык DSL.
    –  Граф пользовательских предпочтений.
    –  Использование подхода BigData в анализе графов.
  • Информационный поиск.
    – Постановка ранжирования. Основные подходы к решению задачи ранжирования
    – Метрики измерения точности ранжирования. Кликовые модели.
    – Тематическое моделирование и его связь с ранжированием.
    – Проблемы тематического моделирования при больших данных. AD-LDA, его недостатки, Y!LDA, Mr. LDA. ARTM. Архитектура библиотеки BigARTM. Online LDA и его применение в Vowpal Wabbit.
  • Рекомендательные системы
    – Рекомендательные системы, постановка задачи предсказания / рекомендации. Классификация рекомендательных систем. Неперсонализированные рекомендательные системы, content-based рекомендательные системы.
    – Задачи коллаборативной фильтрации, транзакционные данные и матрица субъекты—объекты. Корреляционные методы, методы сходства (neighbourhood) — user-based, item-based.
    – Латентные методы на основе матричных разложений. Методы ALS и iALS.
    – Современные рекомендательные системы: рекомендательные системы, основанные на учете контекста (context aware); аспектные рекомендательные системы (aspect-aware), рекомендательные системы на основе тензорных разложений.

Руководитель программы – Олег Николаевич Ивченко
Разработчик системы HJudge — системы автоматизирванного тестирования Hadoop-приложений, системный администратор инфраструктуры больших данных в группе Яндекс-CERN, преподаватель курсов по обработке больших данных в МФТИ, ВШЭ, ШАД, Harbour.Space.

Подробнее о курсе Big Data →

Курс «BigData от Школа Больших Данных»

Цена: разная стоимость

Ссылка на сайт: https://www.bigdataschool.ru/

Перейти на официальный сайт →

Курсы:

  1. Аналитика больших данных для руководителей
  2. Архитектура Данных
  3. Основы Hadoop
  4. Администрирование кластера Hadoop
  5. Безопасность озера данных Hadoop на платформе CDP
  6. Hadoop для инженеров данных
  7. Использование Apache Zeppelin
  8. Администрирование кластера Kafka
  9. Apache Kafka для инженеров данных
  10. Анализ данных с Apache Spark
  11. Core Spark — основы для разработчиков
  12. Потоковая обработка в Apache Spark
  13. Машинное обучение в Apache Spark
  14. Графовые алгоритмы в Apache Spark
  15. Интеграция Hadoop и NoSQL
  16. Hadoop SQL администратор Hive
  17. Администрирование кластера HBase
  18. Cloudera Impala Data Analytics
  19. Greenplum для инженеров данных
  20. Apache NiFI для инженеров данных
  21. Администрирование кластера Apache NiFi
  22. Data Pipeline на Apache Airflow и Apache Hadoop
  23. Разработка и внедрение ML-решений
  24. Графовые алгоритмы. Бизнес-приложения
  25. Подготовка данных для Data Mining на Python
  26. Машинное обучение на Python
  27. Визуализация данных на языке Python
  28. Нейронные сети на Python
  29. NLP с Python
  30. Computer vision на Python
  31. Администрирование кластера Arenadata Hadoop + сертификация
  32. Основы Arenadata Hadoop + сертификация
  33. Администрирование Arenadata Streaming Kafka + сертификация
  34. Эксплуатация Arenadata DB + сертификация
  35. Arenadata DB для разработчиков + сертификация
  36. Эксплуатация Arenadata QuickMarts + сертификация
  37. Cертификация Arenadata
  38. Data pipeline на Apache AirFlow и Arenadata Hadoop.
Подробнее о курсе Big Data →

Курс «Big Data и Data Science: начни погружение с нуля от Stepik»

Бесплатно

Ссылка на сайт: https://stepik.org/course/101687/promo

Курс познакомит участников с понятием больших данных и обучит базовым знаниям и практически применимым навыкам в области Data Science.

  • 32 часа, 7 недель, по 4-5 часов
  • Сертификат.
Перейти на официальный сайт →

Курс расскажет, что такое Big Data и Data Science, чем занимаются специалисты по анализу данных и почему они так востребованы сейчас. После прохождения программы вы поймете, что Data Science — это не страшная, а очень интересная и нужная область знания, и сможете самостоятельно работать с данными на базовом уровне.
Цель курса – привлечь ваше внимание к Big Data и Data Science, поэтому все материалы курса имеют ознакомительный характер без погружения во все тонкости. Если вас интересует глубокое погружение, то воспользуйтесь дополнительными материалами модулей.

Курс нацелен на обучение старших школьников, студентов бакалавриата и магистратуры, которые мечтают построить карьеру в Data Science. Также курс подойдет всем, кому хочется узнать больше о работе с большими данными и получить базовые навыки профессии Data Scientist. Программа будет интересна специалистам в IT и смежных областях, желающим освежить и пополнить свои знания.

Курс состоит из четырех модулей, которые помогут поэтапно освоить основные понятия науки о данных и научиться применять их на практике:

  1. Погружение в науку о данных.
    Вы узнаете, что такое анализ данных, и в чем отличие аналитика от специалиста по Data Science. Изучите, где применяется машинное обучение и попробуете решить свою первую задачу. Увидите, как подать любые массивы данных в лаконичной и красивой форме. А еще поймете, какие преимущества в жизни дает развитый навык аналитического мышления и научитесь его прокачивать.
  2. Введение в анализ данных.
    Вы познакомитесь с операционной системой Linux и увидите, что она может быть по-настоящему удобной для работы и жизни. Научитесь основам языка программирования Python — базового языка для начинающих разработчиков. А также опробуете полученные знания в деле и попрактикуетесь в работе с разными библиотеками Python.
  3. Сбор, обработка и хранение данных.
    Вы узнаете больше про язык SQL и работу с ним. Создадите свою первую реляционную базу данных и освоите разнообразные методы взаимодействия с ней. А также рассмотрите сам рынок больших данных с точки зрения перспектив развития и препятствий.
  4. Soft Skills и управление проектами.
    Вы изучите методы и инструменты управления проектами в среде искусственного интеллекта и узнаете о том, как работает риск-менеджмент в крупных компаниях.

Преподаватели:

  • Арго Саакян
    Спикер модуля «Погружение» курса «Big Data и Data Science: начни погружение с нуля»
    Data Scientist IT Центра компетенций НТИ по направлению: «Технологии хранения и анализа больших данных» при МГУ имени М.В. Ломоносова. Data Scientist в ed-tech стартапе doc.club. В свободное время немного робототехник (esp, arduino, raspberrypi, jetson)
  • Мария Свидерская
    Спикер модулей «Сбор, обработка и хранение данных» и «Погружение» курса «Big Data и Data Science: начни погружение с нуля»
    Data Analyst в компании Skyeng. Занимаюсь подготовкой данных для моделей машинного обучения и участвую в их разработке.
  • Артём Титов
    Спикер модуля «Введение в анализ данных» курса «Big Data и Data Science: начни погружение с нуля»
    Data Scientist, аналитик, программист на Python. Прошёл курс на geekbrains «Программист Python». Закончил курс от Яндекс.Практикума «Специалист по Data Science».

И др.

Отзывы:

Александра Горохова
«Хороший курс для изучения основ. Да, где-то потребуется изучение доп материалов для понимания.»

Татьяна Жамсаранжапова
«Хороший курс для ознакомления с data science».

Подробнее о курсе Big Data →

Курс «Анализ Big Data от BigData Team»

Цена: 12 600 рублей — 65 000 рублей

Ссылка на сайт: https://bigdatateam.org/ru/big-data-course

Самый быстрый способ прокачать свои навыки для IT-специалистов. Научитесь эффективно обрабатывать большие данные, выполняя практические задания на реальном кластере.

Перейти на официальный сайт →

Кому подойдет этот курс:

  • Разработчики
    Вы программируете, но хотите расширить профессиональные возможности и получить практические навыки работы с большими данными? На курсе вы научитесь работать с Hadoop, MapReduce, Hive, Spark, Kafka, Cassandra и будете выполнять задания на реальном кластере.
  • Аналитики
    Хотите освоить работу с большими данными, чтобы решать более сложные и интересные аналитические задачи? Вы научитесь использовать инструменты работы с большими, проводить аналитику с помощью SQL и NoSQL инструментов, готовить данные и отчеты на основе больших массивов информации.
    Для тех, кто хочет перейти в сферу Data Science и освоить машинное обучение, рекомендуем пройти «Практический курс Machine Learning».
  • Data Engineers
    Хотите расширить свой арсенал для работы с данными и структурировать свои знания в DE? Вы узнаете о современных технологиях работы с Big Data, научитесь грамотно их использовать и понимать, какую технологию в каких случаях лучше применять.
  • Data Scientists
    Ловите себя на мысли, что качество модели во многом зависит от правильного сбора и предобработки данных? Вы получите базу по современным инструментам и подходам, необходимым для сбора, хранения и обработки данных; изучите особенности укладки данных для оптимизации вычислений, подготовки фичей и масштабирования ML-моделей.

Что входит в программу?

10 занятий – погружение в большие данные: 30 часов лекций и семинаров, 50 часов на самостоятельную работу.
10 домашних заданий –
на каждом занятии вы будете работать с кластером, а после этого вас ждут домашние задания для отработки новых знаний на практике.

Программа обучения:

Часть 1. HDFS, Map Reduce, Hive
Вы научитесь работать с распределенными файловыми системами, познакомитесь с экосистемой Hadoop, разберетесь с оптимизацией MapReduce вычислений и работой с Hive.

  1. Введение в Большие Данные (Big Data). Распределенные файловые системы, Workshop
  • Вводная часть: знакомство (задачи, оценки, дедлайны), подробности курса.
  • Распределенные файловые системы (GFS, HDFS). Их составляющие, достоинства, недостатки и сфера применения.
  • Чтение и запись в HDFS. HDFS APIs: Web, shell.
  1. Hadoop экосистема, MapReduce и не только
  • Hadoop Streaming.
  • Элементы Hadoop-задачи (Mapper, reducer, combiner, partitioner, comparator).
  1. Оптимизация MapReduce вычислений
  • Приложения с несколькими Hadoop-задачами.
  • Тюнинг Hadoop-job (настройка партиционирования, сложные ключи, uber jobs).
  • Задачи с несколькими входами. Joins в Hadoop.
  1. SQL поверх больших данных (Hive)
  • Архитектура Hive, виды таблиц, форматы хранения данных.
  • Трансляция Hive-запросов в MapReduce-задачи.
  • Сериализация и десериализация.
  • Тюнинг Join’ов в Hive.
  • Партиционирование, бакетирование, семплирование.
  • User defined functions, Hive Streaming.

Часть 2. Spark: from zero to hero
На протяжении этой части курса вы будете работать со Spark: от основных терминов и RDD до Spark DataFrames и оптимизации Spark вычислений.

  1. Модель вычислений Spark: RDD
  • Схема выполнения задачи в Spark.
  • Основные термины Spark (job, task, stage).
  • Представление вычислений в виде графа. Spark Python API. Spark RDD API.
  • Broadcast-сообщения и счетчики.
  1. Spark DataFrames, Spark SQL
  • Взаимодействие Hive и Spark SQL.
  • Отличия DF от RDD.
  1. Оптимизация Spark вычислений
  • Spark on YARN.
  • Типы stage в Spark.
  • Оптимизация операции shuffle.
  • Настройка Garbage Collection, тюнинг потребления памяти.

Часть 3. RT, NoSQL, Data layout
Вы научитесь работать с потоковой обработкой данных, познакомитесь с Kafka и Spark Structured Streaming, освоите NoSQL поверх больших данных, подружите Spark с Cassandra.

  1. Потоковая обработка данных (Kafka, Spark Structured Streaming)
  • Подходы к Realtime-обработке.
  • Гарантии обработки. Переход от одной гарантии к другой. Архитектуры «Лямбда» и «Каппа».
  • Spark Streaming vs. Spark RDD, Spark Structured Streaming vs. Spark DataFrames, DStream.
  • Архитектура Kafka, Kafka Streams, репликация в Kafka. Отличие Kafka от классических очередей.
  • Семантики доставки сообщений. Сжатие данных в kafka. Синхронная и асинхронная репликация.
  1. NoSQL поверх больших данных: Cassandra
  • Отличия Key-Value хранилищ от реляционных БД.
  • Компактификация и её виды. CQLSH.
  • Архитектура Cassandra.
  • Обеспечение надёжности и высокодоступности в Key-Value хранилищах.
  • Интеграция Spark с Cassandra.
  1. Data Layout
  • Как бороться с Data Skew с помощью MapReduce подходов в разных фреймворках.
  • Trade-off между CPU и IO-bound приложениями, подходы к сжатию в Big Data, горячие и холодные данные.
  • Форматы данных в Big Data: ORC vs Parquet, Avro, …

Преподаватели:

Алексей Драль
Генеральный директор, BigData Team
10 лет в IT (Amazon AWS, Yandex, Rambler). Преподаватель и автор учебных программ по Machine learning, Big data, CDO programs for Chief Data Officers. Руководит международным онлайн-курсом «Big Data for Data Engineers» на Coursera, совместный проект с Яндексом.

Артём Выборнов
Head of Big Data Dev, Rambler Group
Соавтор международного онлайн-курса «Big Data for Data Engineers», совместный проект с Яндексом.

Павел Клеменков
Chief Data Scientist (Data Platform), NVIDIA
Основатель комьюнити Moscow Spark. Соавтор специализации по большим данным Big Data for Data Engineers на Coursera.

Андрей Титов
Senior Spark Engineer, NVIDIA
Активный участник сообщества Moscow Spark. До перехода в NVIDIA занимался построением платформы обработки данных для SOC банка «Открытие». Большой опыт построения распределенных систем поточной обработки данных.

Те, кто успешно пройдет курс, получат Удостоверение о повышении квалификации государственного образца. Все слушатели получат электронный сертификат об окончании курса.

Отзывы:

Бекарыс Нуртай
Junior Data Scientist в ForteBank
«Лекторы просто шикарные, объясняют на пальцах. Готовы ответить на самые тупые вопросы, что намного лучше лекций в университете.»

Александр Климов
ML Engineer в Альфа-Банк
«Очень понравилось большее количество полезной, актуальной практики. Уже применяю полученный опыт в работе и пропагандирую базовое концепции обработки больших данных среди коллег. Также зачёт за отзывчивость лекторов, которые отвечали на все вопросы и были готовы помочь даже с темой, которая напрямую не касается темы лекции. Удобное время лекций. Вкусные кексики :)»

Подробнее о курсе Big Data →

Курс «Специалист по Data Science от АНО ДПО «ШАД»»

Цена: 112 000 ₽

Ссылка на сайт: https://practicum.yandex.ru/data-scientist/

  • Можно заниматься онлайн из любой точки мира
  • Python и его библиотеки, Jupyter Notebook и SQL
  • 75% курса — практика
  • После обучения помогаем трудоустроиться
  • 16 проектов в портфолио: исследования и задачи для бизнеса
  • Команда сопровождения поддержит вас в обучении.
Перейти на официальный сайт →

Что вы будете делать, когда станете специалистом по Data Science:

  • Анализировать большие объёмы данных.
  • Применять машинное обучение, чтобы предсказывать события, прогнозировать значения и искать неочевидные закономерности в данных.
  • Помогать создавать и улучшать продукты в бизнесе, промышленности и науке.

Программа курса:

  1. Основы Python и анализа данных: бесплатный вводный курс
  2. Введение в профессию «Специалист по Data Science»
  3. Базовый Python
  4. Предобработка данных
  5. Исследовательский анализ данных
  6. Статистический анализ данных
  7. Теория вероятностей. Дополнительный курс
  8. Итоговый проект первого модуля
  9. Каникулы
  10. Введение в машинное обучение
  11. Обучение с учителем
  12. Машинное обучение в бизнесе
  13. Итоговый проект второго модуля
  14. Линейная алгебра
  15. Численные методы
  16. Временные ряды
  17. Машинное обучение для текстов
  18. Каникулы
  19. Базовый SQL
  20. Компьютерное зрение
  21. Обучение без учителя
  22. Каникулы
  23. Выпускной проект.

Выпускники Практикума создают совместные проекты, нанимают студентов, проводят мастер-классы и помогают друг другу во время и после обучения.

Вы получите навыки: python и основные библиотеки, SQL, Tableau, решение бизнес-кейсов, умение учиться и взаимодействовать с командой, задавать вопросы и работать с ошибками.

По окончании обучения выдаётся Диплом о повышении квалификации.

Отзывы студентов:

Владислав Ивченко
Студент 15го на программе «Специалист по Data Science»
«Недолго я искал себе школу для получения образования. При первом взгляде на бесплатную часть программы понял, что мне это подходит. Тренажер очень удобный, материал подается с юмором и в понятной форме. Пройдя бесплатную часть я уже начал испытывать ломку без новых знаний и перешел на платный курс.
Спустя полгода обучения хочу сказать, что я не только узнал много нового и интересного, я научился на практике строить прогнозы и обучать модели. Впереди еще финальные испытания и я чувствую силы в себе закончить курс и найти себе работу по специальности 🙂
Спасибо преподавателям и кураторам за то, что сделали процесс обучения мега френдли.»

Игорь Богданов
Студент 1го потока на программе «Специалист по Data Science», куратор проектирования объектов газовой отрасли
«Недавно завершил первый модуль курса, решил написать отзыв. Меня зовут Игорь, мне 39 лет. По роду своей деятельности я сейчас курирую проектирование объектов газовой отрасли в службе заказчика. С IT отраслью никак не связан. Я пришел на курс DS, так как ощутил интерес к данному направлению и хочу дальнейшую профессиональную деятельность посвятить ему. Пока я завершил только первый модуль курса. На мой взгляд курс организован хорошо. Доступно для понимания изложена теория, регулярно проводятся онлайн-встречи с наставниками, проекты дают реализовать в какой-то мере творческий подход, опираясь на полученные знания. Благодаря наставникам узнаешь, где и что надо дополнительно учесть, как посмотреть по-другому на те или иные данные, что можно улучшить в своем коде. Какие-то темы и задания даются легче, какие-то тяжелее. Но в целом, считаю, что курс сбалансирован. Надеюсь, что по результатам обучения будет достаточно знаний для старта по специальности DS.»

Подробнее о курсе Big Data →

Курс «Наука о данных и аналитика больших объемов данных от Открытое образование»

Цена: нет информации

Ссылка на сайт: https://openedu.ru/course/spbstu/BIGDATA/

  • Длительность — 14 недель.
Перейти на официальный сайт →

Курс содержит обзорную информацию о теоретических и практических аспектах технологий, в основе которых лежат принципы получения, преобразования, распределенного хранения и обработки, а также анализа больших объемов данных. Курс направлен на подготовку квалифицированных выпускников, умеющих обоснованно и результативно использовать, разрабатывать, совершенствовать и внедрять в производстве современные технологии и инструментальные средства анализа и работы с большими объемами данных.

Курс включает 7 тем. Каждая тема включает лекционный материал, презентации, контрольные вопросы (тесты), лабораторные и самостоятельные работы. Каждая тема начинается с видеолекции.

Программа курса:

  1. Введение в большие данные: Определение больших данных и причины их появления. Примеры возможностей для бизнеса. Различие между Business Intelligence и Big Data
  2. Жизненный цикл аналитики данных: Понятие жизненного цикла аналитики данных. Роли, необходимые для успешного создания проекта по аналитике данных
  3. Высокопроизводительные вычисления: Распределенные вычисления на нескольких серверах, вычислительная парадигма MapReduce. Проект Apache Hadoop и его экосистема. Apache Spark и его компоненты. Вычисления в реальном времени, Apache Storm, Flink
  4. Масштабирование и многоуровневое хранение данных: Теорема CAP. Парадигма NoSQL. Классификация NoSQL баз данных
  5. Визуализация данных и результатов анализа: Техники визуализации данных, введение в язык R. Визуализация данных в R
  6. Сложные методы аналитики: Классификация задач анализа: Text, Data, Web, Social Mining. Применение машинного обучения в аналитике. K-means и C-means кластеризация, классификация. Логистическая регрессия, ассоциации, алгоритм Априори.
  7. Анализ текста: Поисковые механизмы: Lucene, Solr, ElasticSearch..Алгоритмы Work2Vec и Glove.

После завершения этого курса слушатели:

  • получат представление жизненном цикле аналитики данных, технологиях и средствах распределенной обработки и хранения данных, базовых методах аналитики больших объемов данных, техниках визуализации данных
  • смогут использовать типовые технологии и средства аналитики данных, такие как MapReduce, Hadoop, NoSQL, язык R
  • смогут обосновано и результативно использовать, совершенствовать, разрабатывать и внедрять современные технологии и инструментальные средства анализа и работы с большими объемами данных.
Подробнее о курсе Big Data →

Курс «Big Data Science от Сетевая Академия «Ланит»»

Цена: разная стоимость

Ссылка на сайт: https://academy.ru/catalog/big-data-science/

Перейти на официальный сайт →

Data Scientist — это специалист в области исследовании данных, который разбирается в статистике лучше, чем любой инженер-программист и намного лучше в программировании, чем любой статистик.

Специализация Big Data Science позволяет получить и расширить необходимые навыки для работы в области аналитики больших данных как для специалистов, имеющих опыт, так и для начинающих. Специализация предполагает наличие у слушателей знания статистических методов и инструментария аналитики, умение работать с большими структурированными и не структурированными данными и обладание практическими навыками использования компонент экосистемы Hadoop.

Курсы:

  1. Аналитика Больших Данных для Руководителей
  2. Архитектура Данных
  3. Безопасность озера данных Hadoop на платформе CDP
  4. Использование Apache Zeppelin
  5. Администрирование кластера Hadoop
  6. Hadoop для инженеров данных
  7. Основы Hadoop
  8. Apache Kafka для разработчиков
  9. Администрирование кластера Kafka
  10. Потоковая обработка в Apache Spark
  11. Анализ данных с APACHE SPARK STREAMING, SPARK SQL, MLLIB И GRAPHX
  12. Основы Apache Spark для разработчиков
  13. Машинное обучение в Apache Spark
  14. Графовые алгоритмы в Apache Spark
  15. Администрирование кластера HBase
  16. Интеграция Hadoop и NoSQL
  17. Greenplum для инженеров данных
  18. Hadoop SQL Hive администратор
  19. Cloudera Impala Data Analytics
  20. Практический курс Data Pipeline на Apache Airflow и Apache Hadoop
  21. Apache NiFi для инженеров данных
  22. Кластер Apache NiFi
  23. Введение в машинное обучение на Python
  24. Нейронные сети на Python
  25. Графовые алгоритмы. Бизнес-приложения.
  26. Разработка и внедрение ML-решений
  27. Визуализация данных на языке Python
  28. Подготовка данных для Data Mining на Python
  29. NLP – обработка естественного языка с Python
  30. Computer vision на Python
  31. Онлайн-марафон «Искусственный интеллект для менеджеров»
  32. Онлайн-марафон «Создай свой чат-бот за 4 урока»
  33. Анализ данных в Power BI
  34. Эксперт графовых баз данных
  35. Основы решений с использованием искусственного интеллекта в Azure.
Подробнее о курсе Big Data →

Курс «Бизнес-аналитика и системы больших данных от НИУ ВШЭ »

Цена: разная стоимость

Ссылка на сайт: https://www.hse.ru/ma/bigdata/courses

Перейти на официальный сайт →

Курсы:

  1. Python for Data Science and AI
  2. Analysis for Business Systems
  3. Decision Analysis
  4. Data Analytics and Visualization for Business
  5. Leadership and Project Team Management
  6. Big Data Based Marketing Analytics
  7. Data Science for Business
  8. Research Seminar
  9. Big Data Systems Research Seminar «Big Data: Principles and Paradigms»
  10. Big Data Systems Research Seminar “Latest trends in Data Governance, Big Data Analytics & Data Architecture»
  11. Research Seminar «Project Seminar»
  12. Neural Networks and Deep Learning
  13. Cloud Technologies
  14. Building Scoring Models Using Machine Learning Methods
  15. Predictive Modelling
  16. Applied Blockchain in the Modern Enterprise Architecture
  17. Applied Machine Learning
  18. IT Strategy Development
  19. Manufacturing Data Collection and Analytics
  20. Enterprise Architecture Perfecting.

И др.

Подробнее о курсе Big Data →

Курс «Аналитик Big Data и старт в Data Science от ProductStar»

Цена: 79 896 ₽

Ссылка на сайт: https://productstar.ru/analytics-bigdata-full-course

Освойте ключевые технологии, научитесь работать с большими данными, расширьте знания в аналитике и перейдите на новый уровень в профессии.
Инструменты: от SQL и Python до Hadoop, ETL и DWH.

  • Длительность — 12 месяцев
  • Онлайн в удобное время
  • Обучение на практике
  • Доступ к курсу навсегда.
Перейти на официальный сайт →

Чему вы научитесь:

  • Работать SQL
    Научитесь писать запросы, работать с данными в базе без переноса в таблицы, загружать данные и сохранять историю, работать с разными форматами файлов
  • Использовать Python и библиотеки анализа данных
    Автоматизировать работу с большими массивами, получать данные из внешних источников, обосновывать выводы, сделанные на основании данных
  • Строить системы анализа больших данных
    Освоите Hadoop и MapReduce. Научитесь проверять гипотезы, изучите машинные методы для обработки данных, сможете выявлять скрытые аномалии в данных и строить прогнозные модели
  • Использовать сложную математику для анализа Big Data
    Освоите необходимый математический аппарат для продуктивной работы с моделями данных, машинным обучением и нейронными сетями.

Программа курса:

120 лекций и воркшопов

Блок 1: «SQL для анализа данных»

  • Введение в блок SQL
  • Извлечение и фильтрация данных
  • Преобразование и сортировка данных
  • Группировка данных
  • Введение в базы данных
  • Объединение таблиц
  • Вложенные запросы
  • Обновление, добавление и удаление данных
  • Создание, изменение и удаление таблиц
  • Advanced
  • Обзор основных программ

Блок 2: «Python и обработка данных»

  • Введение в Python
  • Типы данных, функции, классы, ошибки
  • Строки, условия, циклы
  • Списки и словари в Python
  • Пакеты, файлы, Pandas — начало
  • Pandas: продолжение
  • Визуализация данных
  • Базы данных и статистика
  • Многопоточность
  • Веб-сервер flask и контроль версий GIt
  • Итоговый проект

Блок 3: «Построение Machine Learning моделей»

  • Знакомство с машинным обучением
  • Линейная регрессия
  • Бинарная классификация
  • Построение надежных стратегий валидации — важность локальной валидации
  • Решающие деревья
  • Бутстрап, Бэггинг и случайный лес
  • Feature Engineering, Feature Selection
  • Градиентный бустинг
  • Воркшоп: предсказание оттока клиентов и прогноз продаж
  • A/B тестирование
  • Обучение без учителя
  • Воркшоп: скоринг кредитного портфеля

Блок 4: «Нейронные сети и NLP»

  • Введение в нейронные сети
  • Обучение нейросетей
  • Глубокое обучение на практике
  • Дополнительные возможности Tensorflow + Keras
  • Свёрточные нейронные сети
  • Введение в NLP, понятие ембеддинга
  • Рекурентные нейронные сети
  • Нейросети с вниманием, трансформеры
  • Metric learning, обучение без учителя
  • Обучение с подкреплением в нейросетях

Блок 5: «Рекомендательные системы»

  • Введение
  • Метрики и бейзлайны
  • Матричное разложение
  • Рекомендации через поиск ближайших соседей
  • Гибридные рекомендательные системы

Блок 6: «Аналитика больших данных»

  • Машинные методы для обработки данных
  • Культура сбора и источники данных
  • Предобработка и визуализация данных в pandas
  • Построение прогнозных и предсказательных моделей
  • Основы работы в Hadoop и MapReduce
  • Работа в pyspark

Блок 7: «Обработка больших данных»

  • Улучшение качества работы с данными
  • Основы архитектуры хранения и обработки больших данных, виды обработки и масштабирования
  • Работа с облачными платформами: AWS, EMR, Azure
  • Продвинутые подходы в MapReduce
  • Организация команды для работы с данными. CRISP-DM

Блок 8: «Визуализация данных»

  • Сравнительный обзор основных инструментов визуализации данных
  • Основные ошибки при проектировании отчетности и визуализации данных
  • Расширенные возможности визуализации данных + практика
  • Организация хранения данных для целей анализа
  • Презентация результата команде
  • Решение бизнес-задач в команде
  • Как управлять процессами по аналитике

Блок 9: Дипломная работа и помощь с трудоустройством

  • Работа над дипломным проектом для портфолио
  • Подготовка резюме
  • Подготовка к собеседованию
  • Финальная защита и консультации.

Выпускники получают сертификат об успешном прохождении курса — что, вместе с дипломным проектом, будет хорошим аргументом при трудоустройстве.

Спикеры курса:

  • Денис Соболев
    Skyeng
  • Илья Чухляев
    OWOX
  • Чайзат Ховалыг
    Точка банк.

И др.

Подробнее о курсе Big Data →

Курс «Анализ больших данных от Финансовый Университет»

Цена: 45 000 руб. — 90​ 000 руб.

Ссылка на сайт: http://www.fa.ru/org/dpo/finprofessional/programms/Pages/ppk-17.aspx

Перейти на официальный сайт →

Цель программы – приобретение и совершенствование имеющихся компетенций необходимых для выполнения нового вида профессиональной деятельности в области машинного обучения и анализа больших данных.

Профессиональные компетенции, совершенствуемые и приобретаемые слушателями в процессе освоения программы:

  • способность к сбору информации о бизнес-проблемах или бизнес-возможностях в области больших данных.
  • овладение анализом, обоснованием и выбором решения в области больших данных.
  • способность к подготовке данных для проведения аналитических работ по исследованию больших данных.
  • способность проведения аналитического исследования с применением технологий больших данных в соответствии с требованиями заказчика.

Категория слушателей – лица, желающие освоить новый вид профессиональной деятельности в области машинного обучения и анализа данных имеющие высшее или среднее профессиональное образование.

По окончании обучения в случае успешной сдачи экзамена слушатели получают Диплом о профессиональной переподготовке.

Подробнее о курсе Big Data →

Курс «Big Data от Sergey Petrovich»

Бесплатно

Ссылка на сайт: https://www.youtube.com/playlist?list=PL15mR4o-R9Ng3Fh8Z2HpLdQeJQHSoNKcp

Перейти на официальный сайт →

Видеоуроки:

  1. Введение в машинное обучение
  2. Python
  3. Что такое BigData?
  4. OLAP: What and why?
  5. IoT and BigData
  6. Сhallenges of classification
  7. Formal Context Analysis
  8. Регрессия
  9. Хранение и анализ больших данных
  10. Deep learning.

Преимущества курса:

  • Бесплатно

Недостатки курса:

  • Нет обратной связи
  • Всего 10 уроков
Подробнее о курсе Big Data →

Курс «Big Data от ITEA»

Цена: 295 EUR

Ссылка на сайт: https://onlineitea.com/course/big-data/

Хочешь помогать бизнесу находить скрытые закономерности, прогнозировать развитие событий и оптимизировать ключевые процессы? Тогда курсы Big Data — то, что тебе нужно!

  • 12 занятий / 2 месяца.
Перейти на официальный сайт →

На курсе ты научишься:

  • Анализировать и обрабатывать большие и сверхбольшие данные в различных форматах с целью поддержки принятия решений
  • Находить шаблоны в больших и сверхбольших базах данных и массивах текста
  • Строить прогнозы с использованием современных методов и алгоритмов интеллектуального анализа данных
  • Использовать программное обеспечение для интеллектуального анализа данных в практической работе.

Твой полный план изучения Big Data:

  1. Общие сведения о интеллектуальный анализ данных (ИАД) и машинное обучение
  • Общие сведения о крупных данных и интеллектуальный анализ данных.
  • Задачи ИАД. Обзор методов ИАД и машинного обучения
  • Процесс ИАД. Подготовка данных.
  • Практическое применение ИАД.
  1. Методы и алгоритмы классификации
  • Методы построения деревьев решений. Методика «разделяй и властвуй».
  • Алгоритм покрытия. Алгоритм CART.
  • Байесовские методы классификации.
  • Построение математических функций классификации. Метод опорных векторов: линейный и нелинейный случаи.
  • Системы с нечеткой логикой. Нечетко-нейронные системы. Настройка нечетко-нейронных систем.
  • Решение практических задач классификации.
  1. Методы и алгоритмы кластеризации
  • Иерархическая кластеризация: агломеративный и дивизимный алгоритмы. Методы соседства. Понятие дендрограммы.
  • Статистические методы k-средних, ЭМ и их модификации.
  • Методы кластеризации на основе теории графов. Алгоритмы нахождения минимального покрывающего дерева. Алгоритм Борувки.
  • Алгоритм Форел и его модификации.
  • Метод самоорганизующихся карт Кохонена. Метод стохастического градиента. Интерпретация карт.
  • Анализ результатов кластеризации. Решение практических задач.
  1. Методы и алгоритмы построения ассоциативных правил. Секвенциальный анализ
  • Общие сведения. Показатели полезности ассоциативных правил.
  • Алгоритмы Apriori и FP-роста. Понятие FP-дерева (префиксного дерева).
  • Шаблоны последовательностей. Алгоритм AprioriAll.
  • Поиск ассоциативных правил в иерархиях данных. Алгоритм GSP.
  • Решение практических задач поиска ассоциативных правил и шаблонов последовательностей.
  1. Ансамбли моделей ИАД
  • Виды ансамблей. Понятие бэггинга. Смесь моделей ИАД.
  • Комбинирование результатов прогнозов, полученных моделями ИАД.
  • Методы расчета коэффициентов относительной важности (весов) моделей в ансамбле.
  • Понятие бустинга. Алгоритм AdaBoost. Обоснование бустинга. Градиентный бустинг.
  • Сравнение моделей ИАД. Оценки эффективности и ошибок моделей. Lift- и Profit-кривые. ROC-анализ.
  1. Методы и алгоритмы анализа текстовой информации (text mining)
  • Этапы text mining. Предварительная обработка документов. Выявление ключевых понятий. Аннотирование текстов.
  • Методы категоризации (рубрикации) текстов.
  • Методы поиска релевантных документов на основе множества запросов. Методы обучения ранжированию.
  • Решение практических задач text mining.

После курса Big Data у тебя будет:

  • Сертификат после окончания обучения в соответствии с успеваемостью
  • Доступ к материалам и записям занятий в течение года в личном кабинете на удобной платформе
  • Возможность присоединиться к ITEA community
  • Портфолио с проектами и работами
  • Поддержка с трудоустройством
  • Яркий опыт работы с профессиональными инструментами.

Отзывы студентов:

Максим Левин
«Рекомендую академию! Высокий уровень подготовки выпускников, которые могут занять лидирующие позиции на рынке труда Украины. Нескольких ребят удалось трудоустроить в продуктовую компанию».

Евгений Дидковский
«Окончил несколько курсов ИТЕА за последние 2 года. Некоторые курсы были более поверхностны, несколько окончил последовательных из более конкретных профилей. Материалы оптимально структурированы, и преподаватели помогают практически с любыми вопросами. Если вопрос более комплексный, подскажут, где копать дальше:) Также была очень полезна поддержка по завершению курсов. Направлений я закончил несколько и по каждому регулярно получал возможные вакансии. Некоторые ориентированы на более начальный уровень, были также те, которые можно рассмотреть уже с опытом для следующего шага в карьере. Спасибо команде ИТЕА за обучение и сопровождение 😉».

Подробнее о курсе Big Data →

Курс «Специалист по Big Data от Академия АйТи»

Цена: 41 999 ₽

Ссылка на сайт: https://academyit.ru/courses/pp_bigdata/

Перейти на официальный сайт →

Специалист по Big Data – это программист, который работает с большими массивами данных разной степени разрозненности и структурированности: банковские счета, запросы пользователей в поисковых системах, поведение пользователей социальных сетей, публикации СМИ, открытые фото- и видеофайлы, данные сейсмической активности планеты, метеорологические сводки и другие данные, которые занимают терабайты памяти, превосходят возможности типичных баз данных и доступны для обработки только компьютером.

Чем занимается специалист по Big Data и специалист по машинному обучению:

  • Постановка целей анализа совместно с заказчиком
  • Составление технического задания на анализ неструктурированного массива данных
  • Сбор и исследование массива данных, выявление существенных признаков, поиск закономерностей
  • Компьютерное моделирования процесса анализа / машинного обучения на небольших объемах данных
  • Оптимизация процесса анализа, корректировка алгоритмов
  • Применение алгоритмов ко всему объему данных
  • Оценка результатов
  • Составление отчетов с прогнозами и презентацией данных.

Целевая аудитория:

  • Программисты
    Подтянете аналитическое и алгоритмическое мышление, научитесь выявлять потребности бизнеса. Получите опыт работы с моделями машинного обучения, будете применять Python для решения задач с данными.
  • Начинающие аналитики
    Научитесь выдвигать гипотезы и делать выводы на основе данных. Сможете писать код на Python, превращать сырые данные в полезную информацию, понимать математику на основе статистики, обучать машины и прогнозировать результаты.
  • Новички
    С нуля освоите Python, научитесь собирать и анализировать данные, получите необходимый теоретический минимум по математике, теории вероятности и статистике.

После изучения курса слушатели будут:

  • знать методы анализа больших данных на всех этапах жизненного цикла методологической и технологической инфраструктуры в организации;
  • уметь загружать данные из разных источников;
  • собирать, очищать, подготавливать и объединять полученные данные;
  • производить сцепление и наложение данных, слияние и замену значений;
  • работать с пропущенными значениями, повторами, объединением и переформированием данных;
  • осуществлять фильтрацию, группировку, агрегацию и выполнять описательную статистики
  • вычислять центральную тенденции, среднее, медиану и моду;
  • выполнять разведывательный анализ, вычислять дисперсию, стандартное отклонение, ковариации, корреляции, строить распределение и заниматься постановкой гипотез
  • применять методы и технологии исследования больших данных;
  • владеть навыками разработки продуктов, услуг и решений на основе больших данных;
  • анализировать большие данные с использованием существующей в организации методологической и технологической инфраструктуры.

Программа:

Модуль 1. Базовый модуль: Основы программирования и составления алгоритмов на языке Python

  1. Алгоритм – свойства и способы представления. Типы данных – назначение и роль в программе. Операнды и операторы – вычисление выражений
  2. Модели разработки программ. Структурное программирование. Базовые принципы: блочная структура кода – блоки и подпрограммы. Типовые структуры управления – последовательность, ветвление, цикл
  3. Соcтавление алгоритмов. Применение машинной логики к задачам поиска данных. Оценка времени работы алгоритмов, эффективность кода
  4. Практические примеры составления блок-схем и псевдокода. Простейшие алгоритмические задачи. Перевод алгоритма в код. Подпрограммы (функции) как основные блоки кода. Типовые задачи на обработку текста
  5. Понятие массива. Типовые задачи с массивами: доступ к элементу, обход элементов, инициализация элементов
  6. Простейшие конструкции данных: список, стек, очередь, дерево. Поиск элемента и сортировка элементов. Реализация динамического стека
  7. Установка интерпретатора Python. Основные операции и типы данных. Операторы ветвления и циклы. Установка и запуск среды разработки. Типы данных: числа, строки, списки, логический тип, None. Функции преобразования типов. Простой ввод и простой вывод
  8. Cтроки. Методы и функции. Использование срезов. Кортеж. Основные операции с кортежем. Распаковка кортежа. Список. Основные операции со списком. Словарь. Основные операции со словарем. Множества. Основные операции с множеством
  9. Ветвления. Оператор if. Базовая форма цикла while. Операторы break и continue. Перебор (for). Генераторы словарей, списков, множеств

Модуль 2. Профильный модуль: Расширенные возможности Python

  1. Функции, Работа с файлами, Модули и библиотеки. Исключения и обработка ошибок
  2. Создание и вызов функции. Именованные и неименованные аргументы функций
  3. Работа с файлами и каталогами. Основные операции с файлами. Основные операции с путями к файлам. Чтение файла. Запись в файл. Менеджер контекста with
  4. Импорт пакета. Важнейшие стандартные пакеты. Подсистема pip. Установка стороннего модуля
  5. Понятие об исключении. Выброс исключения. Перехват исключения. Стандартные исключения
  6. Работа с данными из внешних источников. Работа с реляционными базами данных. Реляционные базы данных – принципы организации и работы. Нормализация БД – декомпозиция таблиц. SQL-запросы для типовых операций с таблицами. Практика. Работа с SQLite в Python. Интерфейс модуля SQLite3. Создание и заполнение таблиц. Выборка информации из таблиц
  7. Классы и объекты. Введение в Объектною-ориентированное программирование (ООП). Класс и экземпляр класса. Данные экземпляра, методы экземпляра и свойства экземпляра. Создание собственного класса. Инкапсуляция. Атрибуты класса. Чтение и изменение атрибута
  8. Наследование. Роль наследования в ООП, понятие иерархии наследования. Принцип утиной типизации. Понятие базового класса и производного класса. Функция isinstance и ее применение. Создание производного класса. Применение экземпляров базового и производного класса

Модуль 3. Профильный модуль: Data Science. Обработка, анализ и визуализация данных на языке Python. Библиотеки pandas, numpy, matplotlib и seaborn

  1. Установка и настройка программного обеспечения. Базовый инструментарий работы в Jupyter notebook. Импорт пакета. Важнейшие стандартные пакеты. Подсистема pip. Установка стороннего модуля. Обзор библиотек и инструментов. Необходимые пакеты Python: numpy, pandas, matplotlib, seaborn, Jupyter и другие. Дистрибутив Anaconda, его преимущества и недостатки. Установка пакетов в Linux. Установка пакетов в Windows. Возможные проблемы и методы их решения. Основные команды и методы работы в Jupyter notebook
  2. Библиотека numpy. Вычислительные задачи. Структура библиотеки. Типы данных библиотеки numpy. Векторы и массивы, специальные типы данных. Понятие массива и его основные характеристики. Принципы вычислений. Универсальные функции. Важнейшие стандартные функции. Работа с массивами и матрицами
  3. Библиотека pandas и анализ данных. Объект Series. Объект DataFrame. Загрузка данных. Выгрузка данных. Чтение и запись данных в формате Excel. Чтение и запись JSON-файлов. Загрузка данных из интернета и из базы данных SQL. Загрузка CSV-файлов из Интернета. Основы работы с датафреймами. Организация колонок и строчек. Создание срезов объекта Series. Выравнивание данных по меткам индекса. Выполнение логического отбора. Переиндексация объекта Series
  4. Первичная обработка данных. Сбор данных. Очистка данных. Подготовка данных. Объединение данных. Сцепление и наложение. Слияние данных. Замена значений. Работа с пропущенными значениями и их заполнение. Повторы в данных. Объединение и переформирование данных
  5. Статистика и анализ. Фильтрация. Группировка. Агрегация. Описательные статистики. Получение итоговых описательных статистик. Измерение центральной тенденции: среднее, медиана и мода. Вычисление дисперсии и стандартного отклонения. Вычисление ковариации и корреляции. Распределения. Разведывательный анализ. Постановка гипотезы
  6. Библиотека matplotlib. Визуализация данных. Основные элементы диаграммы. Создание диаграммы. Виды графиков и диаграмм. Оформление и кастомизация графиков. Библиотека seaborn. Наглядная визуализация сложных данных. Виды графиков, их корректное использование и интерпретация. Принципы хорошей визуализации, основные ошибки при визуализации данных График функции. Гистограмма. Визуализации отфильтрованных и сгруппированных данных.

По окончании обучения Вы получите Диплом о профессиональной переподготовке.

Подробнее о курсе Big Data →

Курс «Big Data от EcoAcademy»

Цена: нет информации

Ссылка на сайт: https://ecoacademy.econophysica.ru/courses/big-data-/

  • Формат — очный
  • Длительность — 16 часов
  • По завершенииудостоверение.
Перейти на официальный сайт →

Этот курс направлен на то, чтобы помочь слушателям определиться в выборе технологий обработки данных, отвечающих особенностям их предметной области, познакомить их с новыми возможностями, а также предостеречь от распространённых ошибок в реализации хранилищ данных.

Программа курса:

  1. Особенности Big Data
  • 2 типа больших данных
  • теорема CAP
  • Volume, Variety, Veracity, Velocity
  • принцип AAA
  1. Обзор инструментов обработки Big Data
  • хранилища (Hadoop, ElasticSearch, Cassandra, MongoDB, CouchDB)
  • инструменты сбора данных (Flume, LogStash, Kafka)
  • инструменты подготовки данных (OpenRefine, DataCleaner)
  • инструменты визуализации данных (Kibana, Matplotlib, Tableau)
  • инструменты обработки данных (Python, R, MLLib)
  1. Введение в стек ELK
  • Logstash
  • ElasticSearch
  • Kibana
  1. Визуализация больших данных
  • введение в визуализацию данных
  • особенности визуализации больших данных
  • Kibana
  • Matplotlib
  1. Введение в экосистему Hadoop
  • HDFS
  • Pig
  • Spark
  • MLLIB
  1. Введение в машинное обучение
  • современное состояние
  • обучение с учителем
  • обучение без учителя
  1. Практика (Основы работы с Hadoop)
  • HDFS
  • Pig
  • Spark
  • Sqoop
  1. Практика (Введение в машинное обучение)
  • scikit-learn
  • MLLIB
  1. Итоговый экзамен «Big Data».

По окончании обучения Вы получите удостоверение о повышении квалификации или сертификат о прохождении обучения.

Подробнее о курсе Big Data →

Курс «Вводный курс по Big Data: методология и технология компьютерных решений от StatSoft Russia»

Цена: нет информации

Ссылка на сайт: http://statsoft.ru/academy/courses/big-data/detail.php?ELEMENT_ID=1820

  • Длительность курса — 8 академических часов, курс разбивается на 2 рабочих дня.
Перейти на официальный сайт →

Этот курс для тех, кто хочет понять и использовать технологии Big Data для решения конкретных прикладных задач в маркетинге, телекоме, энергетике, промышленности, транспорте.

Программа курса:

  1. Вводный обзор: что такое Big Data и для чего нужен
  • С каких объемов начинается Big Data
  • Реляционные и нереляционные базы данных
  • Потоки данных
  1. Обзор реляционных баз данных
  2. SQL-сервер: основные принципы, примеры
  3. NoSQL базы данных: обзор, примеры
  4. Предметно-ориентированные информационные базы данных Data Warehausig
  5. MapReduce: методология и технология распределенных вычислений
  • Этап Map – предварительной обработки
  • Этап Reduce – свертки результатов
  • Примеры функций
  1. Введение в Hadoop:
  • Основные принципы Hadoop
  • Компоненты Hadoop
  • Работа с нереляционными данными
  • Примеры использования
  • MapReduce в Hadoop
  • Надстройки Hive и Pig
  1. Hadoop 2.0
  2. Обработка данных в реальном времени (Storm, Spark, Impal)
  3. Массово-параллельная структура — Massive Parallel Processing:
  • Масштабирование реляционных баз данных
  • Параллельное выполнение запросов к БД
  • Архитектура Hub and Spoke
  1. Вычисление дескриптивных статистик для больших объемов данных (частоты, средние, стандартные отклонения, медианы, квартили)
  2. Data Mining и Big Data
  • Кластеризация, сегментация, алгоритмы к-средних, EM — Expectation-maximization
  • Иерархическая кластеризация
  • Классификация данных
  • Предиктивный анализ
  • Регрессионные деревья
  • Правила ассоциаций
  • Machine learning
  1. Технологии Big Data
  2. Примеры: маркетинг, телеком, энергетика, промышленность, транспорт
  3. Вопросы и ответы
  4. Обсуждение задач слушателей.
Подробнее о курсе Big Data →

Курс «Большие данные (Big Data) на службе компании от ФинКонт»

Цена: от 3 500 рублей за ак. час

Ссылка на сайт: https://www.fcaudit.ru/training/all/biznes-analitik-seminar-v-moskve/

Программа представляет собой краткий обзор необходимых теоретических знаний в области больших данных, однако основное внимание программы сфокусировано на практическом применении Big Data в организации с целью увеличения эффективности бизнеса. Программа включает практикум в компании «Сбербанк».

  • По итогам обучения слушатели, успешно прошедшие итоговую аттестацию по программе, получают Удостоверение о повышении квалификации.
Перейти на официальный сайт →

Цели семинара/курса:

  • Получить практические навыки работы с инструментарием, в котором используются большие данные.
  • Применить новые методы и практики из российского и зарубежного опыта работы с большими данными (сбор, хранение, анализ и применение).
  • Выявить скрытые конкурентные возможности для Вашей компании на основе анализа Big Data.
  • Разработать дорожную карту по увеличению среднего чека на одного клиента в Вашей компании при использовании больших данных.
  • Создать систему менеджмента Big Data в вашей компании.
  • Построить модели на основе Big Data под руководством экспертов компании «Сбербанк».

Программа:

  1. Введение. Цифровая трансформация бизнеса, ее значение в эпоху жестких конкурентных войн. Понятие Big Data, чем Big Data отличается от Small Data. Сферы применения Big Data в компании:
  • Маркетинг: анализ поведения потребителя и на его основе формирование уникального предложения.
  • Измерение, контроль, моделирование, оптимизация бизнес-процессов и производства.
  • Управление человеческими ресурсами (поиск талантов, формирование кадрового резерва, вычленение «слабого» звена).
  • Управление складскими запасами и логистической цепочкой.
  • Анализ деятельности конкурентов.
  1. Большие данные — новая отрасль российского рынка. Рынок больших данных. Стратегия развития больших данных до 2024 года. Отраслевые кейсы создания добавленной стоимости на основе данных.
  2. Принятие бизнес-решений на основе данных. От вопроса «Что мы думаем?» к вопросу «Что мы знаем?», «Что говорят нам данные?». Создание единой системы работы с данными в компании.
  3. Практикум: как заработать на своих данных.
  4. Основные понятия, которые используются в Big Data.
  5. Источники данных. Извлечение данных из открытых источников (в том числе социальных сетей).
  6. Инструменты для работы с большими данными: список ПО, модели, платформы. Hadoop. Какое программное решение выбрать среднему и крупному бизнесу.
  7. Анализ больших данных. Процессы накопления, извлечения, анализа, моделирования. Визуализация больших данных.
  8. Ключевые роли и эксперты для работы с большими данными. Где искать специалистов?
  9. Правовые аспекты работы с большими данными. Защита персональных данных.
  10. Big Data Lab. Лабораторный практикум для руководителей.
  11. Практикум с большими данными в Excel.
  12. Примеры моделирования на платформе.
  13. Кейсы компаний крупного и среднего бизнеса, которые имеют стандартные данные (покупка дополнительных данных у операторов связи, зарплатные проекты).
Подробнее о курсе Big Data →

Курс «Big Data от Softline»

Цена: нет информации

Ссылка на сайт: https://edu.softline.by/courses/big_data.html

  • Продолжительность: 12 дня / 36 ак. часов.
Перейти на официальный сайт →

Цель курса — формирование реальных навыков в анализе, обработке, поиске шаблонов и построении прогнозов на основе данных.

В результате прохождения курса студенты овладеют современными методами и алгоритмами теории интеллектуального анализа больших данных и машинного обучения.

После курса вы сможете:

  • анализировать и обрабатывать большие и сверхбольшие данные в различных форматах с целью поддержки принятия решений
  • находить шаблоны в больших и сверхбольших базах данных и массивах текста
  • строить прогнозы с использованием современных методов и алгоритмов интеллектуального анализа данных;
  • использовать программное обеспечение для интеллектуального анализа данных в практической работе.

Программа курса:

  1. Общие сведения о интеллектуальный анализ данных (ИАД) и машинное обучение
  • Общие сведения о крупных данные и интеллектуальный анализ данных.
  • Задачи ИАД. Обзор методов ИАД и машинного обучения
  • Процесс ИАД. Подготовка данных.
  • Практическое применение ИАД.
  1. Методы и алгоритмы классификации
  • Методы построения деревьев решений. Методика «разделяй и властвуй».
  • Алгоритм покрытия. Алгоритм CART.
  • Байесовские методы классификации.
  • Построение математических функции классификации. Метод опорных векторов: линейный и нелинейный случаи.
  • Системы с нечеткой логикой. Нечетко-нейронные системы. Настройка нечетко-нейронных систем.
  • Решение практических задач классификации.
  1. Методы и алгоритмы кластеризации
  • Иерархическая кластеризация: агломеративного и дивизимний алгоритмы. Методы соседства. Понятие дендрограммы.
  • Статистические методы k-средних, ЭМ и их модификации.
  • Методы кластеризации на основе теории графов. Алгоритмы нахождения минимального покрывающего дерева. Алгоритм Борувка.
  • Алгоритм Форел и его модификации.
  • Метод самоорганизующихся карт Кохонена. Метод стохастического градиента. Интерпретация карт.
  • Анализ результатов кластеризации. Решение практических задач.
  1. Методы и алгоритмы построения ассоциативных правил. Секвенциальный анализ
  • Общие сведения. Показатели полезности ассоциативных правил.
  • Алгоритмы Apriori и FP-роста. Понятие FP-дерева (префиксного дерева).
  • Шаблоны последовательностей. Алгоритм AprioriAll.
  • Поиск ассоциативных правил в иерархиях данных. Алгоритм GSP.
  • Решение практических задач поиска ассоциативных правил и шаблонов последовательностей.
  1. Ансамбли моделей ИАД
  • Виды ансамблей. Понятие беггинга. Смесь моделей ИАД.
  • Комбинирование результатов прогнозов, полученных моделями ИАД.
  • Методы расчета коэффициентов относительной важности (весов) моделей в ансамбле.
  • Понятие бустинга. Алгоритм AdaBoost. Обоснование бустинга. Градиентный бустинг.
  • Сравнение моделей ИАД. Оценки эффективности и ошибок моделей. Lift- и Profit-кривые. ROC-анализ.
  1. Методы и алгоритмы анализа текстовой информации (text mining)
  • Этапы text mining. Предварительная обработка документов. Выявление ключевых понятий. Аннотирование текстов.
  • Методы категоризации (рубрикации) текстов.
  • Методы поиска релевантных документов на основе множества запросов. Методы обучения ранжирование.
  • Решение практических задач text mining.

Сертификат Учебного центра об окончании курса и справка об обучении установленного образца.

Подробнее о курсе Big Data →
Поделиться с друзьями
blank
Сергей Савин

Высшее образование в сфере «Образование и педагогика», работал учителем математики с 2006 по 2014 год. Эксперт по выбору профессии и курсов с 2018 года. Изучаю отзывы о курсах, онлайн-школах, колледжах и институтах, составляю ТОП-рейтинги.

Оцените автора
Савин.Инфо