ТОП-25 лучших курсов Big Data: обучение онлайн, бесплатные и платные в 2023 году

Big Data — это область науки, которая занимается обработкой, хранением и анализом больших объемов данных. В этой области много востребованных профессий, таких как аналитики данных, инженеры данных, специалисты по машинному обучению и т.д.

На курсах Big Data можно научиться работе с различными инструментами и технологиями, которые используются для обработки и анализа больших объемов данных. В частности, можно изучить язык программирования Python и его библиотеки для анализа данных (например, NumPy, Pandas, Matplotlib), технологии хранения данных (например, Hadoop, Spark, NoSQL), а также основы машинного обучения и анализа данных.

Лучшие курсы:

1 место. Курс «BIG DATA с нуля от Нетология»

Цена курса: 24 850 ₽ или рассрочка на 12 месяцев — 2 070 ₽ / мес

Ссылка на сайт: https://netology.ru/programs/big-data#!

Усвойте навыки работы с крупными объемами данных. Расширьте свои знания в области аналитики и перейдите на новый профессиональный уровень.

Обучение проводится в формате видеолекций, вебинаров и выполнения практических заданий.
Подходит для всех, кто готов повышать свою грамотность в IT-технологиях.
Выдается сертификат установленного образца о повышении квалификации.

Перейти на официальный сайт →

Big Data — это совокупность инструментов, подходов и методов обработки огромных объемов данных. Она является альтернативой традиционным системам обработки данных.

Курс по Big Data поможет вам расширить свои профессиональные навыки, работать с новыми задачами и быстро достигать результатов в проектах. Если вы хотите расширить свой кругозор в области технологий обработки данных или необходимо повысить свой уровень на текущем месте работы, то этот курс для вас.

Зачем изучать Big Data?

Улучшение профессиональных навыков
Вы получите возможность улучшить свои навыки в области аналитики данных и понимания, зачем и где нужна Big Data, а также сможете рассмотреть новые траектории развития карьеры и работать над более сложными проектами.
Расширение кругозора
Курс поможет вам расширить свой кругозор и освоить технологии для перехода на уровень middle, а также быстрее выполнять рабочие задачи.
Переход в новую область
Курс даст вам ключевые технологии и навыки для старта погружения в самую горячую профессиональную область. Вы получите практику, которую можно включить в резюме.

Что вы узнаете на курсе?

Как создавать и управлять командой проектов Big Data
Вы овладеете подходом CRISP-DM, межотраслевым стандартным процессом для исследования данных. Вы сможете определить компетенции и состав команды.
Как создавать стратегию обработки больших объемов данных
Вы научитесь определять объемы данных, необходимые для нахождения инсайтов, и находить задачи, связанные с Big Data в своей компании.
Как улучшить результаты обработки данных
Вы узнаете, как и по каким правилам хранить данные, а также сможете обосновать влияние на сбор данных, мониторинг и отчетность.

В ходе курса предусмотрена следующая практика:

Интенсивные уроки и практика вместе с экспертами отрасли, занимающие более 8 часов в неделю.
9 необходимых инструментов для работы с большими данными, которые будут изучены.
Домашние задания с проверкой и обратной связью от преподавателей курса.
Лабораторная работа начиная с загрузки данных и заканчивая построением модели.
Работа в команде с экспертом для имитации работы над проектом на удаленке.
Выполнение дипломного проекта, в рамках которого будет создана работающая модель классификации данных.

Содержание курса:

Аналитика больших данных
Аналитик данных часто нужен компаниям, которые имеют свою собственную Big Data. Для понимания, как она может приносить пользу бизнесу, необходимо владеть не только стандартными инструментами, такими как Excel и SQL, но и знать принципы обработки, характерные только для больших данных, а также понимать экосистему Hadoop и облачные платформы для решений по Big Data. В рамках курса мы не только поговорим об этом, но и попрактикуемся работать с основными инструментами:

Традиционные аналитические подходы. Причины выбора Big Data среди многообразия подходов.
Машинные методы для обработки данных. Как перестать реагировать и начать прогнозировать.
Культура сбора и источники данных. Дорожная карта и главное правило аналитика.
Предобработка и визуализация данных в pandas для отчетности на примере международного ритейлера.
Улучшение качества работы с данными. Основы архитектуры хранения и обработки больших данных, виды обработки и масштабирования.
Основы работы в Hadoop и MapReduce. Обзор облачных платформ: AWS, EMR, Azure и прочих.
Продвинутые подходы в MapReduce. Работа в pyspark, доступная каждому.
Организация команды для работы с данными. CRISP-DM.

Итоговый проект
В итоговом проекте вы примените полученные знания и навыки для решения задачи предсказания: создадите работающую модель классификации, опишете найденные в данных инсайты, разработаете стратегию внедрения хранилища данных и работы с большими данными в реальной компании. Сформулируете цели проекта внедрения больших данных и ключевые метрики, на которые будете влиять с их помощью.
Итоговая работа выполняется самостоятельно под руководством экспертов курса и закрепляет весь спектр знаний и навыков, полученных на программе. Она поможет систематизировать рабочий опыт и станет хорошей отправной точкой для дальнейшего развития в сфере аналитики больших данных.

Преподаватель курса – Алексей Кузьмин
Директор разработки и руководитель Data Science и работы с данными, «ДомКлик».

Вашу квалификацию подтвердят документы установленного образца.

Подробнее о курсе Big Data →

2 место. Курс «Факультет аналитики Big Data от GeekBrains»

Стоимость курса: Рассрочка до 36 месяцев — от 5 191 ₽ / мес

Ссылка на сайт: https://gb.ru/geek_university/big-data-analytics

По окончании обучения вы научитесь собирать и анализировать данные, извлекать полезную информацию и находить закономерности. Вы сможете проверять гипотезы и помогать бизнесу принимать обоснованные решения. Курс длится 15 месяцев и включает возможность трудоустройства через 9 месяцев после начала обучения. Он подходит для тех, кто хочет начать карьеру в IT-сфере.

Перейти на официальный сайт →

Аналитик Big Data занимается извлечением ценной информации из больших объемов данных, таких как отзывы, прогнозы и результаты исследований. Он помогает бизнесу принимать обоснованные решения, строить гипотезы, запускать продукты, улучшать процессы и планировать развитие.

Курс подойдет следующим группам людей:

Новичкам: даже если вы никогда не работали в IT-сфере, после прохождения курса вы сможете стать специалистом по анализу больших данных.
Начинающим аналитикам: курс предоставит вам все необходимые знания и опыт работы с продвинутыми инструментами, методологиями и стандартами для ускоренного карьерного роста.
Практикующим IT-специалистам: курс поможет вам перейти в востребованное направление и зарабатывать больше.

Программа курса включает следующие этапы:

Базовый блок (3 месяца): введение в IT-сферу, изучение прикладной математики, познакомление с профессиями в разработке, популярными языками программирования и получение базовых навыков.

Введение в программирование
Математика и информатика
Введение в контроль версий
Знакомство с языками программирования
Основы языка Python
Введение в базы данных

Аналитика (9 месяцев): получение фундаментальных знаний в анализе данных, освоение основных инструментов, проектирование и работа с базами данных.

Теория вероятностей и математическая статистика
A/B-тестирование
Основы анализа данных в Excel
Базы данных и SQL
Введение в BI
Введение в веб-аналитику
Python для аналитиков
Введение в Data Science
Профориентация и выбор аналитической специализации, карьерное консультирование

Аналитик Big Data (3 месяца): изучение инструментария аналитика big data, получение практических навыков на основе выполненных проектов и знаний, необходимых для успешного старта в профессии.

Big Data. Введение в экосистему Hadoop
Big Data. Системы машинного обучения
Big Data. Фреймворк Apache Spark.

Кроме того, курсы со свободной датой старта включают в себя:

Умение учиться
Гибкие методологии
Основы Jira и Confluence GU
Знакомство с web-технологиями.

Вас будут обучать топовые эксперты:

Иван Максимов
Data Scientist в Delivery Club
Работал 2 года в PwC Data & Analytics Lab и 1,5 года в ML Research Group. Среди проектов — рекомендательные системы для ритейла, оптимизация маркетинговых кампаний на основе машинного обучения, поиск оптимальной геолокации для новых точек продаж. Выпускник факультета анализа данных Сколтеха.

Андрей Деканович
Big Data cluster administrator в МегаФон
Писал код на множестве языков, потом занялся программированием для баз данных и в итоге стал администратором кластеров Big Data. Окончил Новосибирский государственный технический университет в 2002 году.

Екатерина Колпакова
Ведущий системный аналитик в DWH рекламных технологий Mail.ru Group.
Преподаватель открытого курса «Проектирование хранилищ больших объёмов данных» в Технопарке Mail.ru при МГТУ им. Н. Э. Баумана.

Артем Зраев
Data scientist в игровой студии Creative Mobile
Создает внутриигровые системы рекомендаций и автоматизирует распределение бюджетов рекламных кампаний. До этого строил поведенческие профили пользователей в Mail.ru Group и прогнозировал отток клиентов в МТС. Преподаватель в МГУ.

По окончании курса вам будет выдан диплом о профессиональной переподготовке. Этот официальный документ подтвердит вашу компетенцию в области Data Science и будет служить показателем для работодателей того, что вы имеете необходимые знания и опыт, подкрепленный выполнением проектов в вашем портфолио.

Плюсы курса:

Обучение на практике
Полноценная программа обучения
Документ об образовании

Минусы курса:

Не найдено

Подробнее о курсе Big Data →

3 место. Курс «Аналитик данных с нуля от Skillbox»

Цена: Рассрочка на 22 месяца — 4 711 ₽ / мес

Ссылка на сайт: https://skillbox.ru/course/data-analyst/

В рамках курса вы освоите навыки работы с различными сервисами аналитики и BI-инструментами, научитесь использовать Python и SQL для анализа данных и создания прогнозов, а также сможете помогать бизнесу принимать обоснованные решения.

Программа курса включает:

Практические задания с использованием SQL, Power BI и Python
Выступления спикеров с более чем 10-летним опытом работы
Бонусный курс по Power Point для всех участников
Гибкий график онлайн-занятий, позволяющий выбирать удобное время для обучения.

Перейти на официальный сайт →

Данный курс подойдет для:

Студентов технических вузов, которые за короткий период времени хотят получить специализацию и начать карьеру в аналитике на Junior-позиции.
Руководителей и владельцев бизнеса, которые хотят узнать о своем продукте больше, и сделать прогнозы для развития продукта, используя анализ данных.
Разработчиков, которые хотят сменить профиль и изучить инструменты для анализа, сборки и презентации данных, чтобы стать востребованным специалистом.
Бизнес-аналитиков, которые хотят расширить свои компетенции и узнать основы программирования на Python, а также работать с базами данных и Power BI, создавать эффективные презентации и решать текущие задачи лучше.

Вы научитесь:

Проводить исследования и делать точные выводы, находить закономерности в цифрах.
Использовать программирование в анализе данных, освоите Python для решения базовых бизнес-задач и научитесь собирать и управлять базами данных на SQL.
Строить гипотезы и оценивать перспективы бизнес-решений, а также понимать, какие метрики эффективности использует бизнес, как их собирать и строить прогнозы.
Работать с сервисами аналитики и дашбордами, использовать Яндекс.Метрику и Google Analytics для сбора данных в одном окне.
Делать развернутые аналитические отчеты, использовать инструменты для визуализации данных и таблицы Google и Excel, формировать отчеты для клиентов.
Работать с заказчиками аналитики, обрабатывать различные типы аналитических запросов от бизнеса и презентовать результаты своей работы для коллег.

Вы получите диплом о профессиональной переподготовке, подтверждающий ваши знания в области аналитики данных и выполненных проектов в вашем портфолио.

В рамках данного курса будет представлено множество онлайн-лекций и практических заданий различной сложности, которые помогут вам получить достаточно знаний, чтобы претендовать на должность junior-аналитика данных в компании.

Курс состоит из 45 тематических модулей и содержит 230 видеоматериалов, и включает в себя следующие разделы:

– Часть 1: Введение. Excel, Google Таблицы

Общая информация о курсе
Источники данных и инструменты для анализа
Введение. Интерфейс Excel. Книги и листы
Анализ таблиц. Печать таблиц
Сводные таблицы
Вычисления и формулы. Умные таблицы
Функции подсчёта и суммирования. Статистические функции. Функции округления
Логические функции
Основы, интерфейс Google Таблиц
Сводные таблицы: основы

– Часть 2: Python, библиотеки NumPy и Pandas

Введение в Python
Основы языка
Операторы, выражения
Условный оператор if: ветвления
Условный оператор if: продолжение
Цикл while
For: циклы со счётчиком
Цикл for: работа со строками
Вложенные циклы
Цикл for: продолжение работы со списками
Функции
Float
Установка и настройка IDE
Базовые коллекции: списки
Методы для работы со списками
Представление списков
Библиотека NumPy
Библиотека Pandas

– Часть 3: SQL, чтение и запись данных, Power BI

Основы SQL
Чтение и запись данных
Введение в статистику
Знакомство с Big Data
Основные метрики и системы аналитики (Я.Метрика и Google Analytics)
Загрузка данных в Power BI
Соединение данных из разных таблиц и ресурсов.
Power Point (бонусный курс)

– Дополнительно предлагается бонусный курс по работе с PowerPoint, который включает в себя следующие разделы:

Интерфейс PowerPoint. Создание и редактирование слайдов
Работа со стилем презентации: единый стиль, цвет и шрифт, форматирование текста
Работа с фигурами, таблицами и изображениями
Расширенные возможности редактирования и дизайна
Печать, презентация и публикация
Keynote и PowerPoint

– Итоговый проект данного курса будет состоять в анализе результатов A/B-тестирования в компьютерной игре. Вы будете оценивать эффект внутриигровой акции и делать выводы о том, стоит ли проводить такую активность внутри игры в будущем.
Общий объем материалов в этом курсе позволит вам изучить анализ данных с нуля и подготовиться к работе junior-аналитиком данных. Он предназначен как для начинающих, так и для тех, кто уже имеет некоторый опыт в области анализа данных и хочет расширить свои знания.

Спикеры:

Павел Булавин
Начальник отдела развития данных в банке «Открытие»

Александр Джумурат
Руководитель команды разработки рекомендательной системы в ivi

Алла Тамбовцева
Преподаватель НИУ ВШЭ
Ведёт курсы по статистике, анализу данных и программированию на языках R и Python. Опыт преподавания — больше 7 лет.

Михаил Овчинников
Ведущий инженер-программист в Badoo
Специалист в области разработки высоконагруженных систем и обработки больших данных. Докладчик крупнейших IT-конференций России. Более 15 лет опыта в IT — от стартапов до крупных компаний.

Отзывы об обучении в Skillbox доступны на сайте.

Сертификат Skillbox
Подтвердит, что вы прошли курс, и станет дополнительным аргументом при устройстве на работу.

Подробнее о курсе Big Data →

Курс «Big Data для менеджеров от SkillFactory »

Цена: Рассрочка на 12 месяцев — 9 250 ₽ / мес

Ссылка на сайт: https://skillfactory.ru/big-data-dlya-menedzherov

Курс «Big Data для менеджеров, руководителей департаментов и собственников бизнеса» научит вас использовать мощь больших данных и искусственного интеллекта для трансформации вашего подразделения или компании. Обучение проходит онлайн и длится 6 месяцев.

Перейти на официальный сайт →

Управление Big Data и искусственным интеллектом — это специализированная область, которая требует не только технических навыков программирования и знаний математики, но и высокоуровневого понимания технологий и умения видеть возможности для роста и трансформации. Курс поможет вам освоить основы технологии Big Data, необходимые для менеджеров и управленцев, а также разобраться с кейсами, которые помогут решить вашу собственную рабочую задачу.

Обучение на курсе проходит по следующей программе:

Основы Big Data и машинного обучения:

Теория и основные термины
Модели машинного обучения
Работа с данными: как собирать и хранить
Анализ и обработка данных.

Работа менеджера проектов в области Big Data:

Внедрение Big Data в бизнес-процессы
Технологии искусственного интеллекта для бизнеса
Как собрать команду для работы с искусственным интеллектом
Ведение проектов с использованием искусственного интеллекта.

Специальные знания в управлении проектами по Big Data:

Big Data с юридической точки зрения
Презентация проекта
Как разработать проектное предложение.

Данный курс поможет вам научиться работать с большими данными и искусственным интеллектом, а также применять их в вашей работе, повышая эффективность и результативность бизнес-процессов.

После прохождения обучения вы сможете:

Глубоко понимать особенности и преимущества технологий Big Data & ML
Работать с Dataset и фреймворками
Понимать алгоритмы искусственного интеллекта и инструменты Big Data
Организовывать командную работу над проектами по Big Data и Data Science
Проверять гипотезы с помощью MVP
Планировать дедлайны и распределять обязанности внутри проекта
Работать с системами и алгоритмами AI и Big Data
Подбирать специалистов для работы с Big Data и формировать команду
Иметь знание юридических тонкостей в области Big Data.

Все эти навыки помогут вам стать профессионалом в области Big Data и искусственного интеллекта, увеличить эффективность работы и развивать свой бизнес с помощью современных технологий.

Преподаватели:

Александр Хайтин
CEO Mechanica AI
ex-Yandex Data Factory CEO (2014-2017).

Антон Попов
Советник по цифровой трансформации для компаний: PayPal, Яндекс, Mail.ru Group, Bosch, Росатом, Intel, S7 Airlines и др.

Андрей Попов
Эксперт ФРИИ, РВК
Co-founder HumanVenture, RocketFounders, ZenMall.
ex-Intel,ex-RedBull, ex-I-Jet Media.

И др.

Мы предоставим вам сертификат об окончании курса «Big Data для менеджеров», если нужно — переведем его на английский язык.

Отзывы о курсе Big Data:

Александр Халипов
Большие Данные Правительства города Москвы
«Если в полной мере включиться в образовательный процесс, то это довольно интенсивное приключение на полгода, расширяющие кругозор вне зависимости от того, чем вы раньше занимались. Просто, потому что каждый преподаватель, а их немало, привносит свой взгляд на то, с чем он соприкасается по работе и это интересный взгляд. При этом, где-то (достаточно часто) это и самообразование, после первоначального толчка, который получаешь на курсе. В общем в такой учебе бывает непросто, но оно того стоит, чтоб попробовать. Спасибо всему коллективу SkillFactory за интересно и с пользой проведенное время!»

Бреус Наталья Леонидовна
Заместитель генерального директора АО «Мостострой-11»
«Я занимаюсь вопросами экономики в производственной компании и скорость доступа к информации и ее качество — это самые важные критерии для принятия правильных и своевременных решений. Наша ИТ система постоянно развивается и для того, чтобы использовать ее на максимум было необходимо изучить последние достижения и понять как можно их интегрировать в деятельность компании. На курсе эту информацию мне дали в очень интересной и доступной форме! Эксперты-практики сразу расставляли точки над и, что позволило не повторить чьих-то ошибок. Живо, харизматично и увлечённо делились с нами своими знаниями и опытом. Очень удобен формат он-Лайн и возможность 1 раз в 2 недели получить личную консультацию по проекту, которым ты занимаешься. Мне понравились абсолютно все преподаватели, очень рекомендую посетить всем, кто ищет ответ на вопрос «а что это» и «как» — все ответы вы найдёте!»

Подробнее о курсе Big Data →

Курс «MLOps от OTUS»

Цена: нет информации

Ссылка на сайт: https://otus.ru/lessons/ml-bigdata/

Практический курс по инструментам и технологиям работы с большими данными.

Длительность обучения: 5 месяцев, 4 ак. часа в нед.

Перейти на официальный сайт →

Данный курс научит вас понимать процесс внедрения ML-решений от идеи до запуска в продакшене. Преподаватели поделятся лучшими практиками и инструментами MLOps, которые успешно применяются в современной индустрии. Каждый модуль будет закрепляться на практике через выполнение домашних заданий. В конце обучения студенты реализуют финальный проект, который поможет обобщить все полученные знания и пополнить свое портфолио. Проект может быть выполнен как в рамках рабочих задач на собственном датасете, так и быть учебным проектом на предоставленных OTUS данных.

Для кого этот курс?
Для специалистов по машинному обучению и разработке программного обеспечения, которые хотят научиться использовать современные инструменты MLOps для успешного развертывания своих решений в продакшн.

Вы научитесь:

Использовать стандартные инструменты ML-конвейеров в распределенной среде;
Разрабатывать собственные блоки для ML-конвейеров;
Адаптировать ML-алгоритмы к распределенной среде и инструментам big data;
Использовать Spark, SparkML, Spark Streaming;
Разрабатывать алгоритмы потоковой подготовки данных для машинного обучения;
Обеспечивать контроль качества на всех этапах развертывания ML-решений в промышленную эксплуатацию;
Использовать инструменты Kubernetes и Docker для развертывания ML-решений в продакшене.

Преподаватели:

Павел Филонов
Ex-Data Science Manager в Kaspersky.
Занимается развитием Data Science команды, которая предоставляет для продуктов и сервисов компании функционал на основе машинного обучения. В роли Data Scientist участвовал в разработке Kaspersky MLAD и MDR AI Analyst. В роли разработчика C++ участвовал в создании MaxPatrol SIEM. В течение многих лет преподает computer science дисциплины в МГТУ ГА. Автор серии докладов про ML, С++, управление DS проектами и развитии команды. Член ПК конференции C++ Russia.

Дмитрий Бугайченко
Управляющий директор в Сбербанке
Специалист по работе с большими данными и машинному обучению. В течение 8 лет работал в «Одноклассники». Руководил командой OK Data Lab (лаборатория для исследователей в области big data и machine learning). Анализ больших данных в Одноклассниках стал уникальным шансом совместить теоретическую подготовку и научный фундамент с разработкой реальных, востребованных продуктов. С 2019 года работает в Сбербанке на должности управляющего директора. Выступает в роли лидера кластера разработки платформы рекомендательных систем дивизиона массовой персонализации. Окончил Санкт-Петербургский государственный университет в 2004 году, там же защитил кандидатскую по формально-логическим методам в 2007. Почти 9 лет проработал в аутсорсинге, не теряя контакта с университетом и научной средой.

Максим Мигутин
Более 5-ти лет опыта в индустрии Данных & Аналитики в роли внешнего косультанта (IBM) и in-house лидера Data Engineering и Data Science-проектов (Альфа-Банк, Yum! Brands).
Сферы интересов: построение end-to-end аналитических систем, внедрение инструментов Машинного обучения в промышленную эксплуатацию, Рекомендательные системы, MPP-базы данных. Образование: МГУ им. Ломоносова, математическая кафедра Экономического факультета.

И др.

Описание курса:

Процессы

Введение
Цели и метрики проектов в области машинного обучения
Организация исходного кода
Совместная работа в команде
Практика. Создание процессов команды

Инфраструктура

Основные блоки инфраструктуры
Облачные провайдеры
Собственная инфраструктура
Хранение кода и CI/CD
Биллинг и управление доступом
Практика. Настройка облачной инфраструктуры

Подготовка данных

Выбор системы хранения данных. HDFS/S3/DataBase и т.д.
Сбор данных по расписанию. AirFlow
Сбор данных в режиме реального времени. Kafka
Проверка данных
Обнаружение изменений в данных
Подготовка и расширение данных
Извлечение признаков
Версионирование данных. DVC
Практика. Конвейер подготовки данных

Моделирование

Воспроизводимость и версионирование. MLFlow
Перенос ML-алгоритмов в распределенную среду
Популярные фреймворки в распределенной среде
Подбор гиперпараметров и AutoML
Практика. Регулярное переобучение

Валидация

Стратегии валидации моделей
Анализ моделей
Интерпретируемость
A/B тестирование
Практика. Автоматическая валидация

Развертывание

Режим работы пакетов
Асинхронный потоковый режим
Синхронный режим
Подготовка артефактов
Развертывание в k8s
Обновление моделей

Мониторинг

Инструменты и метрики. Prometheus
Обнаружение изменений и сдвигов в данных
Построение обратной связи
Оповещения

Курсовой проект

Выбор темы и организация проектной работы
Консультации по проектам и домашним заданиям
Защита проектов.

Выпускной проект — это возможность укрепить навыки, полученные в ходе обучения. Вам будет предложено два варианта:

использовать свои данные и решить свою задачу;
разработать и внедрить рекомендательную систему на Spark.

После окончания обучения вы получите материалы по всем занятиям (видеозаписи, презентации, коды примеров) и сертификат о прохождении курса.

Подробнее о курсе Big Data →

Курс «Аналитик Big Data от Центр компьютерного обучения «Специалист» при МГТУ им.Н.Э.Баумана»

Цена: 142 890 ₽ — 204 990 ₽

Ссылка на сайт: https://www.specialist.ru/track/dp-bigdat

Перейти на официальный сайт →

В современном бизнесе большие данные (Big Data) являются актуальным трендом и востребованным навыком среди работодателей. Чтобы обеспечить рост бизнеса, необходим анализ больших объемов данных о клиентах, продажах, посетителях и т.д. Используя анализ данных, создаются гипотезы и принимаются решения о создании новых продуктов, тарифов и оптимизации расходов.

Аналитик Big Data — это специалист, который использует разнообразные инструменты, такие как Tableau, Excel, Power Query/Pivot/Map для анализа и визуализации данных. Однако, специалисты, способные создавать новые инструменты, особенно ценятся. Поэтому в программе обучения включены курсы по основам Python и «Анализу и визуализации данных на Python».

В программу включены курсы:

Основы работы с большими данными (Data Science)
Анализ данных на языке SQL
Введение в статистику
Microsoft Excel 2019/2016. Уровень 3. Анализ и визуализация данных
Основы работы с Tableau – визуализация и анализ данных
Microsoft Excel 2019/2016. Уровень 6. Бизнес-аналитика с использованием Power Pivot, Power Query и 3D Map
Основы графов и нечетких логик для анализа больших данных
Программирование на языке Python. Уровень 1. Базовый курс
Программирование на языке Python. Уровень 2. Продвинутый курс
Программирование на языке Python. Уровень 4. Анализ и визуализация данных на языке Python. Библиотеки Pandas, numpy, Matplotlib

После прохождения обучения в вашем резюме будут указаны следующие навыки и знания:

Анализ данных на языке SQL
Продвинутое владение Excel
Анализ и визуализация данных в Tableau, Power Query/Pivot/Map
Знание языка Python
Использование библиотек Python для визуализации и анализа данных, включая numpy, pandas и matplotlib.

В зависимости от программы обучения выдаются следующие документы:

Удостоверение о повышении квалификации
Свидетельство выпускника
Диплом о профессиональной переподготовке
Cертификат международного образца.

Подробнее о курсе Big Data →

Курс «Специалист по большим данным 17.0 от NEWPROLAB»

Цена: 140 000 руб.

Ссылка на сайт: https://newprolab.com/ru/bigdata

Онлайн
12 недель.

Перейти на официальный сайт →

За 12 недель вы освоите все аспекты работы с большими данными:

Алгоритмы: вы научитесь обрабатывать данные в Pandas, строить модели машинного обучения (логистическая регрессия, деревья, случайный лес) в Scikit-learn, анализировать текстовые данные и использовать разные алгоритмы рекомендательных систем.
Технологии: вы изучите, как писать MapReduce-джобы на Python с использованием Hadoop Streaming, выполнять SQL-подобные запросы в Hive для аналитических задач, работать с данными на HDFS и анализировать данные в Apache Spark.
Бизнес: вы научитесь выбирать правильную метрику качества для вашей задачи, собирать требования перед стартом проекта и оценивать финансовый эффект от внедрения моделей.

Программа обучения включает 36 занятий, 9 лабораторных работ и 2 проекта.

Часть 1. Построение DMP-системы
Проект: прогнозирование пола и возрастной категории пользователей в интернете по их логам.

Лабораторная работа 1. Развёртывание кластера в облаке и запуск MapReduce.
В рамках первой недели обучения вы научитесь устанавливать Hadoop-кластер в облаке, используя HortonWorks. Вы также напишете свой первый MapReduce-джоб, используя Hadoop Streaming и Python.
Лабораторная работа 2. Классификация пользователей по интересам в Hive.
Вам предстоит классифицировать пользователей по интересам (например, автомобилисты, предприниматели, домохозяйки и т.д.) с помощью простых эвристик. Для выполнения этой лабораторной работы необходимо будет использовать Hive.
Лабораторная работа 3. Прогнозирование оттока клиентов банка.
Используя обезличенные данные клиентов банка, вам нужно будет предсказать вероятность того, что каждый из них покинет банк в ближайшие несколько месяцев.
Лабораторная работа 4. Похожесть текстов вакансий.
В этой лабораторной работе вы будете искать похожие тексты вакансий. Кроме того, будет возможность участия в соревновании на Kaggle, где нужно будет определить эмоциональную окраску отзывов в интернете.

Часть 2. Разработка рекомендательной системы
Проект: рекомендательная система товаров в интернет-магазине.

Лабораторная работа 5. Неперсонализированные рекомендательные системы.
Задача состоит в том, чтобы построить различные виды топов для рекомендации фильмов пользователям, по которым еще нет никаких данных.
Лабораторная работа 6. Коллаборативная фильтрация.
Используя матричные разложения, вам нужно будет разработать рекомендации, учитывающие жанр, стиль и другие неявные факторы фильма.
Лабораторная работа 7. Рекомендации на основе контента
В этой лабораторной работе вам нужно будет определить, какие онлайн-курсы можно порекомендовать пользователям на основе сходства их описаний. Для этого вам потребуется проанализировать тексты описаний курсов и рассчитать меру сходства между ними.
Лабораторная работа 8. Рекомендации на основе просмотров телепередач
В этой лабораторной работе вам нужно будет использовать данные о просмотрах телепередач, чтобы порекомендовать фильмы пользователям на основе их предпочтений. Для этого вам потребуется проанализировать данные о просмотрах и рассчитать меру сходства между различными фильмами.
Лабораторная работа 9. Анализ результатов А/В-теста
В этой лабораторной работе вам нужно будет проанализировать результаты А/В-теста по удержанию клиентов банка и оценить значимое улучшение метрик в тестовой группе. Для этого вам потребуется использовать данные и модель прогнозирования оттока из лабораторной работы 4 и проэмулировать настоящий А/В-тест.

Преподаватели — это практики из ведущих российских и международных компаний: Lamoda, Яндекс, NVIDIA, 1C Битрикс, Cбербанк, ЦИАН, CleverDATA и др.

Алексей Астафьев
Рук Senior Data Scientist
CrazyPanda
Петр Ермаков
Senior Data Scientist
Lamoda
Дмитрий Коробченко
Senior Manager of AI

И др.

Подробнее о курсе Big Data →

Курс «Oracle Big Data Fundamentals от ITShop»

Цена: 140 000 руб.

Ссылка на сайт: https://www.itshop.ru/Oracle-Big-Data-Fundamentals/l4t3i357920

Продолжительность — 5 дней.

Перейти на официальный сайт →

Данный курс предоставляет базовые навыки работы с решением Oracle Big Data. Слушатели получат практические знания о захвате, организации, анализе и принятии ключевых решений с использованием больших данных. В ходе курса слушатели изучат:

Определение больших данных и решения Oracle Big Data, а также его компоненты;
Использование Hadoop и его компонентов;
Захват сырых данных с помощью Oracle NoSQL базы данных и распределенной файловой системы Hadoop;
Организацию данных при помощи Hive и Oracle Big Data коннекторов;
Анализ больших данных с использованием инструментов Oracle Analytics;
Получение бизнес-решений с помощью Oracle BI tools;
Обсуждение сценариев успешного применения Oracle Big Data.

Курс ориентирован на администраторов баз данных и разработчиков приложений. Основная цель курса – определить и понять важность технологий Big Data, получить представление о деталях текущей реализации решения Oracle Big Data, обзор интеграционных возможностей инженерных систем Oracle, использование Big Data Appliance (BDA) и его аппаратных и программных компонентов, дистрибутив Cloudera для Hadoop, определение экосистемы Hadoop, 2 способа захвата больших данных и их применение, изучение использования HDFS для захвата неструктурированных данных и определение Hive, его создание и использование.

Программа курса:

Введение

Обзор технологий Больших Данных и их бизнес-значение
Примеры реализации
Четыре характеристики Больших Данных

Понимание интеграционного решения Oracle для Больших Данных

Понимание фаз Больших Данных
Интеграционный процесс Больших Данных

Использование Oracle Big Data Appliance

Обзор BDA и его аппаратных компонентов
Сопровождение аппаратных компонентов
Обзор программных компонентов
Сетевые и конфигурационные механизмы
Инструкции по установке
Ограничения в использовании

Опции захвата данных в BDA

Обзор Oracle NoSQL базы данных
Обзор структуры Hadoop
Понимание HDFS и его достоинства
NoSQL против HDFS
Сценарии использования в реальном времени

Использование распределенной файловой системы Hadoop (HDFS)

Определение HDFS и его компонентов
Архитектура и преимущества использования
Запуск тестового приложения для добавления лог-файлов в HDFS

Использование Flume в HDFS

Определение Flume

Понимание потоков данных в Flume

Конфигурация Flume и ее преимущества
Запуск тестового приложения.

Описание возможностей Oracle NoSQL базы данных:

Понимание сути и особенностей Oracle NoSQL базы данных
Изучение компонентов и архитектуры системы
Описание KVStore и KVLite
Ознакомление со списком преимуществ данной базы данных

Использование Hive:

Обзор функционала Hive
Изучение вызова Hive и создания базы данных и таблиц
Получение навыков работы с данными в Hive
Описание создания секционированной таблицы для анализа лог-файлов

Использование Oracle Big Data Коннекторов:

Введение в Oracle Big Data коннекторы
Сопряжение Oracle Exadata с BDA
Процесс MapReduce
Пример использования MapReduce для подсчета слов в файле

Использование Oracle Loader для Hadoop:

Изучение архитектуры Oracle Loader для Hadoop
Установка и режимы работы OLH
Загрузка данных из разных источников в OLH
Балансировка нагрузки при загрузке в секционированные таблицы
Пример загрузки данных в OLH

Использование Oracle Sql Коннектора для HDFS:

Установка OSCH на машину с базой данных Oracle и в кластер Hadoop
Описание роли внешних таблиц в OSCH и их создание
Сравнение производительности коннекторов
Загрузка данных в базу при помощи OSCH
Пример доступа к данным из HDFS при помощи внешних таблиц

Использование Адаптера ODI для Hadoop (ODIAAH):

Обзор функционала ODI
Изучение архитектуры ODI и агентов
Модули знаний ODI и установка топологии
Reverse Engineering таблиц Hive
Пример трансформации данных внутри Hadoop с помощью ODIAAH

Использование Oracle R Коннектора для Hadoop (ORCH):

Пример доступа к данным из HDFS при помощи внешних таблиц
Список пакетов ORCH
Архитектурные компоненты
Сопряжение между HDFS и базой данных Oracle
Пример R программы с использованием ORCH

Использование аналитики в базе данных

Обзор функциональности In-Database MapReduce от Oracle
Обзор возможностей In-Database Analytics от Oracle

Использование опций интеграции Oracle Big Data

Архитектура и компоненты решения Oracle Big Data
Подключение Oracle Exalytics к BDA
Интеграция результатов работы BDA с OBIEE

Изучение примеров применения Big Data

Использование Big Data в промышленности
Финансовые услуги
Страхование
Сфера обслуживания
Телекоммуникации
Розничная торговля.

По окончании обучения будет выдан сертификат.

Подробнее о курсе Big Data →

Курс «Разработчик BigData от ФПМИ МФТИ»

Цена: 136 000 руб.

Ссылка на сайт: https://fpmi-edu.ru/dpo-magistr/bigdatadeveloper

Предлагается три курса, каждый из которых продолжается четыре месяца.
Обучение проводится в формате онлайн-занятий, один раз в неделю.
После успешного окончания курсов выдается диплом о профессиональной переподготовке.

Перейти на официальный сайт →

В рамках программы профессиональной переподготовки предусмотрено три курса, которые включают в себя следующие темы:

Курс «Технологии программирования и операционные системы»:

Различные дистрибутивы и особенности семейства операционных систем Unix. Современные инструменты для работы в командной строке, включая основные командные интерпретаторы и их отличия, утилиту sed, язык awk, а также использование Python в качестве заменителя shell. Также изучаются терминальные мультиплексоры и автоматизация работы с ними.
Различные системы контроля версий, включая CVS, SVN, Git и Mercurial. Изучаются особенности работы с ними, в том числе автоматизация работы с Git и работа в команде.
Виртуализация и ее виды (контейнерная, на уровне операционной системы). Рассматриваются современные платформы виртуализации и особенности работы с виртуальными окружениями.
Непрерывная интеграция (continuous integration) и ее этапы. Изучаются основные инструменты CI и их связь с системами контроля версий.
Оркестрация контейнеров с помощью Kubernetes. Изучаются компьютерные сети и модель OSI, ее уровни, а также сетевые протоколы обмена информацией.

Курс «Хранение и обработка больших объемов данных»:

Распределенные файловые системы, такие как GFS и HDFS, и управление ресурсами Hadoop-кластера с помощью YARN. Изучаются достоинства, недостатки и сфера применения распределенных файловых систем, а также HDFS APIs: Web, shell, Java.
Парадигма MapReduce и ее реализации, включая Hadoop и различные виды, и классификации многопроцессорных вычислительных систем. Изучаются схема работы Hadoop, роли серверов в Hadoop-кластере и API для работы с Hadoop.
SQL over BigData и соответствующие технологии, такие как Apache Drill, Cloudera Impala, Presto и Hive. Изучаются различные виды таблиц в Hive, типы данных, трансляция Hive-запросов в MapReduce-задачи, а также оптимизация запросов в Hive.
Технологии обработки данных в распределенной оперативной памяти. Рассматриваются технологии обработки данных в распределенной оперативной памяти с помощью Apache Spark, включая Spark RDD, Spark Dataframes, Spark SQL и Spark GraphFrames.
Обработка данных в реальном времени с помощью технологии Spark Streaming и распределенной очереди Apache Kafka.
Реализация NoSQL подходов к распределенным базам данных и key-value хранилища, включая основные компоненты BigTable-подобных систем и их назначение, отличие от реляционных БД, а также чтение, запись и хранение данных в HBase и Cassandra. Изучаются особенности отказоустойчивости и примеры применения HBase и Cassandra, а также различия в архитектуре HBase и Cassandra.

Курс «Машинное обучение на больших объемах данных»:

Методы оптимизации и линейные модели, включая машинное обучение с учителем на больших данных, метод стохастического градиента, работу с признаками и их нормализацию, а также онлайн обучение линейных моделей и метод хеширования LSH.
Алгоритмы работы с графами большого размера, включая виды графов и их представление, социальный граф, граф пользовательских предпочтений и использование подхода BigData в анализе графов.
Информационный поиск, включая постановку задачи ранжирования, метрики измерения точности ранжирования, тематическое моделирование и его проблемы при работе с большими данными.
Рекомендательные системы, включая постановку задачи предсказания и рекомендации, классификацию рекомендательных систем, задачи коллаборативной фильтрации, латентные методы на основе матричных разложений и современные рекомендательные системы.

Руководитель программы – Олег Николаевич Ивченко
Разработчик системы HJudge — системы автоматизированного тестирования Hadoop-приложений, системный администратор инфраструктуры больших данных в группе Яндекс-CERN, преподаватель курсов по обработке больших данных в МФТИ, ВШЭ, ШАД, Harbour.Space.

Подробнее о курсе Big Data →

Курс «BigData от Школа Больших Данных»

Цена: разная стоимость

Ссылка на сайт: https://www.bigdataschool.ru/

Перейти на официальный сайт →

Курсы:

Аналитика больших данных для руководителей
Архитектура Данных
Основы Hadoop
Администрирование кластера Hadoop
Безопасность озера данных Hadoop на платформе CDP
Hadoop для инженеров данных
Использование Apache Zeppelin
Администрирование кластера Kafka
Apache Kafka для инженеров данных
Анализ данных с Apache Spark
Core Spark — основы для разработчиков
Потоковая обработка в Apache Spark
Машинное обучение в Apache Spark
Графовые алгоритмы в Apache Spark
Интеграция Hadoop и NoSQL
Hadoop SQL администратор Hive
Администрирование кластера HBase
Cloudera Impala Data Analytics
Greenplum для инженеров данных
Apache NiFI для инженеров данных
Администрирование кластера Apache NiFi
Data Pipeline на Apache Airflow и Apache Hadoop
Разработка и внедрение ML-решений
Графовые алгоритмы. Бизнес-приложения
Подготовка данных для Data Mining на Python
Машинное обучение на Python
Визуализация данных на языке Python
Нейронные сети на Python
NLP с Python
Computer vision на Python
Администрирование кластера Arenadata Hadoop + сертификация
Основы Arenadata Hadoop + сертификация
Администрирование Arenadata Streaming Kafka + сертификация
Эксплуатация Arenadata DB + сертификация
Arenadata DB для разработчиков + сертификация
Эксплуатация Arenadata QuickMarts + сертификация
Cертификация Arenadata
Data pipeline на Apache AirFlow и Arenadata Hadoop.

Подробнее о курсе Big Data →

Курс «Big Data и Data Science: начни погружение с нуля от Stepik»

Бесплатно

Ссылка на сайт: https://stepik.org/course/101687/promo

В рамках курса участники ознакомятся с концепцией больших данных и получат базовые знания и практические навыки в области Data Science.

Длительность курса составляет 32 часа, он будет проходить в течение 7 недель, по 4-5 часов в неделю. В конце курса выдается сертификат.

Перейти на официальный сайт →

Данный курс ознакомит слушателей с понятиями Big Data и Data Science, объяснит, чем занимаются специалисты по анализу данных и почему этот профиль так востребован сегодня.
По завершении обучения участники поймут, что Data Science — это интересная и важная область знаний, и смогут самостоятельно работать с данными на базовом уровне.

Цель курса заключается в привлечении внимания к Big Data и Data Science, поэтому все материалы имеют ознакомительный характер. Курс ориентирован на старшеклассников, студентов бакалавриата и магистратуры, которые хотят построить карьеру в Data Science, а также на всех, кто хочет узнать больше о работе с большими данными и получить базовые навыки профессии Data Scientist.

Программа будет интересна специалистам в области IT и смежных областях, которые хотят обновить и дополнить свои знания.

Курс состоит из четырех модулей, которые научат слушателей основам науки о данных и практическому применению этих знаний.

погружение в науку о данных,
введение в анализ данных,
сбор, обработка и хранение данных,
soft skills и управление проектами.

В конце курса участники получат сертификат.

Преподаватели:

Арго Саакян
Спикер модуля «Погружение» курса «Big Data и Data Science: начни погружение с нуля»
Data Scientist IT Центра компетенций НТИ по направлению: «Технологии хранения и анализа больших данных» при МГУ имени М.В. Ломоносова. Data Scientist в ed-tech стартапе doc.club. В свободное время немного робототехник (esp, arduino, raspberrypi, jetson)
Мария Свидерская
Спикер модулей «Сбор, обработка и хранение данных» и «Погружение» курса «Big Data и Data Science: начни погружение с нуля»
Data Analyst в компании Skyeng. Занимаюсь подготовкой данных для моделей машинного обучения и участвую в их разработке.
Артём Титов
Спикер модуля «Введение в анализ данных» курса «Big Data и Data Science: начни погружение с нуля»
Data Scientist, аналитик, программист на Python. Прошёл курс на geekbrains «Программист Python». Закончил курс от Яндекс.Практикума «Специалист по Data Science».

И др.

Отзывы:

Александра Горохова
«Хороший курс для изучения основ. Да, где-то потребуется изучение доп материалов для понимания.»

Татьяна Жамсаранжапова
«Хороший курс для ознакомления с data science».

Подробнее о курсе Big Data →

Курс «Анализ Big Data от BigData Team»

Цена: 12 600 рублей — 65 000 рублей

Ссылка на сайт: https://bigdatateam.org/ru/big-data-course

Это курс для IT-специалистов, которые хотят быстро улучшить свои навыки. Он научит вас эффективно работать с большими данными, путем выполнения практических заданий на реальном кластере. Это самый быстрый способ улучшить свои навыки в этой области.

Перейти на официальный сайт →

Курс подходит для:

Разработчиков, которые хотят научиться работать с большими данными, используя Hadoop, MapReduce, Hive, Spark, Kafka и Cassandra. Курс включает выполнение практических заданий на реальном кластере.
Аналитиков, которые хотят освоить работу с большими данными для решения более сложных аналитических задач. Курс включает использование инструментов работы с большими данными, проведение анализа с помощью SQL и NoSQL инструментов, а также готовку данных и отчетов на основе больших массивов информации.
Data Engineers, которые хотят расширить свои знания о работе с данными и использовать современные технологии работы с Big Data.
Data Scientists, которые понимают, что качество модели зависит от правильной предобработки данных. Курс включает в себя современные инструменты и подходы для сбора, хранения и обработки данных, а также особенности укладки данных для оптимизации вычислений, подготовки фичей и масштабирования ML-моделей.

Программа включает 10 занятий по погружению в большие данные, 30 часов лекций и семинаров, 50 часов самостоятельной работы, а также 10 домашних заданий, включающих работу с кластером для отработки новых знаний на практике. Эта программа обучения предназначена для разработчиков, аналитиков, инженеров данных и ученых, которые хотят расширить свои знания о больших данных и связанных с ними технологиях. Она состоит из трех частей, которые затрагивают различные аспекты работы с данными.

Первая часть курса знакомит учеников с основами экосистемы Hadoop и показывает, как работать с распределенными файловыми системами, как оптимизировать вычисления MapReduce и как использовать SQL на основе Hive.
Вторая часть курса посвящена Spark и включает в себя работу с RDD, Spark DataFrames, Spark SQL и оптимизацию Spark вычислений.
Третья часть курса затрагивает работу с потоковой обработкой данных, NoSQL-хранилищами и вопросы организации данных.

В течение курса ученики будут выполнять домашние задания, а также работать на реальных кластерах данных.

Преподаватели:

Алексей Драль
Генеральный директор, BigData Team
10 лет в IT (Amazon AWS, Yandex, Rambler). Преподаватель и автор учебных программ по Machine learning, Big data, CDO programs for Chief Data Officers. Руководит международным онлайн-курсом «Big Data for Data Engineers» на Coursera, совместный проект с Яндексом.

Артём Выборнов
Head of Big Data Dev, Rambler Group
Соавтор международного онлайн-курса «Big Data for Data Engineers», совместный проект с Яндексом.

Павел Клеменков
Chief Data Scientist (Data Platform), NVIDIA
Основатель комьюнити Moscow Spark. Соавтор специализации по большим данным Big Data for Data Engineers на Coursera.

Андрей Титов
Senior Spark Engineer, NVIDIA
Активный участник сообщества Moscow Spark. До перехода в NVIDIA занимался построением платформы обработки данных для SOC банка «Открытие». Большой опыт построения распределенных систем поточной обработки данных.

Те, кто успешно пройдет курс, получат Удостоверение о повышении квалификации государственного образца. Все слушатели получат электронный сертификат об окончании курса.

Отзывы:

Бекарыс Нуртай
Junior Data Scientist в ForteBank
«Лекторы просто шикарные, объясняют на пальцах. Готовы ответить на самые тупые вопросы, что намного лучше лекций в университете.»

Александр Климов
ML Engineer в Альфа-Банк
«Очень понравилось большее количество полезной, актуальной практики. Уже применяю полученный опыт в работе и пропагандирую базовое концепции обработки больших данных среди коллег. Также зачёт за отзывчивость лекторов, которые отвечали на все вопросы и были готовы помочь даже с темой, которая напрямую не касается темы лекции. Удобное время лекций. Вкусные кексики :)»

Подробнее о курсе Big Data →

Курс «Специалист по Data Science от АНО ДПО «ШАД»»

Цена: 112 000 ₽

Ссылка на сайт: https://practicum.yandex.ru/data-scientist/

Вы сможете проходить курс онлайн, находясь в любой точке мира. В ходе обучения вы изучите Python и его библиотеки, Jupyter Notebook и SQL. Большая часть программы состоит из практических занятий — до 75%. После окончания курса мы поможем вам найти работу. В вашем портфолио будет 16 проектов, в том числе исследования и задачи для бизнеса. Во время обучения вам будет доступна команда сопровождения, которая окажет поддержку и помощь.

Перейти на официальный сайт →

Какие навыки вы получите после окончания курса по Data Science:

Анализировать большие объемы данных.
Использовать машинное обучение для прогнозирования и предсказания событий, поиска скрытых закономерностей в данных.
Создавать и улучшать продукты в бизнесе, промышленности и науке.

Программа курса включает в себя:

Бесплатный вводный курс по основам Python и анализа данных.
Введение в профессию «Специалист по Data Science».
Основы Python.
Предобработка данных.
Исследовательский анализ данных.
Статистический анализ данных.
Дополнительный курс по теории вероятностей.
Итоговый проект первого модуля.
Перерыв.
Введение в машинное обучение.
Обучение с учителем.
Машинное обучение в бизнесе.
Итоговый проект второго модуля.
Линейная алгебра.
Численные методы.
Временные ряды.
Машинное обучение для текстов.
Перерыв.
Основы SQL.
Компьютерное зрение.
Обучение без учителя.
Перерыв.
Выпускной проект.

Выпускники Практикума работают над совместными проектами, нанимают студентов, проводят мастер-классы и помогают друг другу во время и после обучения.
Вы получите навыки: Python и основные библиотеки, SQL, Tableau, решение бизнес-кейсов, умение учиться и взаимодействовать с командой, задавать вопросы и работать с ошибками.
По окончании обучения выдаётся Диплом о повышении квалификации.

Отзывы студентов:

Владислав Ивченко
Студент 15го на программе «Специалист по Data Science»
«Недолго я искал себе школу для получения образования. При первом взгляде на бесплатную часть программы понял, что мне это подходит. Тренажер очень удобный, материал подается с юмором и в понятной форме. Пройдя бесплатную часть я уже начал испытывать ломку без новых знаний и перешел на платный курс.
Спустя полгода обучения хочу сказать, что я не только узнал много нового и интересного, я научился на практике строить прогнозы и обучать модели. Впереди еще финальные испытания и я чувствую силы в себе закончить курс и найти себе работу по специальности 🙂
Спасибо преподавателям и кураторам за то, что сделали процесс обучения мега френдли.»

Игорь Богданов
Студент 1го потока на программе «Специалист по Data Science», куратор проектирования объектов газовой отрасли
«Недавно завершил первый модуль курса, решил написать отзыв. Меня зовут Игорь, мне 39 лет. По роду своей деятельности я сейчас курирую проектирование объектов газовой отрасли в службе заказчика. С IT отраслью никак не связан. Я пришел на курс DS, так как ощутил интерес к данному направлению и хочу дальнейшую профессиональную деятельность посвятить ему. Пока я завершил только первый модуль курса. На мой взгляд курс организован хорошо. Доступно для понимания изложена теория, регулярно проводятся онлайн-встречи с наставниками, проекты дают реализовать в какой-то мере творческий подход, опираясь на полученные знания. Благодаря наставникам узнаешь, где и что надо дополнительно учесть, как посмотреть по-другому на те или иные данные, что можно улучшить в своем коде. Какие-то темы и задания даются легче, какие-то тяжелее. Но в целом, считаю, что курс сбалансирован. Надеюсь, что по результатам обучения будет достаточно знаний для старта по специальности DS.»

Подробнее о курсе Big Data →

Курс «Наука о данных и аналитика больших объемов данных от Открытое образование»

Цена: нет информации

Ссылка на сайт: https://openedu.ru/course/spbstu/BIGDATA/

Длительность — 14 недель.

Перейти на официальный сайт →

Данный курс представляет обзор теоретических и практических аспектов технологий, основанных на принципах обработки, преобразования, распределенного хранения и анализа больших объемов данных.
Он предназначен для подготовки квалифицированных выпускников, которые могут обоснованно и результативно применять, разрабатывать, улучшать и внедрять современные технологии и инструментальные средства анализа и работы с данными большого объема в производственных целях.

Программа курса включает 7 тем, каждая из которых содержит лекционный материал, презентации, контрольные вопросы (тесты), лабораторные и самостоятельные работы. В начале каждой темы представлена видеолекция.

Темы включают в себя:

введение в большие данные,
жизненный цикл аналитики данных,
высокопроизводительные вычисления,
масштабирование и многоуровневое хранение данных,
визуализацию данных и результатов анализа,
сложные методы аналитики и анализ текста.

После завершения курса студенты будут иметь представление о жизненном цикле аналитики данных, технологиях и инструментах распределенной обработки и хранения данных, базовых методах анализа больших объемов данных, техниках визуализации данных и смогут использовать типовые технологии и средства аналитики данных, такие как MapReduce, Hadoop, NoSQL, язык R. Они смогут обосновано и результативно использовать, совершенствовать, разрабатывать и внедрять современные технологии и инструментальные средства анализа и работы с большими объемами данных.

Подробнее о курсе Big Data →

Курс «Big Data Science от Сетевая Академия «Ланит»»

Цена: разная стоимость

Ссылка на сайт: https://academy.ru/catalog/big-data-science/

Перейти на официальный сайт →

Data Scientist — это эксперт в области обработки данных, который владеет статистическими знаниями лучше, чем любой программист-инженер, и имеет более высокий уровень программирования, чем любой статистик.

Специализация Big Data Science обеспечивает получение и расширение необходимых навыков для работы в области анализа больших данных, как для опытных специалистов, так и для начинающих. Эта специализация предполагает, что у слушателей есть знания о статистических методах и инструментах анализа, а также умение работать с большими структурированными и неструктурированными данными и практические навыки использования компонентов экосистемы Hadoop.

Курсы:

Аналитика Больших Данных для Руководителей
Архитектура Данных
Безопасность озера данных Hadoop на платформе CDP
Использование Apache Zeppelin
Администрирование кластера Hadoop
Hadoop для инженеров данных
Основы Hadoop
Apache Kafka для разработчиков
Администрирование кластера Kafka
Потоковая обработка в Apache Spark
Анализ данных с APACHE SPARK STREAMING, SPARK SQL, MLLIB И GRAPHX
Основы Apache Spark для разработчиков
Машинное обучение в Apache Spark
Графовые алгоритмы в Apache Spark
Администрирование кластера HBase
Интеграция Hadoop и NoSQL
Greenplum для инженеров данных
Hadoop SQL Hive администратор
Cloudera Impala Data Analytics
Практический курс Data Pipeline на Apache Airflow и Apache Hadoop
Apache NiFi для инженеров данных
Кластер Apache NiFi
Введение в машинное обучение на Python
Нейронные сети на Python
Графовые алгоритмы. Бизнес-приложения.
Разработка и внедрение ML-решений
Визуализация данных на языке Python
Подготовка данных для Data Mining на Python
NLP – обработка естественного языка с Python
Computer vision на Python
Онлайн-марафон «Искусственный интеллект для менеджеров»
Онлайн-марафон «Создай свой чат-бот за 4 урока»
Анализ данных в Power BI
Эксперт графовых баз данных
Основы решений с использованием искусственного интеллекта в Azure.

Подробнее о курсе Big Data →

Курс «Бизнес-аналитика и системы больших данных от НИУ ВШЭ »

Цена: разная стоимость

Ссылка на сайт: https://www.hse.ru/ma/bigdata/courses

Перейти на официальный сайт →

Курсы:

Python for Data Science and AI
Analysis for Business Systems
Decision Analysis
Data Analytics and Visualization for Business
Leadership and Project Team Management
Big Data Based Marketing Analytics
Data Science for Business
Research Seminar
Big Data Systems Research Seminar «Big Data: Principles and Paradigms»
Big Data Systems Research Seminar “Latest trends in Data Governance, Big Data Analytics & Data Architecture»
Research Seminar «Project Seminar»
Neural Networks and Deep Learning
Cloud Technologies
Building Scoring Models Using Machine Learning Methods
Predictive Modelling
Applied Blockchain in the Modern Enterprise Architecture
Applied Machine Learning
IT Strategy Development
Manufacturing Data Collection and Analytics
Enterprise Architecture Perfecting.

И др.

Подробнее о курсе Big Data →

Курс «Аналитик Big Data и старт в Data Science от ProductStar»

Цена: 79 896 ₽

Ссылка на сайт: https://productstar.ru/analytics-bigdata-full-course

Приобретите основные технологии, изучите обработку больших данных, расширьте свои навыки в аналитике и поднимитесь на новый уровень в своей профессии. Вы научитесь работать с различными инструментами, включая SQL, Python, Hadoop, ETL и DWH.

Продолжительность обучения – 12 месяцев, которые можно пройти онлайн в удобное время.
Обучение проводится на практике, что позволяет быстрее освоить материал.
Доступ к курсу остается у вас навсегда.

Перейти на официальный сайт →

В рамках курса вы приобретете следующие навыки:

Работа с языком SQL
Научитесь создавать запросы, работать с данными в базе данных без необходимости копирования в таблицы, загружать и сохранять данные в разных форматах файлов и вести их историю.
Использование языка Python и библиотек для анализа данных
Автоматизация работы с большим объемом данных, извлечение данных из внешних источников, обоснование выводов на основе данных.
Строительство систем анализа больших данных
Овладение технологиями Hadoop и MapReduce. Проверка гипотез, изучение методов машинного обучения для обработки данных, обнаружение скрытых аномалий в данных и разработка прогнозных моделей.
Применение сложной математики для анализа Big Data
Овладение необходимой математической теорией для эффективной работы с моделями данных, машинным обучением и нейронными сетями.

Программа курса состоит из 120 лекций и воркшопов, которые поделены на 9 блоков. В каждом блоке рассматриваются различные темы, связанные с анализом данных и их обработкой, в том числе:

Работа с SQL, включая извлечение, фильтрацию, преобразование и сортировку данных, группировку, объединение таблиц и вложенные запросы;
Использование Python и библиотек анализа данных, таких как Pandas, для автоматизации работы с массивами данных, получения информации из внешних источников, обоснования выводов и визуализации данных;
Построение Machine Learning моделей, включая линейную регрессию, бинарную классификацию, решающие деревья, бутстрап, бэггинг и случайный лес, а также A/B тестирование и обучение без учителя;
Использование нейронных сетей и NLP, включая глубокое обучение, свёрточные и рекурентные нейронные сети, Metric learning и обучение с подкреплением;
Рекомендательные системы, включая матричное разложение и гибридные рекомендательные системы;
Аналитика больших данных, включая работу с машинными методами для обработки данных, предобработку и визуализацию данных в pandas, построение прогнозных моделей и работу в Hadoop и MapReduce;
Обработка больших данных, включая основы архитектуры хранения и обработки больших данных, работу с облачными платформами и организацию команды для работы с данными;
Визуализация данных, включая сравнительный обзор основных инструментов визуализации данных, расширенные возможности визуализации данных и решение бизнес-задач в команде;
Дипломная работа и помощь с трудоустройством, включая работу над дипломным проектом, подготовку резюме и подготовку к собеседованию.

После окончания курса слушатели получат сертификат о его успешном прохождении. Этот сертификат, вместе с дипломным проектом, может быть полезным при поиске работы.

Спикеры курса:

Денис Соболев
Skyeng
Илья Чухляев
OWOX
Чайзат Ховалыг
Точка банк.

И др.

Подробнее о курсе Big Data →

Курс «Анализ больших данных от Финансовый Университет»

Цена: 45 000 руб. — 90 000 руб.

Ссылка на сайт: http://www.fa.ru/org/dpo/finprofessional/programms/Pages/ppk-17.aspx

Перейти на официальный сайт →

Цель данной программы заключается в получении и улучшении навыков, необходимых для осуществления нового вида профессиональной деятельности в области машинного обучения и анализа больших данных.

В ходе обучения слушатели приобретают и совершенствуют профессиональные компетенции, такие как:

умение искать информацию о бизнес-проблемах или возможностях в области больших данных,
анализировать, обосновывать и выбирать решения в этой области,
подготавливать данные для проведения аналитических работ и проводить аналитические исследования в соответствии с требованиями заказчика.

Категория слушателей данной программы – люди, имеющие высшее или среднее профессиональное образование и желающие освоить новый вид профессиональной деятельности в области машинного обучения и анализа данных.

После успешного окончания программы и сдачи экзамена слушатели получают диплом о профессиональной переподготовке.

Подробнее о курсе Big Data →

Курс «Big Data от Sergey Petrovich»

Бесплатно

Ссылка на сайт: https://www.youtube.com/playlist?list=PL15mR4o-R9Ng3Fh8Z2HpLdQeJQHSoNKcp

Перейти на официальный сайт →

Список видеоуроков:

Введение в машинное обучение
Python
Определение Big Data и его характеристики
OLAP: Что это и зачем нужно?
IoT и Big Data
Проблемы классификации
Анализ формального контекста
Регрессия
Хранение и анализ больших данных
Глубокое обучение.

Преимущества курса:

Бесплатно

Недостатки курса:

Нет обратной связи
Всего 10 уроков

Подробнее о курсе Big Data →

Курс «Big Data от ITEA»

Цена: 295 EUR

Ссылка на сайт: https://onlineitea.com/course/big-data/

Желаешь помочь бизнесу находить скрытые закономерности, прогнозировать развитие событий и оптимизировать ключевые процессы? Тогда курсы Big Data именно то, что тебе нужно!

Продолжительность курса — 12 занятий или 2 месяца.

Перейти на официальный сайт →

В ходе курса вы научитесь:

Обрабатывать большие объемы данных различных форматов для принятия решений;
Искать шаблоны в крупных базах данных и текстовых массивах;
Строить прогнозы, используя новейшие методы и алгоритмы интеллектуального анализа данных;
Применять программное обеспечение для интеллектуального анализа данных на практике.

Ниже представлен полный план изучения Big Data, который включает следующие темы:

Основы интеллектуального анализа данных и машинного обучения, задачи ИАД, методы и подготовка данных, практическое применение ИАД.
Методы и алгоритмы классификации, включая методы построения деревьев решений, алгоритмы покрытия и Байесовские методы, построение математических функций классификации, системы с нечеткой логикой, а также решение практических задач.
Методы и алгоритмы кластеризации, включая иерархическую кластеризацию, статистические методы k-средних, методы кластеризации на основе теории графов и алгоритм Форел, метод самоорганизующихся карт Кохонена, анализ результатов кластеризации и решение практических задач.
Методы и алгоритмы построения ассоциативных правил и секвенциального анализа, включая алгоритмы Apriori и FP-роста, шаблоны последовательностей и поиск ассоциативных правил в иерархиях данных.
Ансамбли моделей ИАД, включая виды ансамблей, бэггинг, смесь моделей ИАД, методы расчета коэффициентов относительной важности моделей в ансамбле, понятие бустинга, алгоритм AdaBoost и сравнение моделей ИАД.
Методы и алгоритмы анализа текстовой информации, включая этапы text mining, методы категоризации текстов, методы поиска релевантных документов на основе множества запросов и решение практических задач text mining.

После прохождения курса Big Data ты получишь сертификат, доступ к материалам и записям занятий в течение года в личном кабинете на удобной платформе, возможность присоединиться к ITEA community, портфолио с проектами и работами, поддержку с трудоустройством и яркий опыт работы с профессиональными инструментами.

Отзывы студентов:

Максим Левин
«Рекомендую академию! Высокий уровень подготовки выпускников, которые могут занять лидирующие позиции на рынке труда Украины. Нескольких ребят удалось трудоустроить в продуктовую компанию».

Евгений Дидковский
«Окончил несколько курсов ИТЕА за последние 2 года. Некоторые курсы были более поверхностны, несколько окончил последовательных из более конкретных профилей. Материалы оптимально структурированы, и преподаватели помогают практически с любыми вопросами. Если вопрос более комплексный, подскажут, где копать дальше:) Также была очень полезна поддержка по завершению курсов. Направлений я закончил несколько и по каждому регулярно получал возможные вакансии. Некоторые ориентированы на более начальный уровень, были также те, которые можно рассмотреть уже с опытом для следующего шага в карьере. Спасибо команде ИТЕА за обучение и сопровождение 😉».

Подробнее о курсе Big Data →

Курс «Специалист по Big Data от Академия АйТи»

Цена: 41 999 ₽

Ссылка на сайт: https://academyit.ru/courses/pp_bigdata/

Перейти на официальный сайт →

Специалист по Big Data занимается работой с большим объемом данных различной степени структурированности и разрозненности, таких как банковские счета, запросы пользователей в поисковых системах, поведение пользователей социальных сетей, публикации в СМИ, открытые фото- и видеофайлы, данные сейсмической активности планеты, метеорологические данные и другие данные, которые занимают множество терабайт памяти, превосходят возможности типичных баз данных и доступны для обработки только на компьютере.

Работа специалиста по Big Data и специалиста по машинному обучению включает в себя следующие этапы:

Постановка целей анализа вместе с клиентом
Составление технического задания на анализ неструктурированного массива данных
Сбор и исследование массива данных, выявление важных признаков, поиск закономерностей
Компьютерное моделирование процесса анализа / машинного обучения на небольших объемах данных
Оптимизация процесса анализа, корректировка алгоритмов
Применение алгоритмов ко всем данным
Оценка результатов
Составление отчетов с прогнозами и презентация данных.

Целевая аудитория этого курса включает в себя следующих людей:

Программисты, которые научатся использовать аналитическое и алгоритмическое мышление для решения бизнес-задач с помощью Python и моделей машинного обучения.
Начинающие аналитики, которые изучат методы работы с данными, сможете анализировать информацию и делать выводы, а также освоят математику на основе статистики и обучения машин.
Новички, которые с нуля освоят язык программирования Python, получат теоретический минимум по математике, теории вероятности и статистике, а также научатся собирать и анализировать данные из различных источников.

После прохождения курса участники будут уметь:

Применять методы анализа больших данных на всех этапах жизненного цикла, используя методологическую и технологическую инфраструктуру организации.
Загружать данные из разных источников и объединять их.
Очищать данные, удалять повторяющиеся значения и заменять их, а также работать с пропущенными значениями.
Выполнять описательную статистику и вычислять центральную тенденцию, медиану и моду.
Выполнять разведывательный анализ, вычислять дисперсию, стандартное отклонение, ковариации, корреляции и строить распределение.
Применять методы и технологии исследования больших данных.
Разрабатывать продукты, услуги и решения на основе больших данных.
Анализировать большие данные с использованием методологической и технологической инфраструктуры организации.

Учебная программа:

Базовый модуль: Основы программирования и составления алгоритмов на языке Python

Введение в алгоритмы: их свойства и представление, типы данных и их роль в программировании, операнды и операторы для вычисления выражений.
Модели разработки программного обеспечения, структурное программирование и его базовые принципы, такие как блочная структура кода, блоки и подпрограммы, а также типовые структуры управления, включая последовательность, ветвление и циклы.
Составление алгоритмов, применение машинной логики для решения задач поиска данных, оценка времени работы алгоритмов и их эффективность.
Практические примеры составления блок-схем и псевдокода, простейшие алгоритмические задачи, перевод алгоритмов в код, использование подпрограмм (функций) как основных блоков кода, а также типовые задачи на обработку текста.
Понятие массива, типовые задачи, связанные с массивами, такие как доступ к элементу, обход элементов и инициализация элементов.
Простейшие конструкции данных, такие как списки, стеки, очереди и деревья, поиск элемента и сортировка элементов, а также реализация динамического стека.
Установка интерпретатора Python, основные операции и типы данных, операторы ветвления и циклы, установка и запуск среды разработки, типы данных, включая числа, строки, списки, логический тип, None, а также функции преобразования типов и простой ввод и вывод.
Работа со строками, их методы и функции, использование срезов, кортежи и их основные операции, включая распаковку, списки и их основные операции, словари и их основные операции, а также множества и их основные операции.
Ветвления, оператор if, базовая форма цикла while, операторы break и continue, перебор (for) и генераторы словарей, списков и множеств.

Профильный модуль: Расширенные возможности Python

Различные техники Python, такие как функции, работа с файлами, модули и библиотеки, а также исключения и обработка ошибок.
Основные принципы создания и вызова функций, а также именованные и неименованные аргументы функций.
Работа с файлами и каталогами: основные операции с файлами, работу с путями к файлам, чтение и запись файлов, и использование менеджера контекста with.
Импорт пакета, включая важнейшие стандартные пакеты, подсистему pip и установку стороннего модуля.
Понятие исключения, выброс и перехват исключения, а также стандартные исключения.
Работа с данными из внешних источников, включая работу с реляционными базами данных, нормализацию БД, SQL-запросы для типовых операций с таблицами и работу с модулем SQLite3.
Основы объектно-ориентированного программирования, включая классы и экземпляры классов, данные и методы экземпляров и свойства экземпляров, а также создание собственного класса, инкапсуляцию и атрибуты класса.
Роль наследования в объектно-ориентированном программировании, понятие иерархии наследования, принцип утиной типизации, понятие базового и производного класса, функция isinstance и ее применение, создание производного класса и применение экземпляров базового и производного класса.

Профильный модуль: Data Science. Обработка, анализ и визуализация данных на языке Python. Библиотеки pandas, numpy, matplotlib и seaborn

Необходимые шаги для установки и настройки программного обеспечения, а также базовый инструментарий для работы в Jupyter notebook. Основы импорта пакета и обзор важнейших стандартных пакетов. Описание подсистемы pip и методов установки сторонних модулей. Обзор библиотек и инструментов, необходимых для работы с Python, включая numpy, pandas, matplotlib, seaborn, Jupyter и другие. Рассмотрение дистрибутива Anaconda, а также его преимуществ и недостатков. Описание методов установки пакетов в Linux и Windows, а также возможных проблем и способов их решения. Обзор основных команд и методов работы в Jupyter notebook.
Обзор библиотеки numpy и ее использование для вычислительных задач. Описание структуры библиотеки и типов данных, таких как векторы и массивы, а также специальных типов данных. Рассмотрение основных характеристик массива и принципов вычислений. Рассмотрение универсальных функций и важнейших стандартных функций. Описание методов работы с массивами и матрицами.
Обзор библиотеки pandas и ее использование для анализа данных. Описание объектов Series и DataFrame, а также методов загрузки и выгрузки данных в различных форматах, включая Excel, JSON, интернет и базу данных SQL. Рассмотрение основ работы с датафреймами, включая организацию колонок и строк, создание срезов, выполнение логического отбора и переиндексацию объекта Series.
Описание методов первичной обработки данных, включая сбор, очистку, подготовку, объединение, сцепление, наложение и переформирование данных. Рассмотрение методов замены значений, работы с пропущенными значениями и их заполнения, а также методов обработки повторов в данных.
Обзор методов статистики и анализа данных, включая фильтрацию, группировку, агрегацию, описательные статистики, измерение центральной тенденции, вычисление дисперсии, стандартного отклонения, ковариации и корреляции, а также распределений и постановку гипотезы.
Обзор библиотеки matplotlib и ее использование для визуализации данных, включая основные элементы диаграммы, создание диаграммы, виды графиков и диаграмм, оформление и кастомизация графиков. Рассмотрение библиотеки seaborn и ее использование для наглядной визуализации сложных данных, включая виды графиков, их корректное использование и интерпретацию. Обсуждение принципов хорошей визуализации и основных ошибок при визуализации данных. Рассмотрение графика функции и гистограммы, а также визуализации отфильтрованных и сгруппированных данных.

Подробнее о курсе Big Data →

Курс «Big Data от EcoAcademy»

Цена: нет информации

Ссылка на сайт: https://ecoacademy.econophysica.ru/courses/big-data-/

Формат — очный
Длительность — 16 часов
По завершении — удостоверение.

Перейти на официальный сайт →

Цель данного курса – помочь слушателям выбрать наиболее подходящие технологии обработки данных в соответствии с особенностями их предметной области, ознакомить с новыми возможностями и предостеречь от распространенных ошибок в создании хранилищ данных.

Программа курса включает следующие разделы:

Особенности Big Data:

2 типа больших данных;
теорема CAP;
Volume, Variety, Veracity, Velocity;
принцип AAA.

Обзор инструментов обработки Big Data:

хранилища (Hadoop, ElasticSearch, Cassandra, MongoDB, CouchDB);
инструменты сбора данных (Flume, LogStash, Kafka);
инструменты подготовки данных (OpenRefine, DataCleaner);
инструменты визуализации данных (Kibana, Matplotlib, Tableau);
инструменты обработки данных (Python, R, MLLib).

Введение в стек ELK:

Logstash;
ElasticSearch;

Визуализация больших данных:

введение в визуализацию данных;
особенности визуализации больших данных;
Kibana;

Введение в экосистему Hadoop:

HDFS;
Pig;
Spark;

Введение в машинное обучение:

современное состояние;
обучение с учителем;
обучение без учителя.

Практика (Основы работы с Hadoop):

HDFS;
Pig;
Spark;

Практика (Введение в машинное обучение):

scikit-learn;
MLLIB

Итоговый экзамен «Big Data».

По завершению курса слушатели получат удостоверение о повышении квалификации или сертификат о прохождении обучения.

Подробнее о курсе Big Data →

Курс «Вводный курс по Big Data: методология и технология компьютерных решений от StatSoft Russia»

Цена: нет информации

Ссылка на сайт: http://statsoft.ru/academy/courses/big-data/detail.php?ELEMENT_ID=1820

Длительность курса — 8 академических часов, курс разбивается на 2 рабочих дня.

Перейти на официальный сайт →

Данный курс предназначен для тех, кто заинтересован в использовании технологий Big Data для решения конкретных прикладных задач в различных областях, таких как маркетинг, телекоммуникации, энергетика, промышленность и транспорт.

Программа курса включает следующие разделы:

Вводный обзор: что такое Big Data и для чего он нужен:

Определение Big Data и начало его объемов;
Реляционные и нереляционные базы данных;
Потоки данных.

Обзор реляционных баз данных.
SQL-сервер: основные принципы и примеры.
NoSQL базы данных: обзор и примеры.
Предметно-ориентированные информационные базы данных Data Warehousing.
MapReduce: методология и технология распределенных вычислений:

Этап Map — предварительная обработка;
Этап Reduce — свертка результатов;
Примеры функций.

Введение в Hadoop:

Основные принципы Hadoop;
Компоненты Hadoop;
Работа с нереляционными данными;
Примеры использования;
MapReduce в Hadoop;
Надстройки Hive и Pig.

Hadoop 2.0.
Обработка данных в реальном времени (Storm, Spark, Impala).
Массово-параллельная структура — Massive Parallel Processing:

Масштабирование реляционных баз данных;
Параллельное выполнение запросов к БД;
Архитектура Hub and Spoke.

Вычисление дескриптивных статистик для больших объемов данных (частоты, средние, стандартные отклонения, медианы, квартили).
Data Mining и Big Data:

Кластеризация, сегментация, алгоритмы к-средних, EM — Expectation-maximization;
Иерархическая кластеризация;
Классификация данных;
Предиктивный анализ;
Регрессионные деревья;
Правила ассоциаций;
Machine learning.

Технологии Big Data.
Примеры использования в маркетинге, телекоммуникациях, энергетике, промышленности и транспорте.
Вопросы и ответы.
Обсуждение задач слушателей.

Подробнее о курсе Big Data →

Курс «Большие данные (Big Data) на службе компании от ФинКонт»

Цена: от 3 500 рублей за ак. час

Ссылка на сайт: https://www.fcaudit.ru/training/all/biznes-analitik-seminar-v-moskve/

Данная программа курса охватывает краткий обзор необходимых теоретических знаний в области больших данных, однако основной упор сделан на практическое применение Big Data в бизнесе с целью повышения эффективности организации. Курс включает практику в компании «Сбербанк».

По завершении обучения слушатели, успешно прошедшие итоговую аттестацию, получат Удостоверение о повышении квалификации.

Перейти на официальный сайт →

Цель данного курса/семинара заключается в получении практических навыков работы с инструментарием для работы с большими данными, изучении новых методов и практик из российского и зарубежного опыта работы с Big Data, а также разработке дорожной карты для повышения среднего чека и создания системы менеджмента Big Data в компании. Программа включает практикум в компании «Сбербанк».

В рамках курса будут рассмотрены следующие темы:

Введение в Big Data, области применения в компании.
Рынок больших данных в России и стратегия развития до 2024 года.
Принятие бизнес-решений на основе данных и создание единой системы работы с данными.
Практикум: как заработать на своих данных.
Основные понятия в Big Data.
Источники данных и извлечение информации из открытых источников.
Инструменты для работы с Big Data и выбор программного решения.
Анализ больших данных, процессы накопления, извлечения, анализа, моделирования и визуализации.
Поиск специалистов и ключевые роли для работы с Big Data.
Правовые аспекты и защита персональных данных.
Big Data Lab – лабораторный практикум для руководителей.
Практикум с Big Data в Excel.
Примеры моделирования на платформе.
Кейсы компаний крупного и среднего бизнеса, которые используют стандартные данные и покупают дополнительные у операторов связи или зарплатные проекты.

По окончании курса слушатели, прошедшие итоговую аттестацию, получат Удостоверение о повышении квалификации.

Подробнее о курсе Big Data →

Курс «Big Data от Softline»

Цена: нет информации

Ссылка на сайт: https://edu.softline.by/courses/big_data.html

Продолжительность: 12 дня / 36 ак. часов.

Перейти на официальный сайт →

Цель этого курса заключается в том, чтобы обучить студентов реальным навыкам анализа, обработки, поиска шаблонов и создания прогнозов на основе данных.
По окончании курса студенты овладеют современными методами и алгоритмами теории интеллектуального анализа больших данных и машинного обучения.

Вы сможете анализировать и обрабатывать большие и сверхбольшие данные в различных форматах для принятия решений, находить шаблоны в больших базах данных и массивах текста, создавать прогнозы с использованием современных методов и алгоритмов интеллектуального анализа данных и использовать программное обеспечение для интеллектуального анализа данных в практической работе.

Этот курс ориентирован на формирование практических навыков в анализе, обработке, поиске шаблонов и построении прогнозов на основе данных. Программа включает следующие темы:

Общие сведения о интеллектуальном анализе данных (ИАД) и машинном обучении, включая обзор методов ИАД и машинного обучения, процесс ИАД и подготовку данных для него.
Методы и алгоритмы классификации, такие как методы построения деревьев решений, алгоритмы покрытия, байесовские методы, метод опорных векторов, системы с нечеткой логикой и решение практических задач классификации.
Методы и алгоритмы кластеризации, такие как иерархическая кластеризация, статистические методы k-средних, методы кластеризации на основе теории графов, алгоритм Форел, метод самоорганизующихся карт Кохонена и решение практических задач.
Методы и алгоритмы построения ассоциативных правил и секвенциального анализа, такие как алгоритмы Apriori и FP-роста, шаблоны последовательностей, алгоритм GSP и решение практических задач поиска ассоциативных правил и шаблонов последовательностей.
Ансамбли моделей ИАД, включая виды ансамблей, понятие беггинга, комбинирование результатов прогнозов, полученных моделями ИАД, методы расчета коэффициентов относительной важности моделей в ансамбле, понятие бустинга, алгоритм AdaBoost, градиентный бустинг, сравнение моделей ИАД и оценки их эффективности и ошибок.
Методы и алгоритмы анализа текстовой информации (text mining), включая этапы text mining, методы категоризации текстов, методы поиска релевантных документов на основе множества запросов, методы обучения ранжированию и решение практических задач text mining.

По окончании обучения вы получите сертификат учебного центра.

Подробнее о курсе Big Data →