Big Data
Язык обучения
РусскийO‘zbekcha
Сложность
Начальный
Длительность
5 месяцев
Тип курса
Дистанционно
Описание курса
Язык – английский (A2+ и выше).
О курсе
Большие данные — это огромное количество окружающей нас информации. Они слишком велики и сложны, чтобы использовать для их обработки традиционное программное обеспечение.
Освойте лучшие инженерные практики, чтобы создавать архитектуру для работы с большими данными и оптимизировать процесс сбора и анализа информации.
Вместе с EPAM UpSkill PRO вы на практике научитесь работать с системами и алгоритмами больших данных, освоите фреймворки на базе Spark, Hadoop, Hive, Kafka, Flink и изучите самые популярные облачные решения.
Программа курса
● МОДУЛЬ 1
Введение
Познакомитесь с рабочими процессами обработки и управления данными, последними тенденциями, ключевыми инструментами и приложениями. Узнаете, что отличает успешные решения в этой сфере, и углубитесь в вопросы безопасности.
●
МОДУЛЬ 2
Hadoop
Hadoop — выбор №1, когда речь идет о хранении и обработке больших данных. Вы узнаете, почему эта платформа так популярна и какие у нее есть преимущества. Изучите экосистему, функции и возможности. Проследите, как реализованы высокоскоростная обработка информации и надежное хранение.
●
МОДУЛЬ 3
Hive
Познакомитесь с системой управления базами данных Hive, ее статистикой и пользовательскими функциями, которые в том числе позволяют расширять язык запросов Hive. Расскажем об использовании транзакций с семантикой ACID, объясним, как это работает в Hive, и подробно рассмотрим методы оптимизации для повышения производительности.
●
МОДУЛЬ 4
Spark
На этом этапе вам предстоит изучить основы системы распределенной обработки с открытым исходным кодом для рабочих нагрузок больших данных. Вы познакомитесь с ключевыми компонентами, архитектурой, различными приложениями, ETL и тремя наборами API, доступными в Spark. Затем сможете узнать больше об оптимизаторе Catalyst, Project Tungsten и Spark Streaming, чтобы в том числе проводить анализ в реальном времени.
●
МОДУЛЬ 5
Kafka
Узнаете о плюсах, минусах и особенностях Apache Kafka. Поймете, почему его теперь нельзя рассматривать только как систему обмена сообщениями. Изучите фреймворк Kafka Connect и библиотеку Kafka Streams и их роль в архитектуре Kafka. И, конечно, научитесь оптимизировать процессы для повышения производительности.
●
МОДУЛЬ 6
Streaming
Получите более четкое представление об обработке потоковых данных и узнаете о том, как их можно использовать для целей аналитики. Получите более подробную информацию о запуске Spark Streaming. Увидите, как использовать библиотеку Kafka Streams для создания приложений и микросервисов, где входные и выходные данные хранятся в кластерах Kafka.
●
МОДУЛЬ 7
Data Movement
Познакомитесь с программированием на основе потоков, его основными концепциями и терминами. Освоите фреймворк Apache NiFi и механизм сбора данных StreamSets, который можно использовать для эффективного перемещения данных.
●
МОДУЛЬ 8
Workflow
По мнению аналитиков, до 60% проектов по работе с большими данными терпят неудачу из-за невозможности масштабирования. Решает эту проблему пошаговый подход к организации рабочего процесса. И вы поймете, с помощью каких инструментов это можно сделать при работе с большими данными.
●
МОДУЛЬ 9
NoSQL
Откроете для себя базы данных NoSQL (MongoDB, HBase и Cassandra) и изучите их различные типы (документ, ключ-значение, столбец и график). Вы узнаете, как они работают, что вы можете использовать в своей деятельности и какие базы данных лучше всего подходят для различных типов проектов.
●
МОДУЛЬ 10
Elasticsearch
Вы продолжите изучать механизмы, которые используются в реальной работе с большими данными. Один из них — поисковой движок Elasticsearch. Его специально разработали для решения распространенной, но нетривиальной проблемы в разработке программного обеспечения: необходимость поиска без сюрпризов.
●
МОДУЛЬ 11
Cloud
Вы изучите вопрос объединения больших данных с облачными вычислениями. Это два разных понятия, но в последнее время они практически неразделимы. При работе с большими данными вы скорее всего столкнетесь с необходимостью использовать более совершенные методы обработки и анализа. Тогда на выручку придут облачные вычисления.
Условия рассрочки

Сумма рассрочки
от 11 642 250 сумФинансирующая организация
Центр развития IT-знанийЕжемесячная сумма погашения
от 737 042 сумДля того, чтобы оформить рассрочку необходимо Войти или Зерегистрироватьсяна сайте
Вход
Войдите, используя свой номер телефона и пароль