• 🔥 Большое обновление PirateHUB Private!

    PirateHUB Private - закрытое сообщество PirateHUB, внутри которого:
    150+ приваток авторов по различным направлениям, 15+ совместных доступов, несколько сотен курсов в день от зарубежных авторов напрямую и многое другое. Нас уже почти 1000 человек!


    Что внутри + отзывы довольных участников:

    Ознакомиться

    *Анонсированы крупные обновления, не пропустите!

    ❗️Вход по старой цене открыт до 7 ноября включительно! Каждый участник получает бесплатный доступ к Web-Master Club от PirateHUB Academy и дополнительные бонусы!

Программирование [ВigData Тeam] Практический курс по Big Data. Часть 1. HDFS, Map Reduce, Hive (2023)

tttx

Помощник Администратора
Команда форума
Pirate PRO
Премиум
Премиум Лайт
Регистрация
27 Авг 2018
Сообщения
47,126
Реакции
949,627
vl3aY5twQQibdXtSh5Gfcw.png

ОПИСАНИЕ:

Практический курс по Big Data. Часть 1. HDFS, Map Reduce, Hive [bigdata team]

Кому подойдет этот курс:

  • Разработчикам
    Вы программируете, но хотите расширить профессиональные возможности и получить практические навыки работы с большими данными? На курсе вы научитесь работать с Hadoop, MapReduce, Hive, Spark, Kafka, Cassandra и будете выполнять задания на реальном кластере.
  • Data Engineers
    Хотите расширить свой арсенал для работы с данными и структурировать свои знания в DE? Вы узнаете о современных технологиях работы с Big Data, научитесь грамотно их использовать и понимать, какую технологию в каких случаях лучше применять.
  • Аналитикам
    Хотите освоить работу с большими данными, чтобы решать более сложные и интересные аналитические задачи? Вы научитесь использовать инструменты работы с большими данными, проводить аналитику с помощью SQL и NoSQL инструментов, готовить данные и отчеты на основе больших массивов информации.
  • Data Scientists
    Ловите себя на мысли, что качество модели во многом зависит от правильного сбора и предобработки данных? Вы получите базу по современным инструментам и подходам, необходимым для сбора, хранения и обработки данных; изучите особенности укладки данных для оптимизации вычислений, подготовки фичей и масштабирования ML-моделей.
Вы научитесь работать с распределенными файловыми системами, познакомитесь с экосистемой Hadoop, разберетесь с оптимизацией MapReduce вычислений и работой с Hive.

Часть 1. HDFS, Map Reduce, Hive

В этом модуле вы изучите:
  • вводная часть: знакомство (задачи, оценки, дедлайны), подробности курса;
  • распределенные файловые системы (GFS, HDFS). Их составляющие, достоинства, недостатки и сфера применения;
  • чтение и запись в HDFS. HDFS APIs: Web, shell.
  • Hadoop Streaming;
  • элементы Hadoop-задачи (Mapper, reducer, combiner, partitioner, comparator).
  • приложения с несколькими Hadoop-задачами;
  • тюнинг Hadoop-job (настройка партиционирования, сложные ключи, uber jobs);
  • задачи с несколькими входами. Joins в Hadoop.
  • архитектура Hive, виды таблиц, форматы хранения данных;
  • трансляция Hive-запросов в MapReduce-задачи;
  • сериализация и десериализация;
  • тюнинг Join'ов в Hive;
  • партиционирование, бакетирование, семплирование;
  • User defined functions, Hive Streaming.
ПРОДАЖНИК:

СКАЧАТЬ:
 

Последнее редактирование:
Назад
Сверху