Продвинутый курс по работе с большими данными. Освойте экосистему Hadoop, Apache Spark, NoSQL базы данных, потоковую обработку данных. Научитесь работать с облачными платформами AWS, Google Cloud и Azure для обработки петабайтов информации.
В эпоху цифровизации объемы данных растут экспоненциально. Этот курс научит вас работать с действительно большими данными — теми, которые не помещаются в память одного компьютера и требуют распределенных вычислений.
Вы освоите полный стек технологий Big Data: от HDFS и MapReduce до современных фреймворков потоковой обработки. Научитесь проектировать data pipelines, оптимизировать запросы к большим данным и разворачивать решения в облаке.
Курс идеально подходит для аналитиков и инженеров данных, которые хотят работать с enterprise-решениями и масштабными проектами. Все практические задания выполняются на реальных кластерах в облаке.
Концепции больших данных, экосистема Hadoop, HDFS, MapReduce
RDD, DataFrames, Spark SQL, оптимизация, машинное обучение в Spark
Kafka, Spark Streaming, Flink, обработка данных в реальном времени
MongoDB, Cassandra, Redis, HBase, выбор правильного хранилища
AWS EMR, Google BigQuery, Azure HDInsight, Data Lakes, архитектура
Курс открыл для меня целый мир Big Data технологий. Теперь работаю Data Engineer в международной компании. Spark и Kafka стали моими лучшими друзьями!
Очень насыщенный курс с большим количеством практики. Единственный минус — нужно много времени на освоение. Но результат того стоит!