114培訓(xùn)網(wǎng)歡迎您來(lái)到杭州博學(xué)國(guó)際教育培訓(xùn)中心!

400-850-8622

全國(guó)統(tǒng)一學(xué)習(xí)專(zhuān)線(xiàn) 8:30-21:00

杭州Cloudera認(rèn)證Apache Hadoop開(kāi)發(fā)者培訓(xùn)(CCA)

授課機(jī)構(gòu):杭州博學(xué)國(guó)際教育培訓(xùn)中心

關(guān)注度:72

課程價(jià)格: 請(qǐng)咨詢(xún)客服

上課地址:請(qǐng)咨詢(xún)客服

開(kāi)課時(shí)間:滾動(dòng)開(kāi)班

咨詢(xún)熱線(xiàn):400-850-8622

在線(xiàn)報(bào)名

課程詳情在線(xiàn)報(bào)名

更新時(shí)間:2024-12-28
Cloudera認(rèn)證Apache Hadoop開(kāi)發(fā)者培訓(xùn)(CCA) 培訓(xùn)班型: 公開(kāi)課 課程長(zhǎng)度: 4天/24小時(shí) 培訓(xùn)日期: 待定 認(rèn)證考試: 北京、上海、廣州、杭州、福州、深圳、 西安、南京、天津、武漢、成都、重慶 培訓(xùn)地點(diǎn): 博學(xué)國(guó)際教育培訓(xùn)中心 環(huán)境要求: 投影儀、白板、大白紙 培訓(xùn)形式: 實(shí)例講授,現(xiàn)場(chǎng)演、練、及時(shí)溝通 培訓(xùn)資料: 培訓(xùn)教材 課程內(nèi)容 認(rèn)證描述: 4天的課程包涵了解Apache Spark的基礎(chǔ)知識(shí)及其與Hadoop整體生態(tài)系統(tǒng)的集成方式。本課程將重溫HDFS的基礎(chǔ)內(nèi)容,學(xué)習(xí)如何使用Sqoop/Flume攝取數(shù)據(jù),利用Spark處理分布式數(shù)據(jù),學(xué)習(xí)在Impala和Hive上數(shù)據(jù)建模,以及在數(shù)據(jù)存儲(chǔ)方面的*實(shí)踐。 課程概述: ?Hadoop 核心 ?HDFS 和 MapReduce 工作原理 ?如何開(kāi)發(fā) MapReduce 應(yīng)用 ?如何單元測(cè)試 MapReduce 應(yīng)用 ?如何使用 MapReduce combiners, partitioners 和 distributed cache ?開(kāi)發(fā)調(diào)試 MapReduce 應(yīng)用 ?如何實(shí)現(xiàn) MapReduce 應(yīng)用中的輸入/輸出 ?常見(jiàn) MapReduce 算法 ?如何用 MapReduce 來(lái)聯(lián)結(jié)數(shù)據(jù)集 ?如何把 Hadoop 嵌入到企業(yè)已有的計(jì)算環(huán)境里 ?如何使用 Hive、Impala 和 Pig 來(lái)快速開(kāi)發(fā)數(shù)據(jù)分析應(yīng)用 ?如何使用 Oozie 來(lái)創(chuàng)建管理工作流 培訓(xùn)前提: 企業(yè)管理者、CIO、CTO、*信息*官員、項(xiàng)目(開(kāi)發(fā))經(jīng)理、咨詢(xún)顧 問(wèn);IT經(jīng)理,IT咨詢(xún)顧問(wèn),IT支持專(zhuān)家;系統(tǒng)工程師、數(shù)據(jù)中心管理員、云 計(jì)算管理員及想加入云計(jì)算隊(duì)伍的您。 授課對(duì)象:具備編程經(jīng)驗(yàn)的開(kāi)發(fā)人員;熟悉面向?qū)ο蟾呒?jí)編程語(yǔ)言,如Java;不需要事先掌握Hadoop相關(guān)知識(shí) 培訓(xùn)目標(biāo): 通過(guò)考試可獲得Cloudera Certified Developer for Apache Hadoop (CCDH) 證書(shū) Using the Spark shell for interactive data analysis ? The features of Spark’s Resilient Distributed Datasets ? How Spark runs on a cluster ? How Spark parallelizes task execution ? Writing Spark applications ? Processing streaming data with Spark 環(huán)境準(zhǔn)備: 1. 操作系統(tǒng):Linux 2. java環(huán)境:jdk6以上 硬件環(huán)境:電腦內(nèi)存4G以上 課程內(nèi)容: ? 介紹 ? Hadoop 起源和動(dòng)機(jī) ? Hadoop 基本概念和 HDFS ? MapReduce 介紹 ? Hadoop 集群和 Hadoop 生態(tài)系統(tǒng) ? 使用 Java 編寫(xiě) MapReduce 程序 ? 使用 Streaming 編寫(xiě) MapReduce 程序 ? MapReduce 單元測(cè)試 ? 深入 Hadoop API ? 開(kāi)發(fā)技巧 ? Reducer 和 Partitioner ? 數(shù)據(jù)輸入/輸出 ? 常見(jiàn) MapReduce 算法 ? 用 MapReduce 來(lái)聯(lián)結(jié)數(shù)據(jù)集 ? 把 Hadoop 嵌入到企業(yè)已有的計(jì)算環(huán)境里 ? Hive、Impala 和 Pig 簡(jiǎn)介 ? Oozie 簡(jiǎn)介 ? 結(jié)論 ? 附錄: Cloudera Enterprise Introduction to Spark ? What is Spark? ? Review: From Hadoop MapReduce to Spark ? Review: HDFS ? Review: YARN ? Spark Overview Spark Basics ? Using the Spark Shell ? RDDs (Resilient Distributed Datasets) ? Functional Programming in Spark Working with RDDs in Spark ? Creating RDDs ? Other General RDD Operations Aggregating Data with Pair RDDs ? Key-Value Pair RDDs ? Map-Reduce ? Other Pair RDD Operations Writing and Deploying Spark Applications ? Spark Applications vs. Spark Shell ? Creating the SparkContext ? Building a Spark Application (Scala and Java) ? Running a Spark Application ? The Spark Application Web UI ? Hands-On Exercise: Write and Run a Spark Application ? Configuring Spark Properties ? Logging Parallel Processing ? Review: Spark on a Cluster ? RDD Partitions ? Partitioning of File-based RDDs ? HDFS and Data Locality ? Executing Parallel Operations ? Stages and Tasks Spark RDD Persistence ? RDD Lineage ? RDD Persistence Overview ? Distributed Persistence Basic Spark Streaming ? Spark Streaming Overview ? Example: Streaming Request Count ? DStreams ? Developing Spark Streaming Applications Advanced Spark Streaming ? Multi-Batch Operations ? State Operations ? Sliding Window Operations ? Advanced Data Sources Common Patterns in Spark Data Processing ? Common Spark Use Cases ? Iterative Algorithms in Spark ? Graph Processing and Analysis ? Machine Learning ? Example: k-means Improving Spark Performance ? Shared Variables: Broadcast Variables ? Shared Variables: Accumulators ? Common Performance Issues ? Diagnosing Performance Problems Spark SQL and DataFrames ? Spark SQL and the SQL Context ? Creating DataFrames ? Transforming and Querying DataFrames ? Saving DataFrames ? DataFrames and RDDs ? Comparing Spark SQL, Impala and Hive-on-Spark ?
姓名不能為空
手機(jī)號(hào)格式錯(cuò)誤