114培訓(xùn)網(wǎng)歡迎您來到杭州博學(xué)國際教育培訓(xùn)中心!

400-850-8622

全國統(tǒng)一學(xué)習(xí)專線 8:30-21:00

杭州Cloudera 數(shù)據(jù)分析師培訓(xùn)

授課機構(gòu):杭州博學(xué)國際教育培訓(xùn)中心

關(guān)注度:127

課程價格: 請咨詢客服

上課地址:請咨詢客服

開課時間:滾動開班

咨詢熱線:400-850-8622

在線報名

課程詳情在線報名

更新時間:2024-12-28
Cloudera 數(shù)據(jù)分析師培訓(xùn) 培訓(xùn)班型: 公開課 課程長度: 3天/18小時 培訓(xùn)日期: 待定 認證考試: 暫無 培訓(xùn)地點: 博學(xué)國際教育培訓(xùn)中心 環(huán)境要求: 投影儀、白板、大白紙 培訓(xùn)形式: 實例講授,現(xiàn)場演、練、及時溝通 培訓(xùn)資料: 培訓(xùn)教材 課程內(nèi)容 課程概述: 了解Apache Pig、Apache Hive及Apache Impala如何通過刪選、連接進行數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)分析,以及利用其它常見技術(shù)自定義用戶功能。 培訓(xùn)前提: 建議需具備SQL、簡單Unix/Linux命令和腳本編程經(jīng)驗。無需Hadoop基礎(chǔ)和其他經(jīng)驗。 授課對象: 需要使用Hadoop來進行數(shù)據(jù)分析的數(shù)據(jù)分析員,商業(yè)分析員,開發(fā)員以及 系統(tǒng)管理員。 培訓(xùn)目標(biāo): Apache Hadoop基礎(chǔ)及數(shù)據(jù)ETL(包括數(shù)據(jù)提取、轉(zhuǎn)換及加載)、如何通過使用Hadoop相關(guān)工具將數(shù)據(jù)載入Hadoop并進行分析處理 如何使用Apache Pig對多個關(guān)聯(lián)的數(shù)據(jù)集進行join操作以及如何分析不同的獨立數(shù)據(jù) 如何使用Apache Hive:通過定義合適的表來組織數(shù)據(jù)、執(zhí)行各種數(shù)據(jù)變換、簡化復(fù)雜查詢 如何使用Impala來對存儲在HDFS里的大規(guī)模數(shù)據(jù)進行實時和交互式的分析查詢 如何根據(jù)數(shù)據(jù)分析任務(wù)來選擇合適的數(shù)據(jù)分析工具 環(huán)境準(zhǔn)備: 1、操作系統(tǒng):Linux 2、java環(huán)境:jdk6以上 3、硬件環(huán)境:電腦內(nèi)存4G以上 課程內(nèi)容: > 關(guān)于該課程 > 關(guān)于 Cloudera > 課程的邏輯介紹 Hadoop 基礎(chǔ) > Hadoop的動機 > Hadoop 概況 > HDFS > MapReduce > Hadoop 生態(tài)圈 > 實驗場景介紹 > 實驗: 用Hadoop工具導(dǎo)入數(shù)據(jù) Pig簡介 > 什么是 Pig? > Pig的特性 > Pig使用案例 > 和Pig交互 用Pig進行基本數(shù)據(jù)分析 > Pig Latin 語法 > 數(shù)據(jù)裝載 > 簡單數(shù)據(jù)類型 > Field 定義 > 數(shù)據(jù)輸出 > 表結(jié)構(gòu)視圖 > 數(shù)據(jù)過濾和排序 > 常用功能 > 實驗: 用Pig 執(zhí)行ETL流程 Pig處理復(fù)雜數(shù)據(jù) > 存儲格式 > 復(fù)雜/Nested嵌套的數(shù)據(jù)類型 > 成群 > 處理復(fù)雜數(shù)據(jù)的內(nèi)置功能 > 迭代成群的數(shù)據(jù) > 實驗: 用Pig分析廣告戰(zhàn)役的數(shù)據(jù) Pig的多數(shù)據(jù)組操作 > 集成多數(shù)據(jù)組的技術(shù) > Pig鏈接多數(shù)據(jù)組 > 組操作 > 數(shù)據(jù)組分裂 > 實驗: 用Pig分析離散的數(shù)據(jù)組 擴展 Pig > 用參數(shù)帶來靈活性 > Macros 和 Imports > UDFs > Contributed Functions > 用其他語言和Pig一起處理數(shù)據(jù) > 實驗: 用流處理和UDFs擴展Pig Pig 故障排查和優(yōu)化 > Pig故障排查> 記錄日志 > 使用Hadoop Web 界面 > 演示: 用Web 界面排查一個故障的任務(wù) > Data 采樣和故障排查 > 性能簡介 > 理解執(zhí)行計劃(Execution Plan) > 提高你Pig任務(wù)性能的竅門 Hive簡介 > 什么是 Hive? > Hive 表結(jié)構(gòu)和數(shù)據(jù)存儲 > 對比Hive和傳統(tǒng)數(shù)據(jù)庫 > Hive vs. Pig > Hive 使用案例 > 和Hive的互操作 Hive的關(guān)系數(shù)據(jù)分析 > Hive 數(shù)據(jù)庫和表 > 基本HiveQL 語法 > 數(shù)據(jù)類型 > 鏈接數(shù)據(jù)組 > 通用內(nèi)建功能 > 實驗: 在Shell, 腳本和Hue上運行運行Hive 查詢 Hive 數(shù)據(jù)管理 > Hive 數(shù)據(jù)格式 > 創(chuàng)建數(shù)據(jù)庫和 由 Hive管理的表 > 向 Hive裝載 數(shù)據(jù) > 改變數(shù)據(jù)庫和表 > 自治表格 > 用視圖簡化查詢 > 排列查詢結(jié)果 > 數(shù)據(jù)的訪問控制 > 實驗: Hive的數(shù)據(jù)管理 Hive 的文本處理 > 文本處理簡介 > 重要的字符串(String)功能 > 使用Hive 的標(biāo)準(zhǔn)表達式(Regular Expressions) > Sentiment Analysis and N-Grams > 實驗: 通過敏感性分析(Sentiment Analysis)收獲洞察 Hive 優(yōu)化 > 理解查詢性能 > 控制任務(wù)執(zhí)行計劃 > 分區(qū) > Bucketing > 索引數(shù)據(jù) Hive擴展 > SerDes > 用定制腳本完成數(shù)據(jù)轉(zhuǎn)型 > 自定義功能 > Parameterized Queries > 實驗: Hive的數(shù)據(jù)轉(zhuǎn)型 Impala 簡介 > 什么是 Impala? > Impala 和 Hive和 Pig的不同 > 局限和未來方向 > 使用Impala Shell 采樣Impala分析數(shù)據(jù) > 基本語法 > 數(shù)據(jù)類型 > 過濾, 排序, and Limiting Results > 鏈接和組隊數(shù)據(jù) > 提升 Impala 性能 > 實驗: Impala的交互式分析 為任務(wù)選擇*的工具 > 對比 MapReduce, Pig, Hive, Impala和關(guān)系數(shù)據(jù)庫 > 選擇哪個?
姓名不能為空
手機號格式錯誤