培訓(xùn)內(nèi)容 :
目標(biāo)收益
本課程將為大家全面而又深入的介紹Hadoop和Spark平臺的構(gòu)建流程,涉及Hadoop和Spark系統(tǒng)基礎(chǔ)知識,概念及架構(gòu), Hadoop和Spark實(shí)戰(zhàn)技巧(數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)),Hadoop和Spark經(jīng)典案例等。
通過本課程實(shí)踐,幫助學(xué)員對Hadoop生態(tài)系統(tǒng)有一個清晰明了的認(rèn)識;理解Hadoop系統(tǒng)適用的場景;掌握Hadoop等初 中級應(yīng)用開發(fā)技能;搭建穩(wěn)定可靠的Hadoop集群,滿足生產(chǎn)環(huán)境的標(biāo)準(zhǔn);掌握如何應(yīng)用hadoop和spark完成數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)任務(wù);了解和清楚大數(shù)據(jù)應(yīng)用的幾個行業(yè)中的經(jīng)典案例。
培訓(xùn)對象
各類 IT/軟件企業(yè)和研發(fā)機(jī)構(gòu)的軟件架構(gòu)師、軟件設(shè)計(jì)師、程序員。對于懷有設(shè)計(jì)疑問和問題,需要梳理解答的團(tuán)隊(duì)和個人,效果*。
學(xué)員基礎(chǔ)
學(xué)員學(xué)習(xí)本課程應(yīng)具備下列基礎(chǔ)知識: 1) 了解Java語言; 2) 了解Linux系統(tǒng);
3) 數(shù)據(jù)挖掘基礎(chǔ)
課程大綱
?
主題 內(nèi)容
大數(shù)據(jù)架構(gòu)概述 1. 大數(shù)據(jù)層級結(jié)構(gòu)
介紹大數(shù)據(jù)系統(tǒng)基本架構(gòu)與流程
2. Hadoop生態(tài)系統(tǒng)概述以及版本演化
概要介紹Hadoop生態(tài)系統(tǒng)及其版本演化歷史,并給出hadoop版本選擇建議。
3. Spark生態(tài)系統(tǒng)概述
概要介紹Spark生態(tài)系統(tǒng)及其特點(diǎn),并與Hadoop對比
數(shù)據(jù)收集系統(tǒng)Flume與Sqoop 介紹如何使用flume和sqoop兩個系統(tǒng)將外部流式數(shù)據(jù)(比如網(wǎng)站日志,用戶行為數(shù)據(jù)等)、關(guān)系型數(shù)據(jù)庫(比如MySQL、Oracle等)中的數(shù)據(jù)導(dǎo)入Hadoop中進(jìn)行分析和挖掘
大數(shù)據(jù)存儲系統(tǒng)HDFS與HBase 1. 1. HDFS 2.0 原理、特性與基本架構(gòu)
2. 理論:介紹HDFS 2.0原理與架構(gòu),以及使用方式
3.
4. 2. HBase原理,基本架構(gòu)與案例分析
5. 理論:介紹HBase應(yīng)用場景、原理和架構(gòu),介紹幾個HBase典型應(yīng)用案例,包括互聯(lián)網(wǎng)應(yīng)用案例和銀行應(yīng)用案例。
分布式計(jì)算技術(shù)MapReduce與Hive 1. 介紹計(jì)算框架MapReduce基本原理,架構(gòu)及程序設(shè)計(jì)方式
2. 動手編寫*個MapReduce程序
3. Hive基本原理及使用方式
分布式計(jì)算技術(shù)Spark 1. 介紹計(jì)算框架Spark基本原理,架構(gòu)及程序設(shè)計(jì)方式
2. Spark程序設(shè)計(jì)
數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí) 1. 常見的數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)算法
2. Hadoop數(shù)據(jù)挖掘庫mahout
3. Spark數(shù)據(jù)挖掘庫mllib
應(yīng)用案例1:基于Hadoop的構(gòu)建數(shù)據(jù)倉庫 1. 數(shù)據(jù)倉庫基礎(chǔ)介紹
2. 如何利用大數(shù)據(jù)系統(tǒng)構(gòu)建數(shù)據(jù)倉庫
使用Flume+HDFS+MapReduce+Hive構(gòu)建數(shù)據(jù)倉庫
3. 數(shù)據(jù)倉庫基本架構(gòu)
4. 數(shù)據(jù)倉庫應(yīng)用
如報(bào)表生成
應(yīng)用案例2:用戶畫像系統(tǒng) 1. 什么是用戶畫像系統(tǒng)
2. 如何構(gòu)建用戶畫像系統(tǒng)
使用Flume/sqoop+HDFS+HBase+MapReduce/Spark+redis構(gòu)建用戶標(biāo)簽系統(tǒng)
3. 用數(shù)據(jù)挖掘方式構(gòu)建用戶標(biāo)簽?
應(yīng)用邏輯回歸、聚類、分類等機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法構(gòu)建用戶標(biāo)簽
4. 用戶畫像系統(tǒng)應(yīng)用
用戶畫像系統(tǒng)在用戶信用等級分級、大數(shù)據(jù)營銷中、用戶流失預(yù)警、潛在用戶分析、異常檢測與分析等方面的應(yīng)用
應(yīng)用案例3:商品推薦系統(tǒng) 1. 什么是商品推薦系統(tǒng)
2. 商品推薦系統(tǒng)基本架構(gòu)
使用Flume+HDFS +Spark+Redis構(gòu)建推薦系統(tǒng)
3. 推薦算法
推薦算法詳解
應(yīng)用案例4:數(shù)據(jù)挖掘系統(tǒng) 1. 什么是數(shù)據(jù)挖掘系統(tǒng)
2. 數(shù)據(jù)挖掘算法的使用
以Spark為主,如何設(shè)計(jì)和實(shí)現(xiàn)邏輯回歸、聚類、分類等機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法
3. 數(shù)據(jù)挖掘的典型應(yīng)用