Spark在機(jī)器學(xué)習(xí)方面有著無(wú)與倫比的優(yōu)勢(shì),特別適合需要多次迭代計(jì)算的算法。同時(shí)Spark的擁有非常出色的容錯(cuò)和調(diào)度機(jī)制,確保系統(tǒng)的穩(wěn)定運(yùn)行。
1、云計(jì)算大數(shù)據(jù)從業(yè)者;
2、Hadoop使用者;
3、系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級(jí)程序員、開(kāi)發(fā)人員;
4、牽涉到大數(shù)據(jù)處理的數(shù)據(jù)中心運(yùn)行、規(guī)劃、設(shè)計(jì)負(fù)責(zé)人;
5、機(jī)關(guān),金融保險(xiǎn)、移動(dòng)和互聯(lián)網(wǎng)等大數(shù)據(jù)來(lái)源單位的負(fù)責(zé)人;
6、高校、科研院所涉及到大數(shù)據(jù)與分布式數(shù)據(jù)處理的項(xiàng)目負(fù)責(zé)人;
7、數(shù)據(jù)倉(cāng)庫(kù)管理人員、建模人員,分析和開(kāi)發(fā)人員、系統(tǒng)管理人員、數(shù)據(jù)庫(kù)管理人員以及對(duì)數(shù)據(jù)倉(cāng)庫(kù)感興趣的其他人員;
Spark的架構(gòu)設(shè)計(jì) 1.1 Spark的速度為什么如此的快? 1.2 Spark 生態(tài)系統(tǒng) 1.3 Spark的架構(gòu)設(shè)計(jì)剖析 1.4 RDD計(jì)算流程解析 1.5 Spark的出色容錯(cuò)機(jī)制 1.6Spark分布式架構(gòu)與單機(jī)多核架構(gòu)的異同 1.7 Spark的企業(yè)級(jí)應(yīng)用 Spark在Amazon中的應(yīng)用 Spark在Yahoo!的應(yīng)用 Spark在西班牙電信的應(yīng)用 Spark在淘寶的應(yīng)用 Spark集群的安裝和設(shè)置 2.1 在一臺(tái)機(jī)器上運(yùn)行Spark 2.2 在Mesos上部署Spark 2.3 在YARN上部署Spark 2.4 通過(guò)SSH在眾多機(jī)器上部署Spark 2.5 Spark集群設(shè)置 Spark開(kāi)發(fā)環(huán)境配置及流程 3.1 Scala簡(jiǎn)介、為什么Spark會(huì)使用Scala作為開(kāi)發(fā)語(yǔ)言 3.2使用Eclipse開(kāi)發(fā)Spark程序 3.3深入使用Spark Shell 3.4遠(yuǎn)程調(diào)試Spark程序 3.5 Spark編譯 3.6配置Spark源碼閱讀環(huán)境 3.6.1 Maven 3.6.2 3.7 Spark 編程實(shí)戰(zhàn)Java\Scala\Python語(yǔ)言的案例 3.7.1 Spark WordCount 3.7.2 Spark 排序 3.7.3. 使用Spark讀取HDFS\File 數(shù)據(jù) 快速掌握Scala 4.1 Scala變量聲明、操作符、函數(shù)的使用實(shí)戰(zhàn) 4.2 apply方法 4.3 Scal的控制結(jié)構(gòu)和函數(shù) 4.4 Scala數(shù)組的操作、Map的操作 4.5 Scala中的類(lèi) 4.6 Scala中對(duì)象的使用; 4.7 Scala中的繼承 4.8 Scala中的特質(zhì) 4.9 Scala中集合操作 |
Spark On Yarn Spark on Yarn & Spark as a service Spark on Yarn原理 Spark on Yarn實(shí)踐 JobServer架構(gòu) JobServer API介紹 JobServer配置與部署
SparkContext解析和數(shù)據(jù)加載以及存儲(chǔ) 6.1 源碼剖析SparkContext 6.2 Scala、Java、Python使用SparkContext 6.4 加載數(shù)據(jù)成為RDD 6.5 把數(shù)據(jù)物化 深入實(shí)戰(zhàn)RDD 7.1 DAG 7.2 深入實(shí)戰(zhàn)各種Scala RDD Function 7.3 Spark Java RDD Function 7.4 RDD的優(yōu)化問(wèn)題 Shark與Spark SQL Shark與Hive及Shark數(shù)據(jù)模型 安裝和配置Shark及Shark數(shù)據(jù)類(lèi)型 使用Shark處理數(shù)據(jù) 在Spark程序中使用Shark Queries SharkServer Spark SQL架構(gòu) Parquet支持 DSL SQL on RDD&UDF&JDBC Server DataFrame API Hive交互 外部數(shù)據(jù)源API 與Spark其他組件的交互 Catalyst查詢(xún)優(yōu)化器 Spark程序的測(cè)試 9.1 編寫(xiě)可測(cè)試的Spark程序 9.2 Spark測(cè)試框架解析 9.3 Spark測(cè)試代碼實(shí)戰(zhàn) Spark Streaming Spark Streaming概述 Spark Streaming安裝 和 Storm 性能對(duì)比分析 DStream Operations Persistence |