Hadoop關鍵技術Spark內存計算框架
Hadoop關鍵技術 Spark內存計算框架
Hadoop關鍵技術與Spark內存計算框架
本課程將介紹目前大數據的核心技術和應用實例,并以實踐操作和項目式教學的方式著重講解Hadoop和Spark的基本原理和應用。
一、Hadoop關鍵技術
學習如何安裝運行各種大數據軟件以及如何進行初級編程實踐,包括Hadoop、HDFS、MapReduce等安裝、操作和編程。其中會介紹一些Hadoop的應用案例,并通過一些實驗初步了解Hadoop的操作。
第1章 Hadoop概論1.1 緣于搜索的Hadoop1.1.1 Hadoop簡介1.1.2 Hadoop發展1.2 大數據、Hadoop的關系1.3 Hadoop設計思想與架構1.3.1 數據存儲與切分1.3.2 MapReduce模型1.3.3 MPI和MapReduce第2章 Hadoop存儲系統2.1 基本概念2.1.1 NameNode2.1.2 DateNode2.1.3 客戶端2.1.4 塊2.2 HDFS的特性和目標2.2.1 HDFS的特性2.2.2 HDFS的目標2.3 HDFS架構2.3.1 Master/Slave架構2.3.2 NameNode和Secondary NameNode通信模型2.3.3 文件存取機制2.4 HDFS核心設計2.5 HDFS權限管理第3章 HDFS的使用3.1 HDFS環境準備3.2 HDFS命令的使用3.3 HDFS Java API的使用方法第4章 MapReduce計算框架4.1 Hadoop MapReduce簡介4.2 MapReduce模型4.2.1 MapReduce編程模型4.2.2 MapReduce實現原理
第5章 Hadoop命令系統5.1 Hadoop命令系統的組成5.2 用戶命令
第6章 Hadoop作業調度系統6.1 作業調度概述6.1.1 相關概念6.1.2 作業調度流程6.1.3 集群資源組織與管理6.1.4 隊列控制和權限管理6.1.5 插件式調度框架
第7章 Hadoop集群搭建7.1 Hadoop版本的選擇7.2 集群基礎硬件需求7.3 安裝Hadoop實驗
實驗一:熟悉常用的 Linux 操作和 Hadoop 操作
實驗二:熟悉常用的 HDFS 操作
實驗三:熟悉常用的 HBase 操作
實驗四:NoSQL 和關系數據庫的操作比較
實驗五:MapReduce 初級編程實踐
二、Spark內存計算框架
介紹為什么會出現Spark?Spark是什么?Spark能做什么?還有Spark安裝、使用以及編程基礎,并初步了解Spark SQL等核心技術。其中穿插一些Spark的典型應用案例,并通過動手實驗初步體驗Spark的應用。
第8章 Spark概述8.3.1 Spark的出現與發展8.3.2 Spark協議族8.3.3 Spark的應用及優勢第9章 Spark原理9.1 Spark工作原理9.2 Spark架構及運行機制9.2.1 Spark系統架構與節點角色9.2.2 Spark作業執行過程9.2.3 應用初始化9.2.4 構建RDD有向無環圖9.2.5 RDD有向無環圖拆分
第10章 RDD算子10.1 創建算子10.1.1 基于集合類型數據創建RDD10.1.2 基于外部數據創建RDD10.2 transformation變換算子10.2.1對Value型RDD進行變換10.2.2對Key/ Value型RDD進行變換10.3 action行動算子10.3.1 數據運算類行動算子10.3.2 存儲型行動算子
第11章 安裝和使用Spark11.1 安裝Spark11.2 編寫和運行Spark程序實驗:
實驗1:Linux系統基本命令和Hadoop使用方法
實驗2:RDD基本操作
實驗3:迭代式算法編程實踐
實驗4:自定義分匙、排序、合并
實驗5:利用DataFrame實現數據庫的讀寫
實驗 6:利用 Spark Streaming 實現流數據處理