本案例庫課程目標是基于開源Hadoop生態系統構建面向大數據時代人才培養的數據科學分析實踐平臺,以真實場景為示范實現企業數據開發與管理能力培養,專注培養專業學位學生數據抽取、數據集成、數據分析、數據展示綜合能力,從大數據存儲、大數據并行處理算法、大數據分析應用三個維度,讓學生掌握實現大數據分析應用的基本工具、開發語言、實現算法與應用集成,培養學生實現單機數據處理到多機數據處理的跨越,實現從數據處理到知識處理的提升。
1.大數據4V特征分析與處理流程
2.HDFS文件系統原理與存儲實踐
3.MapReduce編程模型與實踐
4.HBASE數據模型與數據管理實踐
5.垂直搜索引擎原理與實踐
6.Hive數據倉庫原理與實踐
7.多維數據倉庫構建與主題分析
8.圖計算與內存計算引擎與實踐
9.基于大數據的個性化推薦算法實現
10.基于大數據的主題事件檢測與演化分析
參考書目:
1.利用Python進行數據分析 O’REILLY,機械工業出版社,唐學韜等譯
2.Hadoop大數據分析與挖掘實戰 張良均等,機械工業出版社
3.Spark大數據處理 技術、應用與性能優化 高彥杰著,機械工業出版社