我我色综合,国产精品永久在线观看,成人免费一区二区三区

教學大綱 Teaching Syllabus

教學目的:

大數據平臺課程主要介紹當前信息管理領域中涉及到大數據理論及其應用的各個大數據平臺/技術，以培養具備大數據應用及開發能力的優秀大數據工程師。

教學要求:

1、學生能夠理解大數據理論，以及掌握諸如基于網頁爬蟲的大數據收集、基于NoSQL的大數據存儲、基于Hadoop的大規模文件系統、基于MapReduce的大數據處理、數據流挖掘等大數據相關技術/工具；

2、學生能夠基于IBM InfoSphere BigInsights以及IBM InfoSphere Streams等大數據平臺將大數據理論應用于當前信息管理的各個領域；

3、訓練學生一定的知識檢索和科研能力。

教學內容:

該課程主要從理論教學、實驗教學和開發應用三個層面入手。

講授的理論內容包括:1）第一章:大數據理論及大數據潛力；2）第二章:NoSQL非關系型高級數據模型管理大數據；3）第三章:大規模文件系統及MapReduce，特別是Hadoop分布式文件系統及其在MapReduce中實現；4）第四章:數據流的管理與挖掘等。這四大內容均配有理論課程授課視頻。

實驗教學方面包括:1）第一章實驗:基于各種語言編寫的網頁爬蟲程序從各種網頁爬取大數據；2）第二章實驗:采用NoSQL文檔類型的MongoDB數據庫應用實驗；3）第三章實驗:兩個基于MapReduce的大數據處理分析算法實驗；4）第四章實驗:一個基于SVStream的流數據聚類算法實驗。

開發應用方面:主要以IBM InfoSphere BigInsights(大數據處理)和IBM InfoSphere Streams(流數據處理)等信息管理和大數據平臺相關軟件作為該課程的應用開發平臺。本課程的實驗教學部分將以課程負責人參加的2013IBM大數據平臺師資培訓課程實驗為主，即基于IBM大學合作部所提供的VM+IBM大數據軟件環境作為主體實驗環境。

教學方式:

講授理論結合指導實驗以及應用開發

學時分配:

本課程的教學主要是理論教學結合實驗教學以及應用開發。在低年級本科生已經學了數據庫，機器學習等基礎課程的基礎上，我們這門大數據平臺課程擬從理論結合實驗及應用開發講解大數據平臺的四個主要知識點，共76個學時。具體學時分配如下:

1、大數據理論、應用潛力及數據爬蟲實驗:共10學時

大數據理論:3學時

大數據應用潛力:3學時

網頁大數據爬蟲實驗:4學時

2、NoSQL技術及其實驗:共20學時

NoSQL產生背景:2學時

大數據模型:3學時

大數據一致性:3學時

版本戳記:2學時

NoSQL的四大代表性數據庫及其比較:6學時

采用NoSQL文檔類型的MongoDB數據庫應用實驗:4學時

3、大規模文件系統、MapReduce及實驗和應用開發:共26學時

分布式文件系統:4學時

Hadoop:4學時

MapReduce:6學時

基于MapReduce的大數據處理分析算法實驗:4學時

基于IBM InfoSphere BigInsights的大數據應用開發:8學時

4、流數據挖掘、實驗及應用開發:共20學時

流數據模型:3學時

流數據管理和處理:3學時

指數衰退模型:2學時

基于SVStream的流數據聚類算法實驗:4學時

基于IBM InfoSphere Streams的流數據應用開發:8學時

參考文獻目錄:

[1] E. Dumbill, editor. Planningfor Big Data . O’Reilly Media, Inc., 2012.

[2] J. Manyika, M. Chui, B.Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. H. Byers. Big data: The nextfrontier for innovation, competition, and productivity. McKinsey GlobalInstitute, May 2011.

[3] A. Rajaraman and J. D. Ullman.Mining of Massive Datasets. Cambridge University Press, 2011.

[4] P. J. Sadalage and M.Fowler. NoSQL Distilled: A Brief Guide to the Emerging World of PolyglotPersistence . Addison-Wesley Professional, 2012.

[5] G. Vaish. Getting Startedwith NoSQL . Packt Publishing Ltd., 2013.

[6] 陸嘉恒. 大數據挑戰與NoSQL數據庫技術. 電子工業出版社.2013.

[7] W. Zhao, H. Ma and Q. He. ParallelK-Means Clustering Based on MapReduce. CloudCom 2009, LNCS 5931, pp. 674–679,2009.

[8] InfoSphere BigInsights: Bringingthe power of Hadoop to the enterprise. http://www-01.ibm.com/software/data/infosphere/biginsights/.

[9] C. M. Saracco, D. Kikuchiand T. Friedrich. Developing, publishing, and deploying your first BigDataapplication with InfoSphere BigInsights. developerWorks. 2013.

[10] C.-D. Wang, J.-H. Lai, D.Huang, and W.-S. Zheng. SVStream: A support vector based algorithm forclustering data streams. IEEE Transactions on Knowledge and Data Engineering,25(6):1410–1424, 2013.

[11] InfoSphere Streams: Captureand analyze data in motion. http://www-03.ibm.com/software/products/en/infosphere-streams.

[12] S. Soares. IBM InfoSphere:A Platform for Big Data Governance and Process Data Governance. MC PressOnline, LLC. 2013.