IBM公司產學合作專業綜合改革項目面向高校計算機學院、軟件學院及相關院系,通過支持多個專業方向課程建設,改進課程教學內容,優化課程體系,推進優質教學資源共享,提升計算機專業教學質量。2013年IBM公司產學合作專業綜合改革項目重點支持大數據、云計算、企業計算、軟件工程等專業方向的課程建設。本課程是經學校申報,專家評審,最終確定的全國 20門課程之一。
大數據平臺課程主要介紹當前信息管理領域中涉及到大數據理論及其應用的各個大數據平臺/技術,以培養具備大數據應用及開發能力的優秀大數據工程師。
1、學生能夠理解大數據理論,以及掌握諸如基于網頁爬蟲的大數據收集、基于NoSQL的大數據存儲、基于Hadoop的大規模文件系統、基于MapReduce的大數據處理、數據流挖掘等大數據相關技術/工具;
2、學生能夠基于IBM InfoSphere BigInsights以及IBM InfoSphere Streams等大數據平臺將大數據理論應用于當前信息管理的各個領域;
3、訓練學生一定的知識檢索和科研能力。
該課程主要從理論教學、實驗教學和開發應用三個層面入手。
講授的理論內容包括:1)第一章:大數據理論及大數據潛力;2)第二章:NoSQL非關系型高級數據模型管理大數據;3)第三章:大規模文件系統及MapReduce,特別是Hadoop分布式文件系統及其在MapReduce中實現;4)第四章:數據流的管理與挖掘等。這四大內容均配有理論課程授課視頻。
實驗教學方面包括:1)第一章實驗:基于各種語言編寫的網頁爬蟲程序從各種網頁爬取大數據;2)第二章實驗:采用NoSQL文檔類型的MongoDB數據庫應用實驗;3)第三章實驗:兩個基于MapReduce的大數據處理分析算法實驗;4)第四章實驗:一個基于SVStream的流數據聚類算法實驗。
開發應用方面:主要以IBM InfoSphere BigInsights(大數據處理)和IBM InfoSphere Streams(流數據處理)等信息管理和大數據平臺相關軟件作為該課程的應用開發平臺。本課程的實驗教學部分將以課程負責人參加的2013IBM大數據平臺師資培訓課程實驗為主,即基于IBM大學合作部所提供的VM+IBM大數據軟件環境作為主體實驗環境。
講授理論結合指導實驗以及應用開發
本課程的教學主要是理論教學結合實驗教學以及應用開發。在低年級本科生已經學了數據庫,機器學習等基礎課程的基礎上,我們這門大數據平臺課程擬從理論結合實驗及應用開發講解大數據平臺的四個主要知識點,共76個學時。具體學時分配如下:
1、大數據理論、應用潛力及數據爬蟲實驗:共10學時
大數據理論:3學時
大數據應用潛力:3學時
網頁大數據爬蟲實驗:4學時
2、NoSQL技術及其實驗:共20學時
NoSQL產生背景:2學時
大數據模型:3學時
大數據一致性:3學時
版本戳記:2學時
NoSQL的四大代表性數據庫及其比較:6學時
采用NoSQL文檔類型的MongoDB數據庫應用實驗:4學時
3、大規模文件系統、MapReduce及實驗和應用開發:共26學時
分布式文件系統:4學時
Hadoop:4學時
MapReduce:6學時
基于MapReduce的大數據處理分析算法實驗:4學時
基于IBM InfoSphere BigInsights的大數據應用開發:8學時
4、流數據挖掘、實驗及應用開發:共20學時
流數據模型:3學時
流數據管理和處理:3學時
指數衰退模型:2學時
基于SVStream的流數據聚類算法實驗:4學時
基于IBM InfoSphere Streams的流數據應用開發:8學時
[1] E. Dumbill, editor. Planningfor Big Data . O’Reilly Media, Inc., 2012.
[2] J. Manyika, M. Chui, B.Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. H. Byers. Big data: The nextfrontier for innovation, competition, and productivity. McKinsey GlobalInstitute, May 2011.
[3] A. Rajaraman and J. D. Ullman.Mining of Massive Datasets. Cambridge University Press, 2011.
[4] P. J. Sadalage and M.Fowler. NoSQL Distilled: A Brief Guide to the Emerging World of PolyglotPersistence . Addison-Wesley Professional, 2012.
[5] G. Vaish. Getting Startedwith NoSQL . Packt Publishing Ltd., 2013.
[6] 陸嘉恒. 大數據挑戰與NoSQL數據庫技術. 電子工業出版社.2013.
[7] W. Zhao, H. Ma and Q. He. ParallelK-Means Clustering Based on MapReduce. CloudCom 2009, LNCS 5931, pp. 674–679,2009.
[8] InfoSphere BigInsights: Bringingthe power of Hadoop to the enterprise. http://www-01.ibm.com/software/data/infosphere/biginsights/.
[9] C. M. Saracco, D. Kikuchiand T. Friedrich. Developing, publishing, and deploying your first BigDataapplication with InfoSphere BigInsights. developerWorks. 2013.
[10] C.-D. Wang, J.-H. Lai, D.Huang, and W.-S. Zheng. SVStream: A support vector based algorithm forclustering data streams. IEEE Transactions on Knowledge and Data Engineering,25(6):1410–1424, 2013.
[11] InfoSphere Streams: Captureand analyze data in motion. http://www-03.ibm.com/software/products/en/infosphere-streams.
[12] S. Soares. IBM InfoSphere:A Platform for Big Data Governance and Process Data Governance. MC PressOnline, LLC. 2013.