(一)課程的性質、地位、作用和任務
《數據科學與大數據技術導論》課程是運用概率統計、分布式計算、現代軟件等綜合知識探索來自商業貿易,生物醫療,金融證券,社交網絡等眾多領域的較大規模或結構復雜數據集的高效存儲、高效管理、高效概括、深入分析和精準預測的科學和藝術。它是現代計算機科學教育中的一門核心課程,是一門跨計算機、統計學和數學領域的學科,它是計算機各專業、信息專業和其他一些與計算機技術關系密切專業的必修的基礎課程。
它的任務是討論現實世界中的各種邏輯結構、在計算機中的存儲結構以及實現各種操作的算法問題,為今后進一步學習后續專業課程、進行軟件開發和應用打好基礎。
(二)教學目的和要求
《數據科學與大數據技術導論》是一門理論和實踐緊密結合的基礎課,也是大數據技術應用的基石課程,其教學目標是運用統計分析、機器學習、分布式處理等技術,能從大量數據中提取對科學研究和生產實踐有意義的信息,以可視化等技術通過通俗易懂的形式傳達給決策者,為后續大數據技術的相關專業課學習打良好基礎。
(三)課程教學方法與手段
本課程應采用面授講解為主、指導學生自學為輔的教學方法,利用多媒體教學手段,制作條理清晰的PPT投影和動態的算法跟蹤動畫,加強學生對算法的理解。同時,開始對應的實驗指導課程,提高學生的動手操作能力。
(四)課程與其它課程的聯系
《數據科學與大數據技術導論》課程的先修課程是《概率論和數理統計》 、《數據結構》和《操作系統》,其中,《概率論和數理統計》提供了數據分析所需用到的基本數學模型和分析方法,為學生數據分析提供重要的理論基礎。《數據結構》闡釋了數據在計算機中的組織結構,讓學生在進行數據分析時能通過結構的轉換了解數據的本質。《操作系統》讓學生了解計算機基本存儲結構和進程調度原理,為學生學習分布式計算提供重要的理論依據。本課程是后續課程如《機器學習與數據挖掘》、《分布式數據庫》、《大數據處理和數據分析技術》的基礎,這些專業課中涉及的數據的組織和處理方法正是本課程的內容。
(五) 教材與教學參考書
教材:朝樂門,《數據科學理論與實踐》,清華大學出版社,2017年10月。
教學參考書:
托馬斯.埃爾,《大數據導論》,機械工業出版社,2017年6月。
美國EMC教育服務團隊,《數據科學與大數據分析:數據發現 分析 可視化表示》,人民郵電出版社,2016年7月。
第1章緒論
1.1術語定義
1.2研究目的
1.3發展簡史
1.4理論體系
1.5基本原則
1.6如何成為數據科學家
重點:掌握數據科學的理論體系,了解數據科學與大數據技術的發展歷史。
難點:據科學與大數據技術的跨學科特性,掌握本門學科的學習方法。
第2章數據科學與大數據技術的理論基礎
2.1數據科學的學科地位
2.2統計學
2.3機器學習
2.4數據可視化
重點:重溫《概率論與數理統計》的基本原理。
難點:理解監督學習和無監督學習的基本原理,掌握基本算法的編程。
第3章大數據加工和分析流程與方法
3.1基本流程
3.2數據加工
3.3數據審計
3.4數據分析
3.5數據可視化
3.6數據故事化
3.7項目管理
重點:掌握數據預處理的基本流程,掌握數據加工、數據審計、數據分析、數據可視化等常見處理手段。
難點:掌握數據預處理的基本流程,掌握數據加工、數據審計、數據分析、數據可視化等常見處理手段。
第4章大數據加工和分析所用到的技術與工具
4.1技術體系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL與NewSQL
4.6R與Python
4.7發展趨勢
重點:掌握Python、R、MapReduce、Spark等大數據加工和分析的使用。
難點:理解分布式計算的優勢,掌握Python、R、MapReduce、Spark等大數據加工和分析的使用,并利用這些工具進行基本大數據分析。
第5章大數據產品的設計與開發
5.1定義
5.2主要特征
5.3關鍵活動
5.4數據柔術
5.5數據能力
5.6數據戰略
5.7數據治理
重點:掌握大數據應用設計和開發方法,理解數據治理的基本原理。
難點:掌握大數據應用設計和開發方法,理解數據治理的基本原理。
第6章大數據典型案例分析及實踐
6.12012年美國總統大選
6.2統計分析
6.3機器學習
6.4數據可視化
6.5SparkR編程
重點:掌握前面學到的工具、算法進行基本數據分析,并完成數據可視化操作。
難點:工具、算法與應用相結合的大數據應用應用開發。