INTRODUCTION TO DATA MINING (數據挖掘)
1) For undergraduate students in Computer Science major
2) South campus, GDUFS
3) Starting at September 2016; March 2017; September 2017; March 2018
4) 48 study scores in total
5) Scheduled as 16 weeks in total (16*3, 1~2 weeks for each chapter)
Teaching Materials:
1) 《數據挖掘原理與實踐》,蔣盛益等著,電子工業出版社,2011
2) 《商務數據挖掘與應用案例分析》,蔣盛益著,電子工業出版社,2014
3) Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Mining.
(美)譚,(美)斯坦巴赫 著,范明等譯.數據挖掘導論, 圖靈計算機科學叢書. 人民郵電出版社.2006
4) Jiawei Han, Micheline Kamber, Jian Pei. Data Mining: Concepts and Techniques
(加)韓家煒,堪博(Kam ber, M.)著,范明,孟小峰譯.數據挖掘概念與技術(原書第2版). 機械工業出版社.2007
5) Ian H. Witten, Eibe Frank, Mark A. Hall. Data Mining Practical Machine Learning Tools and Techniques.Morgan Kaufmann Publishers
Ian H. Witten, Eibe Frank, Mark A. Hall 著, 李川等譯. 數據挖掘-實用機器學習工具與技術. 機械工業出版社
6) 袁梅宇著. 數據挖掘與機器學習WEKA應用技術與實踐. 清華大學出版社. 2014
7) Peter Harrington. Machine Learning in Action.
(美)Peter Harrington, 李銳等譯. 機器學習實戰.圖靈計算機科學叢書. 人民郵電出版社. 2013
8) Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman. Mining of Massive Datasets (Second Edition)
(美)Jure Leskovec等著, 王斌譯. 互聯網大規模數據挖掘與分布式處理.圖靈計算機科學叢書. 人民郵電出版社. 2015
Practice resource:
1) Weka 3: Data Mining Software in Java
2) Downloading and installing Weka
3) General Weka documentation (manual Weka 3.8.0)
Related resources:
1) 《Introduction to Data Mining》 by Pang-Ning Tan, Michael Steinbach, Vipin Kumar, University of Minnesota, course resource
2) 《Introduction to Data Mining》 by Prof. Qiang Yang, 香港科技大學, course resource
3) 《Data Mining》 by Prof. Chris Clifton, Purdue University, course resource
周 次 | 內容(章節、知識點) |
第1周 | 課程介紹 第1章 緒論 1.1 數據挖掘產生的背景 1.2 數據挖掘任務及過程 1.3 數據挖掘應用 1.4 數據挖掘的前景、研究熱點 |
第2周 | 第2章 數據處理基礎 2.1 數據 2.2 數據統計特性 2.3 數據預處理 |
第3周 | 2.4 相似性度量 數據挖掘在電信行業中的應用 |
第4周 | 第3章 分類與回歸 3.1 概述 3.2 決策樹分類方法 |
第5周 | 3.3 貝葉斯分類方法 3.4 K-最近鄰分類方法 3.7 組合學習方法 3.9 分類模型的評價 3.10 回歸方法 |
第6周 | WEKA介紹 實驗一:分類 Project分組宣講 |
第7周 | 第4章 聚類分析 4.1 概述 4.2 基于劃分的聚類算法 4.3 層次聚類算法 |
第8周 | 4.4 基于密度的聚類算法 4.6 一趟聚類算法 4.7 基于原型的聚類算法 |
第9周 | 實驗二:聚類 |
第10周 | 第5章 關聯分析 5.1 概述 5.2 頻繁項集發現算法 5.3 關聯規則的生成 5.4 非二元屬性的關聯規則挖掘 5.5 關聯規則的評價 5.6 序列問題 |
第11周 | 實驗三:關聯分析 Project進展匯報 |
第12周 | 第6章 異常挖掘 6.1 異常挖掘概述 6.2 基于統計的方法 6.3 基于距離的方法 |
第13周 | 6.4 基于密度的方法 6.5 基于聚類的方法 |
第14周 | 實驗四:異常挖掘 |
第15周 | Project檢查 |
第16周 | Project答辯 |