本課程從數據庫和數據倉庫的角度全面、系統地介紹數據挖掘的基本概念、基本方法和基本技術,以及數據挖掘的最新進展。要求學生通過本課程的學習,認識數據倉庫和數據挖掘在當今計算機應用中的重要作用,深入了解數據挖掘的整體結構,掌握數據預處理技術(包括數據清理、數據集成和轉換、數據歸約等方法)和數據挖掘技術(包括分類、預測、關聯和聚類的概念與技術),并且熟悉數據挖掘的基本原理和發展方向。
一、課程基本信息
課程編號: 08191610
課程英文名稱:Enterprise data warehouse and data mining
授課對象:計算機專業軟件工程方向全日制本科學生
課程類型: 職教任選課
建議學時:總學時56,其中講授40學時,實驗16學時
學分: 3
與相關課程的銜接:先導課程《程序設計》、《數據結構》、《數據庫原理》、《人工智能》、《數理統計》
考核方式: 考查
二、教學目標和要求
信息技術的迅速發展已從簡單的批處理、聯機事務處理的信息處理時代,進入了聯機分析處理、數據倉庫和數據挖掘的信息分析時代。數據倉庫以數據庫技術作為存儲數據和資源管理的手段,以聯機分析處理技術和方法作為提取信息的有效手段,以數據挖掘和人工智能的模型、算法作為發現知識和規律的途徑。數據挖掘是數據庫研究、開發和應用最活躍的分支之一。本課程從數據庫和數據倉庫的角度全面、系統地介紹數據挖掘的基本概念、基本方法和基本技術,以及數據挖掘的最新進展。要求學生通過本課程的學習,認識數據倉庫和數據挖掘在當今計算機應用中的重要作用,深入了解數據挖掘的整體結構,掌握數據預處理技術(包括數據清理、數據集成和轉換、數據歸約等方法)和數據挖掘技術(包括分類、預測、關聯和聚類的概念與技術),并且熟悉數據挖掘的基本原理和發展方向。
三、教學內容、教學方式與課時分配
(一) 第一章:緒論(3學時)
教學基本內容:
數據挖掘產生的背景;數據挖掘任務及過程;數據挖掘應用;數據挖掘技術的前景、研究熱點。
教學要求:
掌握:數據挖掘任務及挖掘過程、數據挖掘定義、數據挖掘常用軟件、數據挖掘的研究熱點。
了解:數據挖掘產生背景;數據挖掘的價值和前景。
教學方式:課堂講授3學時
(二)第二章:數據處理基礎(6學時)
教學基本內容:
數據定義及類型;數據統計特性;數據預處理;相似性度量。
教學要求:
掌握:數據屬性類型、數據的中心度量標準、數據預處理過程、屬性和對象之間的相似性度量。
了解:數據定義及數據類型。
教學方式:課堂講授6學時
(三)第三章:分類與回歸(9學時)
教學基本內容:
分類與回歸概述;決策樹分類方法;貝葉斯分類方法;k-最近鄰分類方法;神經網絡分類方法;支持向量機;集成學習法;不平衡數據分類;分類模型的評估;回歸。
教學要求:
掌握:分類與回歸定義、決策樹分類方法、貝葉斯分類方法、k-最近鄰分類方法、分類模型的評估。
了解:神經網絡分類方法;支持向量機;集成學習法。
教學方式:課堂講授9學時
(四)第四章:聚類分析(6學時)
教學基本內容:
聚類分析概述;基于劃分的聚類算法;層次聚類算法;基于密度的聚類算法;一趟聚類算法;聚類算法評價。
教學要求:
掌握:聚類分析定義、k-means聚類算法、k-medoids算法、DBSCAN算法、聚類方法評價。
了解:二分k-means算法;一趟聚類算法。
教學方式:課堂講授6學時
(五)第五章:關聯分析(9學時)
教學基本內容:
關聯分析概述;頻繁項集發現算法;關聯規則的生成;非二元屬性的關聯規則挖掘;關聯規則的評價;序列模式。
教學要求:
掌握:Apriori算法、FP-growth算法、關聯規則的生成、支持度和置信度的計算。
了解:非二元屬性的關聯規則挖掘;序列模式及發現算法。
教學方式:課堂講授9學時
(六)第六章:離群點挖掘(3學時)
教學基本內容:
離群點概述;基于統計的方法;基于距離的方法;基于相對密度的方法。
教學要求:
掌握:基于統計的方法;基于距離的方法。
了解:其他離群點挖掘算法。
教學方式:課堂講授3學時
(七)第七章:數據挖掘的應用(4學時)
教學基本內容:
數據挖掘在電信業中的應用;文本挖掘與Web數據挖掘。
教學要求:
掌握:數據挖掘主要研究方向在電信業中的應用。
了解:文本挖掘與Web數據挖掘。
教學方式:課堂講授4學時
四、實踐環節
具體安排見“企業數據倉庫與數據挖掘實驗教學大綱”
五、教材
蔣盛益等《數據挖掘原理與實踐》電子工業出版社 2013年2月第二版
六、參考資料
1. (美)譚,(美)斯坦巴赫著,范明等譯《數據挖掘導論——圖靈計算機科學叢書》人民郵電出版社2006年第一版
2. 韓家煒著,范明等譯《數據挖掘概念與技術》機械工業出版社2007年第二版
七、必要的說明
無
執筆人:
審核: