本課程從數(shù)據(jù)庫和數(shù)據(jù)倉庫的角度全面、系統(tǒng)地介紹數(shù)據(jù)挖掘的基本概念、基本方法和基本技術,以及數(shù)據(jù)挖掘的最新進展。要求學生通過本課程的學習,認識數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在當今計算機應用中的重要作用,深入了解數(shù)據(jù)挖掘的整體結構,掌握數(shù)據(jù)預處理技術(包括數(shù)據(jù)清理、數(shù)據(jù)集成和轉換、數(shù)據(jù)歸約等方法)和數(shù)據(jù)挖掘技術(包括分類、預測、關聯(lián)和聚類的概念與技術),并且熟悉數(shù)據(jù)挖掘的基本原理和發(fā)展方向。
一、課程基本信息
課程編號: 08191610
課程英文名稱:Enterprise data warehouse and data mining
授課對象:計算機專業(yè)軟件工程方向全日制本科學生
課程類型: 職教任選課
建議學時:總學時56,其中講授40學時,實驗16學時
學分: 3
與相關課程的銜接:先導課程《程序設計》、《數(shù)據(jù)結構》、《數(shù)據(jù)庫原理》、《人工智能》、《數(shù)理統(tǒng)計》
考核方式: 考查
二、教學目標和要求
信息技術的迅速發(fā)展已從簡單的批處理、聯(lián)機事務處理的信息處理時代,進入了聯(lián)機分析處理、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的信息分析時代。數(shù)據(jù)倉庫以數(shù)據(jù)庫技術作為存儲數(shù)據(jù)和資源管理的手段,以聯(lián)機分析處理技術和方法作為提取信息的有效手段,以數(shù)據(jù)挖掘和人工智能的模型、算法作為發(fā)現(xiàn)知識和規(guī)律的途徑。數(shù)據(jù)挖掘是數(shù)據(jù)庫研究、開發(fā)和應用最活躍的分支之一。本課程從數(shù)據(jù)庫和數(shù)據(jù)倉庫的角度全面、系統(tǒng)地介紹數(shù)據(jù)挖掘的基本概念、基本方法和基本技術,以及數(shù)據(jù)挖掘的最新進展。要求學生通過本課程的學習,認識數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在當今計算機應用中的重要作用,深入了解數(shù)據(jù)挖掘的整體結構,掌握數(shù)據(jù)預處理技術(包括數(shù)據(jù)清理、數(shù)據(jù)集成和轉換、數(shù)據(jù)歸約等方法)和數(shù)據(jù)挖掘技術(包括分類、預測、關聯(lián)和聚類的概念與技術),并且熟悉數(shù)據(jù)挖掘的基本原理和發(fā)展方向。
三、教學內容、教學方式與課時分配
(一) 第一章:緒論(3學時)
教學基本內容:
數(shù)據(jù)挖掘產生的背景;數(shù)據(jù)挖掘任務及過程;數(shù)據(jù)挖掘應用;數(shù)據(jù)挖掘技術的前景、研究熱點。
教學要求:
掌握:數(shù)據(jù)挖掘任務及挖掘過程、數(shù)據(jù)挖掘定義、數(shù)據(jù)挖掘常用軟件、數(shù)據(jù)挖掘的研究熱點。
了解:數(shù)據(jù)挖掘產生背景;數(shù)據(jù)挖掘的價值和前景。
教學方式:課堂講授3學時
(二)第二章:數(shù)據(jù)處理基礎(6學時)
教學基本內容:
數(shù)據(jù)定義及類型;數(shù)據(jù)統(tǒng)計特性;數(shù)據(jù)預處理;相似性度量。
教學要求:
掌握:數(shù)據(jù)屬性類型、數(shù)據(jù)的中心度量標準、數(shù)據(jù)預處理過程、屬性和對象之間的相似性度量。
了解:數(shù)據(jù)定義及數(shù)據(jù)類型。
教學方式:課堂講授6學時
(三)第三章:分類與回歸(9學時)
教學基本內容:
分類與回歸概述;決策樹分類方法;貝葉斯分類方法;k-最近鄰分類方法;神經網絡分類方法;支持向量機;集成學習法;不平衡數(shù)據(jù)分類;分類模型的評估;回歸。
教學要求:
掌握:分類與回歸定義、決策樹分類方法、貝葉斯分類方法、k-最近鄰分類方法、分類模型的評估。
了解:神經網絡分類方法;支持向量機;集成學習法。
教學方式:課堂講授9學時
(四)第四章:聚類分析(6學時)
教學基本內容:
聚類分析概述;基于劃分的聚類算法;層次聚類算法;基于密度的聚類算法;一趟聚類算法;聚類算法評價。
教學要求:
掌握:聚類分析定義、k-means聚類算法、k-medoids算法、DBSCAN算法、聚類方法評價。
了解:二分k-means算法;一趟聚類算法。
教學方式:課堂講授6學時
(五)第五章:關聯(lián)分析(9學時)
教學基本內容:
關聯(lián)分析概述;頻繁項集發(fā)現(xiàn)算法;關聯(lián)規(guī)則的生成;非二元屬性的關聯(lián)規(guī)則挖掘;關聯(lián)規(guī)則的評價;序列模式。
教學要求:
掌握:Apriori算法、FP-growth算法、關聯(lián)規(guī)則的生成、支持度和置信度的計算。
了解:非二元屬性的關聯(lián)規(guī)則挖掘;序列模式及發(fā)現(xiàn)算法。
教學方式:課堂講授9學時
(六)第六章:離群點挖掘(3學時)
教學基本內容:
離群點概述;基于統(tǒng)計的方法;基于距離的方法;基于相對密度的方法。
教學要求:
掌握:基于統(tǒng)計的方法;基于距離的方法。
了解:其他離群點挖掘算法。
教學方式:課堂講授3學時
(七)第七章:數(shù)據(jù)挖掘的應用(4學時)
教學基本內容:
數(shù)據(jù)挖掘在電信業(yè)中的應用;文本挖掘與Web數(shù)據(jù)挖掘。
教學要求:
掌握:數(shù)據(jù)挖掘主要研究方向在電信業(yè)中的應用。
了解:文本挖掘與Web數(shù)據(jù)挖掘。
教學方式:課堂講授4學時
四、實踐環(huán)節(jié)
具體安排見“企業(yè)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘實驗教學大綱”
五、教材
蔣盛益等《數(shù)據(jù)挖掘原理與實踐》電子工業(yè)出版社 2013年2月第二版
六、參考資料
1. (美)譚,(美)斯坦巴赫著,范明等譯《數(shù)據(jù)挖掘導論——圖靈計算機科學叢書》人民郵電出版社2006年第一版
2. 韓家煒著,范明等譯《數(shù)據(jù)挖掘概念與技術》機械工業(yè)出版社2007年第二版
七、必要的說明
無
執(zhí)筆人:
審核: