For graduate (master) students in Computer Science major
South campus, GDUFS
Starting at September 2016
36 study scores in total
Scheduled as 16 weeks in total
The book 《Mining of Massive Datasets》 version 2.1 in English, PDF file (513 pages, 3.69 MB)
《大數據-互聯網大規模數據挖掘與分布式處理》(第2版), 王斌譯
Related resources:
The book 《Mining of Massive Datasets》 version 1 in English, PDF file (340 pages, 2 MB)
The book 《Mining of Massive Datasets》 version 2.1 in English, PDF file (513 pages, 3.69 MB)
《Mining of Massive Datasets》, about the book, link
《Mining of Massive Datasets》 by Jeff Ullman, Stanford University, course resource
《Deep Learning for Natural Language Processing》, by Richard Socher, Stanford University, course resource
校歷周次 | 內容(章節、知識點) |
第3周 (2 * 40mins) | 課程介紹 (Course introduction) |
第1章 基本概念 (Basic concept) | |
第4周 (2 * 40mins) | 第2章 MapReduce及新軟件棧 (Map-Reduce and the New Software Stack) 2.1 分布式文件系統 2.2 MapReduce 2.3 使用MapReduce的算法 - 主流大數據計算平臺介紹 2.7 小結 |
第5周 (2 * 40mins) | 第3章 相似性發現 (Finding Similar Items) 3.1 緊鄰搜索的應用 3.2 文檔的shingling 3.3 保持相似度的集合摘要表示 3.4 文檔的局部敏感哈希算法 3.5 距離測度 3.6 局部敏感函數理論 3.10 小結 |
第6周 (2 * 40mins) | Project 介紹 |
第7周 (2 * 40mins) | 第7章 聚類 (Clustering) 7.1 聚類技術介紹 7.2 層次聚類 7.3 k-均值算法 |
第8周 (2 * 40mins) | 第7章 聚類 (Clustering) 7.4 CURE算法 7.5 非歐空間下的聚類 7.6 流聚類及并行化 7.7 小結 |
第9周 (3 * 40mins) | 第9章 推薦系統 9.1 推薦系統的模型 9.2 基于內容的推薦 9.3 協同過濾 |
第10周 (3 * 40mins) | 第9章 推薦系統 9.4 降維處理 9.5 NetFlix競賽 9.6 小結 |
Project 進度檢查 | |
第11周 (3 * 40mins) | Introduction to Deep Learning |
第12周 (3 * 40mins) | Deep Learning for NLP (1) |
第13周 (2 * 40mins) | Deep Learning for NLP (2) |
第14周 (2 * 40mins) | Simple Word Vector representations word2vec, GloVe |
第15周 (2 * 40mins) | Advanced word vector representations language models, softmax, single layer networks |
第16周 (2 * 40mins) | CNTK - Computational Network Toolkit for deep learning |
第17周 (2 * 40mins) | Project檢查 |
第18周 (2 * 40mins) | Project答辯 |