INTRODUCTION TO DATA MINING (数据挖掘)
1) For undergraduate students in Computer Science major
2) South campus, GDUFS
3) Starting at September 2016; March 2017; September 2017; March 2018
4) 48 study scores in total
5) Scheduled as 16 weeks in total (16*3, 1~2 weeks for each chapter)
Teaching Materials:
1) 《数据挖掘原理与实践》,蒋盛益等著,电子工业出版社,2011
2) 《商务数据挖掘与应用案例分析》,蒋盛益著,电子工业出版社,2014
3) Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Mining.
(美)谭,(美)斯坦巴赫 著,范明等译.数据挖掘导论, 图灵计算机科学丛书. 人民邮电出版社.2006
4) Jiawei Han, Micheline Kamber, Jian Pei. Data Mining: Concepts and Techniques
(加)韩家炜,堪博(Kam ber, M.)著,范明,孟小峰译.数据挖掘概念与技术(原书第2版). 机械工业出版社.2007
5) Ian H. Witten, Eibe Frank, Mark A. Hall. Data Mining Practical Machine Learning Tools and Techniques.Morgan Kaufmann Publishers
Ian H. Witten, Eibe Frank, Mark A. Hall 著, 李川等译. 数据挖掘-实用机器学习工具与技术. 机械工业出版社
6) 袁梅宇著. 数据挖掘与机器学习WEKA应用技术与实践. 清华大学出版社. 2014
7) Peter Harrington. Machine Learning in Action.
(美)Peter Harrington, 李锐等译. 机器学习实战.图灵计算机科学丛书. 人民邮电出版社. 2013
8) Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman. Mining of Massive Datasets (Second Edition)
(美)Jure Leskovec等著, 王斌译. 互联网大规模数据挖掘与分布式处理.图灵计算机科学丛书. 人民邮电出版社. 2015
Practice resource:
1) Weka 3: Data Mining Software in Java
2) Downloading and installing Weka
3) General Weka documentation (manual Weka 3.8.0)
Related resources:
1) 《Introduction to Data Mining》 by Pang-Ning Tan, Michael Steinbach, Vipin Kumar, University of Minnesota, course resource
2) 《Introduction to Data Mining》 by Prof. Qiang Yang, 香港科技大学, course resource
3) 《Data Mining》 by Prof. Chris Clifton, Purdue University, course resource
周 次 | 内容(章节、知识点) |
第1周 | 课程介绍 第1章 绪论 1.1 数据挖掘产生的背景 1.2 数据挖掘任务及过程 1.3 数据挖掘应用 1.4 数据挖掘的前景、研究热点 |
第2周 | 第2章 数据处理基础 2.1 数据 2.2 数据统计特性 2.3 数据预处理 |
第3周 | 2.4 相似性度量 数据挖掘在电信行业中的应用 |
第4周 | 第3章 分类与回归 3.1 概述 3.2 决策树分类方法 |
第5周 | 3.3 贝叶斯分类方法 3.4 K-最近邻分类方法 3.7 组合学习方法 3.9 分类模型的评价 3.10 回归方法 |
第6周 | WEKA介绍 实验一:分类 Project分组宣讲 |
第7周 | 第4章 聚类分析 4.1 概述 4.2 基于划分的聚类算法 4.3 层次聚类算法 |
第8周 | 4.4 基于密度的聚类算法 4.6 一趟聚类算法 4.7 基于原型的聚类算法 |
第9周 | 实验二:聚类 |
第10周 | 第5章 关联分析 5.1 概述 5.2 频繁项集发现算法 5.3 关联规则的生成 5.4 非二元属性的关联规则挖掘 5.5 关联规则的评价 5.6 序列问题 |
第11周 | 实验三:关联分析 Project进展汇报 |
第12周 | 第6章 异常挖掘 6.1 异常挖掘概述 6.2 基于统计的方法 6.3 基于距离的方法 |
第13周 | 6.4 基于密度的方法 6.5 基于聚类的方法 |
第14周 | 实验四:异常挖掘 |
第15周 | Project检查 |
第16周 | Project答辩 |