本课程从数据库和数据仓库的角度全面、系统地介绍数据挖掘的基本概念、基本方法和基本技术,以及数据挖掘的最新进展。要求学生通过本课程的学习,认识数据仓库和数据挖掘在当今计算机应用中的重要作用,深入了解数据挖掘的整体结构,掌握数据预处理技术(包括数据清理、数据集成和转换、数据归约等方法)和数据挖掘技术(包括分类、预测、关联和聚类的概念与技术),并且熟悉数据挖掘的基本原理和发展方向。
一、课程基本信息
课程编号: 08191610
课程英文名称:Enterprise data warehouse and data mining
授课对象:计算机专业软件工程方向全日制本科学生
课程类型: 职教任选课
建议学时:总学时56,其中讲授40学时,实验16学时
学分: 3
与相关课程的衔接:先导课程《程序设计》、《数据结构》、《数据库原理》、《人工智能》、《数理统计》
考核方式: 考查
二、教学目标和要求
信息技术的迅速发展已从简单的批处理、联机事务处理的信息处理时代,进入了联机分析处理、数据仓库和数据挖掘的信息分析时代。数据仓库以数据库技术作为存储数据和资源管理的手段,以联机分析处理技术和方法作为提取信息的有效手段,以数据挖掘和人工智能的模型、算法作为发现知识和规律的途径。数据挖掘是数据库研究、开发和应用最活跃的分支之一。本课程从数据库和数据仓库的角度全面、系统地介绍数据挖掘的基本概念、基本方法和基本技术,以及数据挖掘的最新进展。要求学生通过本课程的学习,认识数据仓库和数据挖掘在当今计算机应用中的重要作用,深入了解数据挖掘的整体结构,掌握数据预处理技术(包括数据清理、数据集成和转换、数据归约等方法)和数据挖掘技术(包括分类、预测、关联和聚类的概念与技术),并且熟悉数据挖掘的基本原理和发展方向。
三、教学内容、教学方式与课时分配
(一) 第一章:绪论(3学时)
教学基本内容:
数据挖掘产生的背景;数据挖掘任务及过程;数据挖掘应用;数据挖掘技术的前景、研究热点。
教学要求:
掌握:数据挖掘任务及挖掘过程、数据挖掘定义、数据挖掘常用软件、数据挖掘的研究热点。
了解:数据挖掘产生背景;数据挖掘的价值和前景。
教学方式:课堂讲授3学时
(二)第二章:数据处理基础(6学时)
教学基本内容:
数据定义及类型;数据统计特性;数据预处理;相似性度量。
教学要求:
掌握:数据属性类型、数据的中心度量标准、数据预处理过程、属性和对象之间的相似性度量。
了解:数据定义及数据类型。
教学方式:课堂讲授6学时
(三)第三章:分类与回归(9学时)
教学基本内容:
分类与回归概述;决策树分类方法;贝叶斯分类方法;k-最近邻分类方法;神经网络分类方法;支持向量机;集成学习法;不平衡数据分类;分类模型的评估;回归。
教学要求:
掌握:分类与回归定义、决策树分类方法、贝叶斯分类方法、k-最近邻分类方法、分类模型的评估。
了解:神经网络分类方法;支持向量机;集成学习法。
教学方式:课堂讲授9学时
(四)第四章:聚类分析(6学时)
教学基本内容:
聚类分析概述;基于划分的聚类算法;层次聚类算法;基于密度的聚类算法;一趟聚类算法;聚类算法评价。
教学要求:
掌握:聚类分析定义、k-means聚类算法、k-medoids算法、DBSCAN算法、聚类方法评价。
了解:二分k-means算法;一趟聚类算法。
教学方式:课堂讲授6学时
(五)第五章:关联分析(9学时)
教学基本内容:
关联分析概述;频繁项集发现算法;关联规则的生成;非二元属性的关联规则挖掘;关联规则的评价;序列模式。
教学要求:
掌握:Apriori算法、FP-growth算法、关联规则的生成、支持度和置信度的计算。
了解:非二元属性的关联规则挖掘;序列模式及发现算法。
教学方式:课堂讲授9学时
(六)第六章:离群点挖掘(3学时)
教学基本内容:
离群点概述;基于统计的方法;基于距离的方法;基于相对密度的方法。
教学要求:
掌握:基于统计的方法;基于距离的方法。
了解:其他离群点挖掘算法。
教学方式:课堂讲授3学时
(七)第七章:数据挖掘的应用(4学时)
教学基本内容:
数据挖掘在电信业中的应用;文本挖掘与Web数据挖掘。
教学要求:
掌握:数据挖掘主要研究方向在电信业中的应用。
了解:文本挖掘与Web数据挖掘。
教学方式:课堂讲授4学时
四、实践环节
具体安排见“企业数据仓库与数据挖掘实验教学大纲”
五、教材
蒋盛益等《数据挖掘原理与实践》电子工业出版社 2013年2月第二版
六、参考资料
1. (美)谭,(美)斯坦巴赫著,范明等译《数据挖掘导论——图灵计算机科学丛书》人民邮电出版社2006年第一版
2. 韩家炜著,范明等译《数据挖掘概念与技术》机械工业出版社2007年第二版
七、必要的说明
无
执笔人:
审核: