课程发展的主要历史沿革
1)专业沿革:广东工业大学计算机科学与技术专业(1998年以前为计算机及应用专业)创办于 1984 年,是广东省最早创办该类专业的高校之一。在创办后的20年来,学校一直给予了极大的政策支持和资金投入,通过20年的建设,本专
业在学科和课程建设及办学条件等方面有了长足的进展,1993 年“计算机应用技术”学科被评为省级重点扶持学科,1999 年“计算机科学与技术专业”再度
被评为省级重点学科,成为本校 5 个省级重点学科之一,2003 年该专业被评为广东省名牌专业,该专业学科总体水平在全国地方工科院校中处于前列。
2) 课程发展:随着计算机科学与技术及互联网技术的快速发展,大数据时代的到来, 以数据分析和信息提取为基本特征的 《数据挖掘》 技术获得了极大的发展。
本课程积聚了新方法、新技术,以适应数据挖掘技术的发展及快速增长的应用需求。《数据挖掘》课程的教学内容、教学方法在不断的改革与创新。我校《数据挖掘》 课程起步于研究生的课程, 从 2003年起,我校在研究生教育阶段引入 《数据挖掘》课程,2004年我校完成了本科《数据挖掘》的教学大纲,2006年在工程硕士课程中引入《数据挖掘》课程,经过近 10 年的教学实践,教学内容上随着《数据挖掘》技术的进步及应用开展而不断增加(如,以 SVM、EM 为代表的统计学习方法、以PAGERANK为代表的链接挖掘技术、以ADABoost 为代表的袋装与推进算法、以 K-MEANS 为代表的聚类算法、以 Apriori为代表的管理分析算法、以及以C4.5、KNN、Naive Bayes、CART等为代表的分类算法等),我校的《数据挖掘》课程伴随广东经济建设需要,在教学内容上不断更新、教学手段上不断完善,从课堂讲授逐渐演变为案例式教学,结合具体应用进行讲解。《数据挖掘》课程在加强素质教育、培养创新人才等方面已形成特色。
3) 课程现状:以案例形式组织教学内容,以应用及项目为背景,建立了集课程
体系、教学内容、考试、实验、教学方法、课程设计等较全面的教学体系,通过《数据挖掘》专题学习网站,为学生提供网上辅助多媒体教学系统、学生答疑系
统、自动测试、批改作业系统、论坛讨论、师生交流等拓展知识,尤其是将数据 挖掘算法转换为课程学习的练习任务,要求学生设计、实现并在数据集上应用。
由此营造一个主动学习、协同创新的良好育人氛围,延伸视野、加强素质教育、 培养创新人才的方法和手段。已取得了可喜的成绩。
理论课教学内容
一、课程的性质和目的
本课程是计算机专业的专业选修课。本课程的学习目的在于使学生掌握数据仓库的基本概念、基本原理;掌握OLAP技术;掌握数据挖掘的基本概念、基本方法和基本技术。为从事数据分析工作及参加数据分析工程实践打下必要的基础。
二、课程教学内容及学时分配
第一章 绪论(2学时)
掌握数据挖掘的概念、方法,了解数据挖掘任务,了解数据挖掘的发展与展望。
本章知识点为:数据挖掘概念,数据挖掘任务。
第二章 数据处理基础 (4学时)
掌握数据、数据类型概念,了解和掌握数据预处理过程,掌握数据清理、数据集成和变换数据归约和数据离散化。掌握数据的相似性及相异性及其计算。
本章知识点为:数据、数据类型概念数据预处理,数据相似性、相异性及其度量。
第三章 分类与回归(7学时)
掌握数据分类的基本概念,掌握决策树分类方法、掌握贝叶斯分类方法、掌握k-最近邻分类方法、掌握回归分析,了解机器学习的分类方法,了解模型的拟合和过度拟合问题。了解评估分类器性能的方法。
本章知识点为:数据分类概念,决策树分类、贝叶斯分类、k-最近邻分类、机器学习、回归,模型拟合.
第四章 聚类分析(7学时)
要求理解和掌握常见的聚类分析方法,掌握基于划分的聚类算法、k-means聚类算法、层次聚类算法、基于密度的聚类算法、一趟聚类算法,了解聚类的评估方法。了解聚类的应用。
本章知识点为:聚类分析,K-means均值、层次聚类、基于密度的聚类、DBSCAN,聚类评估。
第五章 关联技术(6学时)
掌握Apriori 算法,掌握支持度、置信度、频繁项集及求频繁项集的方法,掌握关联规则及挖掘方法、FP树及其算法,掌握关联模式的评估。
本章知识点为:关联规则、Apriori 算法、FP树、支持度、置信度、频繁项集。
第六章 离群点挖掘(6学时)
要求理解和掌握孤立点(离群点)的基本概念,掌握基于统计的方法、基于驱离的方法、基于相对密度的方法、基于聚类的方法,了解异常检测基本概念,基本方法,了解异常检测的应用。
本章知识点为:离群点、异常检测。
三、课程教学的基本要求
本课程是计算机专业的专业选修课程,理论性较强,涉及较多的理论知识及数学知识,是本专业的具有广阔应用前景的理论课程。在教学方法上,采用课堂讲授,课后自学,课堂讨论和实践相结合的教学形式。
(一)课堂讲授
本课程属基础理论课程,涉及到较多的数学知识,在讲述的过程中教师应尽量联系生产生活实际,注重物理意义,不要陷入到繁复的数学推导之中。在教学中要求同学重点掌握数据模型、OLAP技术、数据挖掘方法等基本概念、基本方法和基本规律,要着重培养学生定性分析、定量估算和模拟实验研究的能力,在课程内容方面既要保持理论的系统性,又要注意联系工程实际,并且重视技术科学的一般方法学的培养。
(二)课后自学
为了培养学生整理归纳,综合分析和处理问题的能力,每章都安排一部分习题内容,课上教师只给出自学提纲,不作详细讲解,课后学生自学。
(三)课堂讨论
课堂讨论的目的是活跃学习气氛,开拓思路,。教师应认真组织,安排重点发言,充分调动每一名同学的学习积极性,做好总结。
(四)习题课
习题课以典型例题分析为主,并适当安排开阔思路及综合性的练习及讨论。共2学时(已包括在前述学时分配中)。
(五)课外作业
课外作业的内容选择基于对基本理论的理解和巩固,培养综合计算和分析、判断能力以及使用计算工具的能力。习题以计算性小题为主,平均每学时1-2道题。
(六)实验
实验不占学时,实验以学习数据挖掘基本方法和训练实验能力为主,验证理论为辅。通过实验要求学生掌握数据挖掘基本方法。
(七)考试
考试可采用闭卷形式,试题包括基本概念,基本理论,基本方法,题型可采用填空,判断,计算,简答等方式。
总评成绩:课外作业,平时成绩占20%;期末考试占70%;课程类大作业占10%
实践课教学内容
实验分三个层次:基础实验,综合实验,创新性实验。
1. 基础实验
掌握Clementine的基本使用,熟悉Clementine 中文教程中的案例。
实验一 数据预处理方法
• 熟悉Clementine的基本使用
– 了解数据流操作的基本过程(输入->处理->输出)(以drug数据集为例)
– 熟悉数据源节点的使用:可变文件、固定文件、SPSS文件
– 熟悉字段节点的使用:类型、过滤、导出、分箱
– 熟悉图形节点的使用:点图,分布图(条形图),柱形图(直方图)
– 熟悉输出节点的使用:表格、数据审核
– 熟悉建模节点:特征选择
– 考虑以下3个例子
• Clementine 概述
• 筛选预测变量(特征选择)
• 准备分析数据(数据审核)
实验二 聚类方法
• 熟悉输出节点的使用:统计量、矩阵
• 熟悉建模节点:k-means, kohonen聚类, Two step(两步聚类)
– 采用Clementine自带的DRUG1n 数据集(可变文件), 采用k-means, SOM
和两阶段方法三种聚类算法建模,分别进行描述。
– 使用表节点查看聚类性能。
第七章 案例三的数据分析
实验三 分类方法
• 熟悉分类任务的过程:模型建立(C5.0)、C&R 树、Bayes网络、选择、抽样、
平衡、模型检验
– 利用Clementine自带的DRUG1n数据集,结合C5.0算法对数据集进行分
类分析,使用分析节点、表节点查看分类性能。
考虑以下3个例子
– 药物治疗(勘察表/C5.0)
– 有线电视服务销售(C&R 树)
– 预测贷款拖欠者(贝叶斯网络)
实验四 回归方法
• 熟悉建模节点:回归,逻辑回归
• 考虑以下2个例子
– 电信业客户分类(多项 Logistic 回归)
– 电信客户流失(二项 Logistic 回归)
实验五 关联分析
• 熟悉建模节点:Apriori,Anomaly
• 考虑以下3个例子
– 市场购物篮分析(规则归纳/C5.0)
– 欺诈屏蔽(异常检测/神经网络)
– 识别促销的目标客户(RFM)
• 识别消费额度高的客户
• 预测促销目标客户的响应
第七章 案例四的数据分析
• 熟悉建立项目和报告的过程
2.综合实验——实际案例
3.大作业(创新性实验)——以 2-5人为一项目组
大作业分三大类型,完成后要报告、答辩。
(1) 数据挖掘行业应用现状调研
数据挖掘在电子商务、财务决策、会计、市场营销、物流管理、税务、人力
资源管理、保险、贸易等领域的应用现状调研分析,最终以调研报告或论文的形
式提交成果。
(2) 实际领域的数据挖掘
数据挖掘在电子商务、财务决策、会计、市场营销、物流管理、税务、人力
资源管理、保险、贸易、校园数据挖掘(教学管理、金龙卡消费模式)、上市公司
数据分析、股票数据分析等领域的应用,最终以论文或系统(含设计文档)的方式
作为成果提交。
(3) 数据挖掘算法研究
改进已有算法或设计新的算法
数据挖掘教学条件
1.教材与使用建设
教学教材
Jiawei Han, M. Kamber 著,范明,孟小峰译. 数据挖掘:概念与技术,
机械工业出版社,2003.
参考教材
(1)Ian H. Wittan. 数据挖掘:实用机器学习技术(英文版). 机械
工业出版社, 2005.
(2)毛国君. 数据挖掘原理与算法. 清华大学出版社, 2005.
(3)O. P. Rud. 朱扬勇等译. 数据挖掘实践. 机械工业出版社,2003.
2.辅 教学资 助 料
(1)图片库:数据挖掘结果的可视化展示;
(2)论文库:课程组发表的数据挖掘论文;
(3)算法库:课程组开发完成的各种数据挖掘算法案例库:课程组 承担的数据挖掘项目案例解决方案;
(4)试题库:近年来的试题;
(5)习题库:课后作业;
(6)资源链接:国内外著名数据仓库及数据挖掘产品提供商的网站
链接。
3.实践 教学环 性 境
(1)智能计算实验室:能够容纳 100 人同时实验,PC 机的配置为: Intel Pentium4 530,512M 内存,915GV 主板,80G 硬盘。开发环境: MATLAB 机器学习开发环境,.Net 开发环境,J2EE 开发环境。
(2)多功能数据挖掘器:多功能数据挖掘器是课程组承担的广东省 重大科技攻关项目,已经于 2004 年通过了广东省科技厅鉴定,鉴定 结论为国内领先水平。多功能数据挖掘器提供了应用程序设计接口
API(Application Programming Interface),便于用户二次开发。学生 既可以利用 MFDM 学习数据挖掘算法,也可以利用其 API 进行算法
设计。
(3)数据仓库创建工具:课程组购买了数据仓库创建工具,著名的 数据挖掘产品 Clementine、IBM Intelligent Miner 等,学生可以利用它 学习、熟悉数据仓库的创建过程。
4.网络教学环境
通过多年的建设,课程组建立了良好的网络教学环境: 《数据挖掘
网络教学平台》—能够进行数据挖掘的网络教学;《多功能数据挖掘
器算法库》—对于常见的数据挖掘功能,如分类、关联规则、聚类分 析等,提供了相应的算法,学生可以下载
教学方法和手段
1) 以案例讲授数据挖掘算法与知识
围绕算法,以案例的形式进行知识传授,将每个《数据挖掘》算法通过数据 分析案例来讨论、介绍与学习,并结合具体应用,引导学生选择合适的算法挖掘 数据。
2) 主动学习、学生作品库建设
按自愿组合与分派结合,将学生分组。学习数据挖掘算法时,教师介绍算法 的基本情况后,由学生动手实现,设计了一系列检查机制与监督方法,指导、检
查并监督学生实现挖掘算法。 要求学生编程实现数据挖掘算法, 做成一个个作品, 并应用于具体数据集或开源数据集,根据学生的各类算法,可比较不同算法在某
个数据集上的效果。让学生通过算法实现、算法比较学到更多的算法,并体会各 算法的差异。在此过程中,教师起指导、检查作用。 学生已完成部分数据挖掘算法的实现(增加部分学生的作品)。
3) 坚持科研融入教学
向学生展示、说明教师现有数据挖掘方面的科研项目,鼓励并吸纳学生参加 教师的科研项目。推动学生学以致用,在科研中学习。如吸纳部分本科生参加国 家、省市各类科研项目,在项目实践中锻炼学生。 坚持科研、教学、教改三结合,课程组教师积极开展科研、教研和教学改革
工作,并跟踪新技术,将科研、教研融入教学中,将科研成果应用到数据挖掘的 具体教学实践。 将一些数据挖掘的项目以案例的形式进行组织,并传授给学生,启发学生开
展类似的项目开发。 部分学生参加的项目如下:
教育部重点实验室项目《基于SVM和决策树的协同入侵检测》、广东省自 然科学基金项目《协同入侵检测的数据整合与负载均衡技术研究》、广东省科技 计划项目《面向SLA 的移动网络用户体验服务平台》与《电信客户服务的数据
分析关键技术研究》、广州市科技计划项目《基于信令挖掘的宽带移动通信网络 用户体验(QOE)平台》等
4) 多层次、多渠道的开放型、自主性和创新型实践教学
多层次是指实践教学分为基本实验、选做实验、课程设计等多个层次。多渠 道是指课堂实践教学、课外科研训练实践、大学生电子设计竞赛、高校杯、挑战 杯科技竞赛等多种渠道。通过多层次、多渠道的形式实现真正的开放型、自主性和创新型实践教学,提高学生创新能力和实践能力,成绩显著。(近年来指导的 学生获得省“高校杯” , “挑战杯” , “电子设计竞赛”等
课程评价
广东工业大学计算机学院程良伦教授对本课程教学效果评价
为: “ 《数据挖掘》 课程是我院的广东省重点课程, 我院一直非常重视, 从资金、人力和资源都给予了相当的支持。课程组是一支团结协作、 结构合理的师资队伍。该课程组的教师爱岗敬业、有奉献精神,教师 队伍学术和教学水平高, 教学经验丰富。 在教学过程中, 注意将科研、 教研与教学相结合、理论与实践相结合,坚持把教书育人放在首位,注意素质教育。严格要求,把好课堂教学关,教学效果优秀,实践性 教学环节和多媒体特色明显,深受学生欢迎和同事们的好评。在省内 同类课程教学中处于领先地位。 对我院其他课程组起到了示范作用。 ”计算机科学与技术是省名牌专业, 本课程是计算机专业选修主干 课程,省名牌专业评审专家组对计算机专业(包括本课程)课程建设 和教学条件评价高。 校外同行对本课程的建设和教学成果及学生创新 能力等方面也都给予很高的评价:
华南师范大学计算机系汤庸教授
说: “ 《数据挖掘》课程建设从上个世纪 90 年**始,课程组就非常 重视,历时 20 多年,先后有两代人的投入,做了许多卓有成效的工 作。该课程在 1993 年获广东省重点课程,并一脉相承地承担了国家
级项目、省教育厅“五个 100 工程”项目、省教育厅“151 工程”项 目等多项教学研究与教学改革项目。该课程从教学大纲编写、教材选 用、实验开设、课件制作到网上教学资源的运用,都体现出课程组的 优良传统和高效工作成果。这充分反映本课程师资、教学条件和学习环境优越,实践性教学环节特色明显,课程建设成绩突出。在现代教 育技术的利用和多媒体课件的开发和学生的综合设计能力培养方面 处于国内同类院校的领先地位”………。
下面摘录计算机专业学生的部分评价:
获得全国“挑战杯”三等奖和省“高校杯”一等奖的 2009 届学生陈东锐说“借助极其方便的校园网,课下我们可随时学习数据挖掘 技术以加深对课程的印象及重点、难点的理解,尤其是数据挖掘的综合课程设计使我们对知识的结构化、系统化有了进一步的认识。我们 的学习再也不受时间(课堂 50 分钟)与空间(教室)的限制,这充 分调动了我们学习的主动性和积极性。另外,它使我们能够将自己所 理解的用设计的形式表现出来,给了我们一个可以舒展自己的空间, 加强了我们的动手能力和综合设计能力, 培养了我们分析与解决问题 的能力, 为我们在历次的高校杯等竞赛中具有明显优势打下了坚实的基础。
许龙同学说: “通过这种方式学习数据挖掘课程知识,我觉得效 果特别好。弥补了老师课堂上授课内容太多过快,学生不能很好吸收 的缺陷,我们学生可以通过网络课程,根据自己的学习情况适度地学 习! ” 。罗聪同学说: “利用网络多媒体进行教学,可以使平时一些比较 枯燥的学习内容变得十分生动有趣,增加了我们的学习兴趣,使新的
知识很容易被接受,而且能启发我们的思维和创造性,培养我们发现问题、分析问题和解决问题的能力”
刘捷同学说: “我怀着极大的兴趣学习《数据挖掘》这门课程, 我学到了很多东西, 加深了我对先前课程的认识, 开阔了自己的视野, 最重要的是培养了自己的学习兴趣和综合能力, 学到了很多以前没学 到的东西,它能够发挥同学们的空间思维能力和综合能力,《数据挖 掘》课程的学习使我觉得大学这三年来没有白学。真希望以后再有这 样的机会。 ” 陈玲同学说: “利用多媒体将教学内容以图、动画、三维方式展 示出来,能将抽象的理论具体化,避免了枯燥无味的理论学习,加深 了对新学内容的印象,领会快且深刻。它使新学知识更容易理解和接 受。对难点重点可反复学习,明显地提高了学习和记忆的效果,拓展
了我们的视野,加大了信息量。提高了学习效率和学习质量。
”有同 学说: “用设计型教数据挖掘课,使我们从被动的学习、听讲变为主 动的思考问题,并学以致用。 ”
陈建雄同学说: “一方面采用这种网络多媒体和教学的相结合方 式教学,本身就能让我们实实在在的感受到数据挖掘在实际中应用,从这一点就能激发我们学生的上课兴趣。另一方面,课程的内容安排 也非常合理,从数据挖掘系统模型的整体认识,到模型各个层次的系 统讲解,同时还涉及了一些近几年快速发展起来的数据挖掘技术(如 HADOOP、GFS 等),使我们在掌握数据挖掘基本原理的基础上,对未来技术的发展有一定的认识,也为以后的工作和技术开发打下基础。数据挖掘课程组有多人次获得全国奖项五项(《数据挖掘》获全 国网络与多媒体教育软件3等奖, 2次获全国多媒体教育软件优秀奖,
1 次学生获全国“挑战杯”3 等奖);
多人 5 次获得省级奖项(2 人次获广东省科技进步 2 等奖,1 次获省级优秀教学成果 2 等奖,3 次获省级多媒体教育软件 1、2 等奖);
学生多次获得省级奖项;2 次获校优秀教学成果奖,14 人次获校教学优秀奖,1 人次获校实验教学优秀奖。获得优秀指导教师 10 余人次, 11 人次获年度