(一)课程的性质、地位、作用和任务
《数据科学与大数据技术导论》课程是运用概率统计、分布式计算、现代软件等综合知识探索来自商业贸易,生物医疗,金融证券,社交网络等众多领域的较大规模或结构复杂数据集的高效存储、高效管理、高效概括、深入分析和精准预测的科学和艺术。它是现代计算机科学教育中的一门核心课程,是一门跨计算机、统计学和数学领域的学科,它是计算机各专业、信息专业和其他一些与计算机技术关系密切专业的必修的基础课程。
它的任务是讨论现实世界中的各种逻辑结构、在计算机中的存储结构以及实现各种操作的算法问题,为今后进一步学习后续专业课程、进行软件开发和应用打好基础。
(二)教学目的和要求
《数据科学与大数据技术导论》是一门理论和实践紧密结合的基础课,也是大数据技术应用的基石课程,其教学目标是运用统计分析、机器学习、分布式处理等技术,能从大量数据中提取对科学研究和生产实践有意义的信息,以可视化等技术通过通俗易懂的形式传达给决策者,为后续大数据技术的相关专业课学习打良好基础。
(三)课程教学方法与手段
本课程应采用面授讲解为主、指导学生自学为辅的教学方法,利用多媒体教学手段,制作条理清晰的PPT投影和动态的算法跟踪动画,加强学生对算法的理解。同时,开始对应的实验指导课程,提高学生的动手操作能力。
(四)课程与其它课程的联系
《数据科学与大数据技术导论》课程的先修课程是《概率论和数理统计》 、《数据结构》和《操作系统》,其中,《概率论和数理统计》提供了数据分析所需用到的基本数学模型和分析方法,为学生数据分析提供重要的理论基础。《数据结构》阐释了数据在计算机中的组织结构,让学生在进行数据分析时能通过结构的转换了解数据的本质。《操作系统》让学生了解计算机基本存储结构和进程调度原理,为学生学习分布式计算提供重要的理论依据。本课程是后续课程如《机器学习与数据挖掘》、《分布式数据库》、《大数据处理和数据分析技术》的基础,这些专业课中涉及的数据的组织和处理方法正是本课程的内容。
(五) 教材与教学参考书
教材:朝乐门,《数据科学理论与实践》,清华大学出版社,2017年10月。
教学参考书:
托马斯.埃尔,《大数据导论》,机械工业出版社,2017年6月。
美国EMC教育服务团队,《数据科学与大数据分析:数据发现 分析 可视化表示》,人民邮电出版社,2016年7月。
第1章绪论
1.1术语定义
1.2研究目的
1.3发展简史
1.4理论体系
1.5基本原则
1.6如何成为数据科学家
重点:掌握数据科学的理论体系,了解数据科学与大数据技术的发展历史。
难点:据科学与大数据技术的跨学科特性,掌握本门学科的学习方法。
第2章数据科学与大数据技术的理论基础
2.1数据科学的学科地位
2.2统计学
2.3机器学习
2.4数据可视化
重点:重温《概率论与数理统计》的基本原理。
难点:理解监督学习和无监督学习的基本原理,掌握基本算法的编程。
第3章大数据加工和分析流程与方法
3.1基本流程
3.2数据加工
3.3数据审计
3.4数据分析
3.5数据可视化
3.6数据故事化
3.7项目管理
重点:掌握数据预处理的基本流程,掌握数据加工、数据审计、数据分析、数据可视化等常见处理手段。
难点:掌握数据预处理的基本流程,掌握数据加工、数据审计、数据分析、数据可视化等常见处理手段。
第4章大数据加工和分析所用到的技术与工具
4.1技术体系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL与NewSQL
4.6R与Python
4.7发展趋势
重点:掌握Python、R、MapReduce、Spark等大数据加工和分析的使用。
难点:理解分布式计算的优势,掌握Python、R、MapReduce、Spark等大数据加工和分析的使用,并利用这些工具进行基本大数据分析。
第5章大数据产品的设计与开发
5.1定义
5.2主要特征
5.3关键活动
5.4数据柔术
5.5数据能力
5.6数据战略
5.7数据治理
重点:掌握大数据应用设计和开发方法,理解数据治理的基本原理。
难点:掌握大数据应用设计和开发方法,理解数据治理的基本原理。
第6章大数据典型案例分析及实践
6.12012年美国总统大选
6.2统计分析
6.3机器学习
6.4数据可视化
6.5SparkR编程
重点:掌握前面学到的工具、算法进行基本数据分析,并完成数据可视化操作。
难点:工具、算法与应用相结合的大数据应用应用开发。