课程简介 Course Introduction

(一)课程的性质、地位、作用和任务

《数据科学与大数据技术导论》课程是运用概率统计、分布式计算、现代软件等综合知识探索来自商业贸易,生物医疗,金融证券,社交网络等众多领域的较大规模或结构复杂数据集的高效存储、高效管理、高效概括、深入分析和精准预测的科学和艺术。它是现代计算机科学教育中的一门核心课程,是一门跨计算机、统计学和数学领域的学科,它是计算机各专业、信息专业和其他一些与计算机技术关系密切专业的必修的基础课程。

它的任务是讨论现实世界中的各种逻辑结构、在计算机中的存储结构以及实现各种操作的算法问题,为今后进一步学习后续专业课程、进行软件开发和应用打好基础。

(二)教学目的和要求

《数据科学与大数据技术导论》是一门理论和实践紧密结合的基础课,也是大数据技术应用的基石课程,其教学目标是运用统计分析、机器学习、分布式处理等技术,能从大量数据中提取对科学研究和生产实践有意义的信息,以可视化等技术通过通俗易懂的形式传达给决策者,为后续大数据技术的相关专业课学习打良好基础。

(三)课程教学方法与手段

本课程应采用面授讲解为主、指导学生自学为辅的教学方法,利用多媒体教学手段,制作条理清晰的PPT投影和动态的算法跟踪动画,加强学生对算法的理解。同时,开始对应的实验指导课程,提高学生的动手操作能力。

(四)课程与其它课程的联系

《数据科学与大数据技术导论》课程的先修课程是《概率论和数理统计》 、《数据结构》和《操作系统》,其中,《概率论和数理统计》提供了数据分析所需用到的基本数学模型和分析方法,为学生数据分析提供重要的理论基础。《数据结构》阐释了数据在计算机中的组织结构,让学生在进行数据分析时能通过结构的转换了解数据的本质。《操作系统》让学生了解计算机基本存储结构和进程调度原理,为学生学习分布式计算提供重要的理论依据。本课程是后续课程如《机器学习与数据挖掘》、《分布式数据库》、《大数据处理和数据分析技术》的基础,这些专业课中涉及的数据的组织和处理方法正是本课程的内容。

(五) 教材与教学参考书

教材:朝乐门,《数据科学理论与实践》,清华大学出版社,201710月。

教学参考书:

托马斯.埃尔,《大数据导论》,机械工业出版社,20176月。

美国EMC教育服务团队,《数据科学与大数据分析:数据发现 分析 可视化表示》,人民邮电出版社,20167月。

教学大纲 Teaching Syllabus

1章绪论

1.1术语定义

1.2研究目的

1.3发展简史

1.4理论体系

1.5基本原则

1.6如何成为数据科学家

重点:掌握数据科学的理论体系,了解数据科学与大数据技术的发展历史。

难点:据科学与大数据技术的跨学科特性,掌握本门学科的学习方法。

2章数据科学与大数据技术的理论基础

2.1数据科学的学科地位

2.2统计学

2.3机器学习

2.4数据可视化

重点:重温《概率论与数理统计》的基本原理。

难点:理解监督学习和无监督学习的基本原理,掌握基本算法的编程。

3章大数据加工和分析流程与方法

3.1基本流程

3.2数据加工

3.3数据审计

3.4数据分析

3.5数据可视化

3.6数据故事化

3.7项目管理

重点:掌握数据预处理的基本流程,掌握数据加工、数据审计、数据分析、数据可视化等常见处理手段。

难点:掌握数据预处理的基本流程,掌握数据加工、数据审计、数据分析、数据可视化等常见处理手段。

4章大数据加工和分析所用到的技术与工具

4.1技术体系

4.2MapReduce

4.3Hadoop

4.4Spark

4.5NoSQLNewSQL

4.6RPython

4.7发展趋势

重点:掌握PythonRMapReduceSpark等大数据加工和分析的使用。

难点:理解分布式计算的优势,掌握PythonRMapReduceSpark等大数据加工和分析的使用,并利用这些工具进行基本大数据分析。

5章大数据产品的设计与开发

5.1定义

5.2主要特征

5.3关键活动

5.4数据柔术

5.5数据能力

5.6数据战略

5.7数据治理

重点:掌握大数据应用设计和开发方法,理解数据治理的基本原理。

难点:掌握大数据应用设计和开发方法,理解数据治理的基本原理。

6章大数据典型案例分析及实践

6.12012年美国总统大选

6.2统计分析

6.3机器学习

6.4数据可视化

6.5SparkR编程

重点:掌握前面学到的工具、算法进行基本数据分析,并完成数据可视化操作。

难点:工具、算法与应用相结合的大数据应用应用开发。


留言板 Message Board
条留言  共

  • 参与互动
    Interaction

  • 扫码加入课程
    Scan QR Code
教学队伍Teaching Members
  • 罗家辉
    高级工程师
    广州大学
  • 高静
    正高级
    广东恒电信息科技股份有限公司
请输入以下信息:
  • 学号号:
  • 班级选择:

扫一扫二维码,快速加入本课程!

放大二维码 查看使用方法
课程
引导