2013年IBM公司产学合作专业综合改革项目建设课程（大数据平台）

教学大纲 Teaching Syllabus

教学目的:

大数据平台课程主要介绍当前信息管理领域中涉及到大数据理论及其应用的各个大数据平台/技术，以培养具备大数据应用及开发能力的优秀大数据工程师。

教学要求:

1、学生能够理解大数据理论，以及掌握诸如基于网页爬虫的大数据收集、基于NoSQL的大数据存储、基于Hadoop的大规模文件系统、基于MapReduce的大数据处理、数据流挖掘等大数据相关技术/工具；

2、学生能够基于IBM InfoSphere BigInsights以及IBM InfoSphere Streams等大数据平台将大数据理论应用于当前信息管理的各个领域；

3、训练学生一定的知识检索和科研能力。

教学内容:

该课程主要从理论教学、实验教学和开发应用三个层面入手。

讲授的理论内容包括:1）第一章:大数据理论及大数据潜力；2）第二章:NoSQL非关系型高级数据模型管理大数据；3）第三章:大规模文件系统及MapReduce，特别是Hadoop分布式文件系统及其在MapReduce中实现；4）第四章:数据流的管理与挖掘等。这四大内容均配有理论课程授课视频。

实验教学方面包括:1）第一章实验:基于各种语言编写的网页爬虫程序从各种网页爬取大数据；2）第二章实验:采用NoSQL文档类型的MongoDB数据库应用实验；3）第三章实验:两个基于MapReduce的大数据处理分析算法实验；4）第四章实验:一个基于SVStream的流数据聚类算法实验。

开发应用方面:主要以IBM InfoSphere BigInsights(大数据处理)和IBM InfoSphere Streams(流数据处理)等信息管理和大数据平台相关软件作为该课程的应用开发平台。本课程的实验教学部分将以课程负责人参加的2013IBM大数据平台师资培训课程实验为主，即基于IBM大学合作部所提供的VM+IBM大数据软件环境作为主体实验环境。

教学方式:

讲授理论结合指导实验以及应用开发

学时分配:

本课程的教学主要是理论教学结合实验教学以及应用开发。在低年级本科生已经学了数据库，机器学习等基础课程的基础上，我们这门大数据平台课程拟从理论结合实验及应用开发讲解大数据平台的四个主要知识点，共76个学时。具体学时分配如下:

1、大数据理论、应用潜力及数据爬虫实验:共10学时

大数据理论:3学时

大数据应用潜力:3学时

网页大数据爬虫实验:4学时

2、NoSQL技术及其实验:共20学时

NoSQL产生背景:2学时

大数据模型:3学时

大数据一致性:3学时

版本戳记:2学时

NoSQL的四大代表性数据库及其比较:6学时

采用NoSQL文档类型的MongoDB数据库应用实验:4学时

3、大规模文件系统、MapReduce及实验和应用开发:共26学时

分布式文件系统:4学时

Hadoop:4学时

MapReduce:6学时

基于MapReduce的大数据处理分析算法实验:4学时

基于IBM InfoSphere BigInsights的大数据应用开发:8学时

4、流数据挖掘、实验及应用开发:共20学时

流数据模型:3学时

流数据管理和处理:3学时

指数衰退模型:2学时

基于SVStream的流数据聚类算法实验:4学时

基于IBM InfoSphere Streams的流数据应用开发:8学时

参考文献目录:

[1] E. Dumbill, editor. Planningfor Big Data . O’Reilly Media, Inc., 2012.

[2] J. Manyika, M. Chui, B.Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. H. Byers. Big data: The nextfrontier for innovation, competition, and productivity. McKinsey GlobalInstitute, May 2011.

[3] A. Rajaraman and J. D. Ullman.Mining of Massive Datasets. Cambridge University Press, 2011.

[4] P. J. Sadalage and M.Fowler. NoSQL Distilled: A Brief Guide to the Emerging World of PolyglotPersistence . Addison-Wesley Professional, 2012.

[5] G. Vaish. Getting Startedwith NoSQL . Packt Publishing Ltd., 2013.

[6] 陆嘉恒. 大数据挑战与NoSQL数据库技术. 电子工业出版社.2013.

[7] W. Zhao, H. Ma and Q. He. ParallelK-Means Clustering Based on MapReduce. CloudCom 2009, LNCS 5931, pp. 674–679,2009.

[8] InfoSphere BigInsights: Bringingthe power of Hadoop to the enterprise. http://www-01.ibm.com/software/data/infosphere/biginsights/.

[9] C. M. Saracco, D. Kikuchiand T. Friedrich. Developing, publishing, and deploying your first BigDataapplication with InfoSphere BigInsights. developerWorks. 2013.

[10] C.-D. Wang, J.-H. Lai, D.Huang, and W.-S. Zheng. SVStream: A support vector based algorithm forclustering data streams. IEEE Transactions on Knowledge and Data Engineering,25(6):1410–1424, 2013.

[11] InfoSphere Streams: Captureand analyze data in motion. http://www-03.ibm.com/software/products/en/infosphere-streams.

[12] S. Soares. IBM InfoSphere:A Platform for Big Data Governance and Process Data Governance. MC PressOnline, LLC. 2013.