数据采集与应用

课程简介 Course Introduction

通过本课程的学习，使学生学会使用Python在静态网页、动态网页、需要登录后才能访问的网页中爬取数据，将理论与实践相结合，为将来从事数据爬虫、分析研究工作奠定基础。

本课程将采用理论与实践相结合的教学方法。在理论上，通过任务引入概念、原理和方法。在实践上，充分地利用现有的硬件资源，发挥学生主观能动性，结合真实例子，指导学生通过不同的方法在静态网页、动态网页、需要登录后才能访问的网页中爬取数据。

要求学生自己动手分析实例，学习基本理论和方法，结合已有的知识，适当组织一些讨论，充分调动学生的主观能动性，以达到本课程的教学目的。

教学大纲 Teaching Syllabus

第1节使用Python爬取网页源代码的全文内容

第2节使用Python爬取网页中的其他信息

第3节使用BeautifulSoup爬取网页源代码的全文内容

第4节使用BeautifulSoup爬取网页标签内文本的内容（1）

第5节使用BeautifulSoup爬取网页标签内文本的内容（2）

第6节使用BeautifulSoup操作html标签（1）

第7节使用BeautifulSoup操作html标签（2）

第8节使用XPATH解析网页（1）

第9节使用XPATH解析网页（2）

第10节使用Python爬取网页中的图片（1）

第11节使用Python爬取网页中的图片（2）

第12节使用爬虫队列抓取百度贴吧多个网页的图片

第13节使用爬虫队列抓取多个网页的内容

第14节使用正则表达式获取网页的图片内容（1）

第15节使用正则表达式获取网页的图片内容（2）

第16节综合案例:使用爬虫技术爬取当当网的文字和图片

第17节 HTTP请求的模拟

第18节使用CSV文件保存网页的爬虫信息

第19节使用MySQL数据库保存网页的爬虫信息

第20节使用json文件保存网页的爬虫信息

第21节使用MongoDB数据库保存网页的爬虫信息

第22节使用Selenium爬取动态网页

第23节综合案例:使用爬虫技术爬取招聘网站的岗位信息

第24节使用Scrapy进行大规模爬虫程序的设计

第25节总复习