通过本课程的学习,使学生学会使用Python在静态网页、动态网页、需要登录后才能访问的网页中爬取数据,将理论与实践相结合,为将来从事数据爬虫、分析研究工作奠定基础。
本课程将采用理论与实践相结合的教学方法。在理论上,通过任务引入概念、原理和方法。在实践上,充分地利用现有的硬件资源,发挥学生主观能动性,结合真实例子,指导学生通过不同的方法在静态网页、动态网页、需要登录后才能访问的网页中爬取数据。
要求学生自己动手分析实例,学习基本理论和方法,结合已有的知识,适当组织一些讨论,充分调动学生的主观能动性,以达到本课程的教学目的。
第1节 使用Python爬取网页源代码的全文内容
第2节 使用Python爬取网页中的其他信息
第3节 使用BeautifulSoup爬取网页源代码的全文内容
第4节 使用BeautifulSoup爬取网页标签内文本的内容(1)
第5节 使用BeautifulSoup爬取网页标签内文本的内容(2)
第6节 使用BeautifulSoup操作html标签(1)
第7节 使用BeautifulSoup操作html标签(2)
第8节 使用XPATH解析网页(1)
第9节 使用XPATH解析网页(2)
第10节 使用Python爬取网页中的图片(1)
第11节 使用Python爬取网页中的图片(2)
第12节 使用爬虫队列抓取百度贴吧多个网页的图片
第13节 使用爬虫队列抓取多个网页的内容
第14节 使用正则表达式获取网页的图片内容(1)
第15节 使用正则表达式获取网页的图片内容(2)
第16节 综合案例:使用爬虫技术爬取当当网的文字和图片
第17节 HTTP请求的模拟
第18节 使用CSV文件保存网页的爬虫信息
第19节 使用MySQL数据库保存网页的爬虫信息
第20节 使用json文件保存网页的爬虫信息
第21节 使用MongoDB数据库保存网页的爬虫信息
第22节 使用Selenium爬取动态网页
第23节 综合案例:使用爬虫技术爬取招聘网站的岗位信息
第24节 使用Scrapy进行大规模爬虫程序的设计
第25节 总复习