课程简介 Course Introduction

通过本课程的学习,使学生学会使用Python在静态网页、动态网页、需要登录后才能访问的网页中爬取数据,将理论与实践相结合,为将来从事数据爬虫、分析研究工作奠定基础。

本课程将采用理论与实践相结合的教学方法。在理论上,通过任务引入概念、原理和方法。在实践上,充分地利用现有的硬件资源,发挥学生主观能动性,结合真实例子,指导学生通过不同的方法在静态网页、动态网页、需要登录后才能访问的网页中爬取数据。

要求学生自己动手分析实例,学习基本理论和方法,结合已有的知识,适当组织一些讨论,充分调动学生的主观能动性,以达到本课程的教学目的。




教学大纲 Teaching Syllabus

第1节 使用Python爬取网页源代码的全文内容

第2节 使用Python爬取网页中的其他信息

第3节 使用BeautifulSoup爬取网页源代码的全文内容

第4节 使用BeautifulSoup爬取网页标签内文本的内容(1)

第5节 使用BeautifulSoup爬取网页标签内文本的内容(2)

第6节 使用BeautifulSoup操作html标签(1)

第7节 使用BeautifulSoup操作html标签(2)

第8节 使用XPATH解析网页(1)

第9节 使用XPATH解析网页(2)

第10节 使用Python爬取网页中的图片(1)

第11节 使用Python爬取网页中的图片(2)

第12节 使用爬虫队列抓取百度贴吧多个网页的图片

第13节 使用爬虫队列抓取多个网页的内容

第14节 使用正则表达式获取网页的图片内容(1)

第15节 使用正则表达式获取网页的图片内容(2)

第16节 综合案例:使用爬虫技术爬取当当网的文字和图片

第17节 HTTP请求的模拟

第18节 使用CSV文件保存网页的爬虫信息

第19节 使用MySQL数据库保存网页的爬虫信息

第20节 使用json文件保存网页的爬虫信息

第21节 使用MongoDB数据库保存网页的爬虫信息

第22节 使用Selenium爬取动态网页

第23节 综合案例:使用爬虫技术爬取招聘网站的岗位信息

第24节 使用Scrapy进行大规模爬虫程序的设计

第25节 总复习



  • 参与互动
    Interaction

  • 扫码加入课程
    Scan QR Code
教学队伍Teaching Members
需要验证您的身份,请输入请求信息:
  • 学号号:
  • 班级选择:
  • 附注信息:

扫一扫二维码,快速加入本课程!

放大二维码 查看使用方法
课程
引导