评分9.5
10节课
18453人已学
初学者学习完这部分内容,可以掌握初级爬虫知识体系。完成简单爬虫任务。对爬虫有比较全面认识,为以后继续深入学习爬虫,打下良好基础。
课程介绍:
本课程主要介绍爬虫入门相关知识,包含什么是爬虫、网页获取、正则网页解析、xpath网页解析等相关知识点。是对入门学习者量身定制的。章节目录:
第1章 爬虫概述
1 爬虫概述
2 urllib网页获取
3 requests使用
4 requests+正则批量获取图片
5 requestfor循环批量爬取图片
6 xpath使用
第2章 爬虫解析
7 xpath站长素材批量图片
8 xpath糗事百科
9 xpath糗事百科
10 xpath51job数据获取
pprint 是 “pretty printer” 的简写,“pretty” 的含义是 “漂亮的、美观的”,因此 pprint 的含义便是:漂亮的打印。
快速排序算法是一种基于交换的高效的排序算法,由C.R.A.Hoare于1962年提出,是一种划分交换排序。它采用了一种分治的策略,通常称其为分治法(Divide and conquer algorithm)。
归并排序1945年由约翰·冯·诺伊曼首次提出。该算法是采用分治法(Divide and Conquer)的一个非常典型的应用,且各层分治递归可以同时进行。
运算符用于执行程序代码运算,会针对一个以上操作数项目来进行运算。例如:2+3,其操作数是2和3,而运算符则是“+”。
python学习过程中会用到许多数据,那为了方便操作,需要把这些数据分别用一个简单的名字代表,方便在接下来的程序中引用。
在执行 IO 密集型任务的时候,程序会因为等待 IO 而阻塞。比如我们使用 requests 库来进行网络爬虫请求的话,如果网站响应速度过慢,程序会一直等待网站响应,最终导致其爬取效率十分低下。本文以爬取 IP 代理池为例,演示 Python 中如何利用异步协程来加速网络爬虫。 注:本文示例代码,需要 Python 3.7 及以上版本。
WSGI 是 Python Web Server Gateway Interface 的缩写,是描述 Web 服务器与 Python 应用程序之间如何交互的接口规范。