python爬虫教程

python爬虫教程

爬虫带来了什么

如果说21世纪的头二十年是信息化的时代,那么再往后的二十年应该是数据化的时代。我们每个人每天都会产生无数的数据,淘宝上的购物数据,电影评论下的数据,乘坐交通工具产生的出行数据等等。

这些数据反过来会影响到我们的生活,商家靠购物数据预测下个季度的畅销产品,电影制作公司通过评论数据分析人们的喜好,交通出行数据也影响着交通路线的规划。

其中很多数据会保存在淘宝、豆瓣、大众点评等商家他们的数据库中,不过由于这些数据都是公开在网络之中,使得我们可以自行统计分析这些数据。而为了用来爬取这些数据所编写的程序便叫作爬虫。

你是否应该学爬虫

如果你对数据分析感兴趣,但苦于没有好的数据来源。或者你是一家公司的业务决策者,需要一些数据来支撑你所做出的决策。又或者你是一名科研人员,需要数据来做科学研究。又或者你是一名程序员,公司的业务场景需要大量网络上的数据。甚至你仅仅是对网络上的数据感兴趣,想写个程序批量下载下来私藏。那么你都可以学习爬虫。

课程结构

我们首先会在第一节了解到爬虫的基本原理,网络的基础。接着我们会认识到一个优秀的网络请求库requests,用它去请求我们所需的数据。再之后我们会学习到如果寻找并使用一个网站的 API 接口,并将获取到的数据保存下载。

我们还将学习使用 Beautiful Soup 来解析网页上的数据,使用简单的正则表达式来获取我们所需的数据。

课程中还会学习到如何使用多线程来同步爬取数据,最终还会学习到爬虫最常用的最强大的框架 Scrapy。

所需基础

因为本课程用 python 作为开发语言,需要一定的 python 基础。

0 基础的同学可以先学习python基础教程