python爬虫教程 - 三眼鸭编程

爬虫带来了什么

如果说21世纪的头二十年是信息化的时代，那么再往后的二十年应该是数据化的时代。我们每个人每天都会产生无数的数据，淘宝上的购物数据，电影评论下的数据，乘坐交通工具产生的出行数据等等。

这些数据反过来会影响到我们的生活，商家靠购物数据预测下个季度的畅销产品，电影制作公司通过评论数据分析人们的喜好，交通出行数据也影响着交通路线的规划。

其中很多数据会保存在淘宝、豆瓣、大众点评等商家他们的数据库中，不过由于这些数据都是公开在网络之中，使得我们可以自行统计分析这些数据。而为了用来爬取这些数据所编写的程序便叫作爬虫。

你是否应该学爬虫

如果你对数据分析感兴趣，但苦于没有好的数据来源。或者你是一家公司的业务决策者，需要一些数据来支撑你所做出的决策。又或者你是一名科研人员，需要数据来做科学研究。又或者你是一名程序员，公司的业务场景需要大量网络上的数据。甚至你仅仅是对网络上的数据感兴趣，想写个程序批量下载下来私藏。那么你都可以学习爬虫。

课程结构

我们首先会在第一节了解到爬虫的基本原理，网络的基础。接着我们会认识到一个优秀的网络请求库requests，用它去请求我们所需的数据。再之后我们会学习到如果寻找并使用一个网站的 API 接口，并将获取到的数据保存下载。

我们还将学习使用 Beautiful Soup 来解析网页上的数据，使用简单的正则表达式来获取我们所需的数据。

课程中还会学习到如何使用多线程来同步爬取数据，最终还会学习到爬虫最常用的最强大的框架 Scrapy。

所需基础

因为本课程用 python 作为开发语言，需要一定的 python 基础。

0 基础的同学可以先学习python基础教程。

课程目录

第一课：跟爬虫打个招呼第二课：用 requests 请求豆瓣第三课：用 Beautiful Soup 解析豆瓣第四课：请求豆瓣 API 接口数据第五课：用 selenium 爬取花瓣网第六课：selenium + requests 爬取知乎美女头像

学习遇到困难？微信扫码进入社群与小伙伴一起交流讨论。