跟爬虫打个招呼

浏览 1818

课文

什么是爬虫

网络诞生伊始,还没有谷歌之类的搜索引擎。当时写了个网站要让别人访问要先把地址发给需要的人。后来有些人搞了个网站来整理罗列,便是网络黄页。一个一个地录入数据太麻烦了,干脆写个程序去网络上自动抓取信息好了,这个抓取信息的程序就是爬虫。有了这些抓取来的数据,我们熟悉的谷歌百度等搜索引擎便应遇而生了。搜索引擎便是最早广泛应用爬虫技术的服务。

爬虫的英文是 crawler, 正是因为网络上的信息像一张网一样连接在一起,而爬虫程序就像虫子一样从一个网站(节点)到另一个网站抓取数据,所以被称之为爬虫,或者蜘蛛(spider)。

爬虫的作用

随着技术的发展,网络爬虫不单是为搜索引擎服务,已然渗入到我们生活的方方面面。

  • 一些出行平台从各大航空公司爬取航班信息,用低价的航班吸引用户到其平台下单。
  • 电影制作公司爬取网络上人们对于电影的评价,研究人们对于电影的喜好变化,应用到下一部电影的制作上。
  • 某某头条公司从各大新闻网站抓取新闻热点,在自己的平台上通过个性化推荐给客户。
  • 电子商务公司通过抓取人们对商品的评价来确定下一季度的商品库存。
  • 甚至总统竞选团队也要通过网络爬虫来获取各州的民意来制定自己的竞选策略。

爬虫的工作原理

在不同的业务场景下,爬虫所采取的策略也会有所不同。

  • 比如搜索引擎是从几个种子网站出发,爬取当前网站上出现的网站进而决定自己下一个要爬取的网站地址。
  • 出行平台爬取航空信息时要先选定航空公司的网站,分析网站的结构,为不同的航空网站编写特定的代码,再将爬取下来的数据整理成统一的规则。
  • 有的网站能通过特定的 API 接口,直接获取到规范的数据。
  • 有的网站则必须编写解析程序,从页面中解析数据。

不管业务场景是什么,爬虫都是编写程序模拟用户行为从网络上获取指定数据并保存的一个过程

评论

登录参与讨论

暂无评论

共 0 条
  • 1
前往
  • 1