python网络数据采集——简介

简介

网络数据采集(网络爬虫),是一种网络数据的采集方式,又称为网页抓屏,数据挖掘,网络收割或者其他类似的版本。

网络数据采集是一种通过多种手段收集网络数据的方式,比如通过api交互,当然如果你有毅力可以选择手动摘抄,人们最常用的估计是使用浏览器进行网页的浏览,这其实也是一种网络数据采集。

注:之后相关文章都使用网络爬虫这个术语。

意义

已经有浏览器了,为何还需要网络爬虫呢?

  • 首先浏览器的搜索是主流的,你不一定能从中找到有用的信息。
  • 你需要的数据可能来自不同的网站,为了分析和对比。
  • 网站可能没有api(接口)提供给外部使用。

网络爬虫可以解决这些问题,爬取的数据也可以进行保存和更新,你也可以通过特定的方式进行展示,比如图表。实际上,这些都是手动摘抄都可以办到的,但是谁又会整天看着数据有没有改变,然后去更新手头的数据呢?

扩展

之前笔者是学习过一段时间的python基础的,但是笔者糊口的语言是java,python只是笔者业余的爱好罢了。笔者认为python的几大领域为网络数据采集,自动化和大数据分析,所以读者可以在学习了python的基础上选择一个方向再深入的研究。

关于python的基础知识,笔者的笔记并没有开放在网站上,读者可以自行寻找。

关于网络爬虫,笔者认为基本对现在的业务没有什么帮助,因为网络爬虫对于一个产品的稳定性来说一定是大打折扣的(因为谁有能保证你收集的信息来源是否还存在呢?)。但是可以给你的生活带来一些乐趣,人生在世,技多不压身嘛。

显示 Gitment 评论