网页爬虫1-基础概念

网络爬虫

动机:

之前看过一篇博文《通过网络爬虫学习编程》,深有同感,想通过爬虫学习过程增强对网站开发的理解。 正好有一个刚接手的项目需要用到这个技术,抓取大量网页数据,可以 LOB(Learn on Job)。

语言选择:

本次开发对性能要求不高,首选 python、ruby、js 等脚本语言。 之前在 Windows 上搭建 Rails 开发环境遇到很多问题最终以失败告终,所以不打算使用 ruby。 在 python 和 js 之间更喜欢 python 的编程风格,并且有人曾经推荐过我用 python,所以这里选择 python。

版本选择:

2.7/3.5 ?以前开发一直用的 3.3,感觉还是用高版本一点的好,所以选择升级一下到 3.5。

参考资料:

python 官方文档 知乎关于 python 爬虫的回答