动机:
之前看过一篇博文《通过网络爬虫学习编程》,深有同感,想通过爬虫学习过程增强对网站开发的理解。 正好有一个刚接手的项目需要用到这个技术,抓取大量网页数据,可以 LOB(Learn on Job)。
语言选择:
本次开发对性能要求不高,首选 python、ruby、js 等脚本语言。 之前在 Windows 上搭建 Rails 开发环境遇到很多问题最终以失败告终,所以不打算使用 ruby。 在 python 和 js 之间更喜欢 python 的编程风格,并且有人曾经推荐过我用 python,所以这里选择 python。
版本选择:
2.7/3.5 ?以前开发一直用的 3.3,感觉还是用高版本一点的好,所以选择升级一下到 3.5。