博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
在Ubuntu 12.04中配置分布式爬虫框架——Cola
阅读量:6412 次
发布时间:2019-06-23

本文共 1282 字,大约阅读时间需要 4 分钟。

hot3.png

Cola是一个用Python编写的分布式爬虫框架,其目的是为了方便分布式的部署,目前虽仍有很多不完善的地方,但仍然值得对其进行一番探索。本文将对Cola的运行环境配置进行一番较为详细的介绍。在配置之前,请保证系统已经有正常的编译工具(gcc, make, autoconf, etc.)。另外,可能需要先安装python-dev:

sudo apt-get install python-dev

1 安装MongoDB

Cola所采用的数据库为文档型数据库MongoDB,因此首先需要配置MongoDB,这里给出一种较为方便的部署方法。

MongoDB是由10gen公司来负责维护开发的。首先给apt包管理添加10gen资源库:

 

sudo apt-key adv --keyserver keyserver.ubuntu.com --recv 7F0CEB10

echo 'deb http://downloads-distro.mongodb.org/repo/ubuntu-upstart dist 10gen' | sudo tee /etc/apt/sources.list.d/10gen.list

sudo apt-get update

经过以上几步之后,就可以安装最新稳定版本的MongoDB:

sudo apt-get install mongodb-10gen

安装完毕后,会自动启动MongoDB服务。

2 安装PIP

PIP是一个Python的包管理工具。因为Cola依赖很多的Python库,为了方便后期的安装,我们需要先配置好PIP。PIP本身依赖于setuptools,因此在安装PIP前,需要先安装setuptools,具体的方法如下:

wget https://bitbucket.org/pypa/setuptools/raw/0.7.5/ez_setup.py -O - | sudo python
sudo apt-get install curlcurl -O https://raw.github.com/pypa/pip/master/contrib/get-pip.pysudo python get-pip.py

3 配置Cola所依赖的库

sudo apt-get install libyaml-devsudo pip install pyyamlsudo pip install mechanizesudo pip install python-dateutilsudo pip install BeautifulSoup4sudo pip install mongoenginesudo easy_install rsagit clone https://github.com/chineking/cola.git

在最后一个命令中,我们获取Cola的源代码,之后就可以单机模式或分布式模式来运行了,具体可以参见:

转载于:https://my.oschina.net/eshijia/blog/141574

你可能感兴趣的文章
原金立总裁卢伟冰加入小米,雷军发微博欢迎
查看>>
直播:Graph图数据库基础介绍及场景
查看>>
华为首次公布战略研究院 进入创新领航2.0时代
查看>>
P2S、P2P、P2SP之对比
查看>>
如何自学编程?学习方法在这里!
查看>>
苹果“开除”Facebook,原因是后者违反协议分发数据收集APP
查看>>
系统架构 一致性问题 : 库存扣减
查看>>
Okhttp去除请求头user-agent
查看>>
什么是消息队列?
查看>>
为全力发展AIOT,小米把松果电子分拆重组了
查看>>
人工智能召唤“神龙”,阿里云发布首个云上异构超算集群
查看>>
深入解读MySQL8.0 新特性 :Crash Safe DDL
查看>>
【翻译】Prometheus 2.4.0 新特性
查看>>
【实时+排重】摆脱渠道统计刷量作弊行为
查看>>
Autopilot到底特别在哪?能让Elon Musk甘当小白鼠
查看>>
Android切九妹图片
查看>>
jfinal与bootstrap的登录跳转实战
查看>>
OSS支持IPV6/IPV4双栈访问域名
查看>>
WPF ListView 居中显示
查看>>
使用阿里云接口进行银行卡三要素实名认证
查看>>