scrapy库使用

1. 安装 Python

sudo apt-get install python2.7 python2.7-dev

2. 安装 pip

sudo python get-pip.py

3. 安装 Scrapy

1
2
sudo pip install lxml
sudo pip install Scrapy

4. 创建新的Scrapy项目:

使用以下命令创建一个新的Scrapy项目,其中myproject是你的项目名称:

1
scrapy startproject myproject

这将在当前目录下创建一个名为myproject的项目文件夹,其中包括必要的文件和目录结构。

5. 定义爬虫:

在Scrapy项目中,你需要定义一个或多个爬虫,以指定你要爬取的网站、如何爬取以及如何处理数据。创建一个新的爬虫,可以使用以下命令:

1
scrapy genspider myspider example.com

这将在myproject/spiders目录下创建一个名为myspider的爬虫,用于爬取example.com网站的数据。

6. 配置爬虫:

打开myspider.py文件,你可以在其中定义爬虫的名称、起始URL、如何跟进链接、如何解析页面等。

7. 编写爬虫规则:

使用Scrapy提供的选择器(Selectors)来定位和提取页面中的数据。通常,你会在爬虫的回调函数中编写这些规则。

8. 存储数据:

一旦数据被提取,你可以将其存储在本地文件、数据库或其他位置,具体取决于你的需求。

9. 运行爬虫:

运行爬虫可以使用以下命令:

1
scrapy crawl myspider

其中myspider是你的爬虫名称。Scrapy将开始爬取网站数据并将其存储在你指定的位置。

10. 处理数据:

一旦数据被爬取,你可以进行进一步的数据处理和分析,例如清洗、分析、可视化等。

11. 部署爬虫:

如果需要,你可以将Scrapy爬虫部署到云服务器或自动化定期运行。


scrapy库使用
http://jhayes.cn/blog/96864191.html
作者
JHAYES
发布于
2018年3月24日
许可协议