scrapy库使用

1. 安装 Python

sudo apt-get install python2.7 python2.7-dev

sudo python get-pip.py

1 2	`sudo pip install lxml sudo pip install Scrapy`

使用以下命令创建一个新的Scrapy项目，其中myproject是你的项目名称：

1	`scrapy startproject myproject`

这将在当前目录下创建一个名为myproject的项目文件夹，其中包括必要的文件和目录结构。

在Scrapy项目中，你需要定义一个或多个爬虫，以指定你要爬取的网站、如何爬取以及如何处理数据。创建一个新的爬虫，可以使用以下命令：

1	`scrapy genspider myspider example.com`

这将在myproject/spiders目录下创建一个名为myspider的爬虫，用于爬取example.com网站的数据。

打开myspider.py文件，你可以在其中定义爬虫的名称、起始URL、如何跟进链接、如何解析页面等。

使用Scrapy提供的选择器（Selectors）来定位和提取页面中的数据。通常，你会在爬虫的回调函数中编写这些规则。

一旦数据被提取，你可以将其存储在本地文件、数据库或其他位置，具体取决于你的需求。

运行爬虫可以使用以下命令：

1	`scrapy crawl myspider`

其中myspider是你的爬虫名称。Scrapy将开始爬取网站数据并将其存储在你指定的位置。

一旦数据被爬取，你可以进行进一步的数据处理和分析，例如清洗、分析、可视化等。

如果需要，你可以将Scrapy爬虫部署到云服务器或自动化定期运行。

python

#scrapy

scrapy库使用

http://jhayes.cn/blog/96864191.html

作者

JHAYES

发布于

2018年3月24日

许可协议