关于在eclipse中运行scrapy项目

关于在eclipse中运行爬虫scrapy框架的项目介绍如下。

scrapy官方文档：http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/shell.html

首先打开终端将cd至eclipse目录下的（即eclipse-workspace），使用命令行scrapy startproject tutorial（其中的tutorial是自由选择的），之后会生成一个目录，将其目录移至一个python工程下。

如上图。

在spider包下建立一个脚本文件（如上图我的那个first文件，名字随意），是用来写爬虫程序用的。之后在tutorial包下建立一个名为cmdline的脚本文件（名字随意）。

下面为了直接达到运行成功的目的，贴上测试用的代码。

first.py中的代码：

import scrapy
class DmozSpider(scrapy.Spider):
    name = "first" #此处很重要
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]
    def parse(self, response):
        filename = response.url.split("/")[-2]
        with open(filename, 'wb') as f:
            f.write(response.body)

cmdline.py中的代码：

from scrapy.cmdline import execute
if __name__ == '__main__':
	#第三个参数就是上方的first文件名！其他两个参数如下正常
    execute(argv=['scrapy', 'crawl', 'first'])

items.py中的代码：

import scrapy


class TutorialItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()