关于在eclipse中运行scrapy项目

关于在eclipse中运行爬虫scrapy框架的项目介绍如下。

scrapy官方文档:http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/shell.html

首先打开终端将cdeclipse目录下的(即eclipse-workspace),使用命令行scrapy startproject tutorial(其中的tutorial是自由选择的),之后会生成一个目录,将其目录移至一个python工程下。

如上图。

spider包下建立一个脚本文件(如上图我的那个first文件,名字随意),是用来写爬虫程序用的。之后在tutorial包下建立一个名为cmdline的脚本文件(名字随意)。

下面为了直接达到运行成功的目的,贴上测试用的代码。

first.py中的代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
import scrapy
class DmozSpider(scrapy.Spider):
name = "first" #此处很重要
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
filename = response.url.split("/")[-2]
with open(filename, 'wb') as f:
f.write(response.body)

cmdline.py中的代码:

1
2
3
4
5
from scrapy.cmdline import execute
if __name__ == '__main__':
#第三个参数就是上方的first文件名!其他两个参数如下正常
execute(argv=['scrapy', 'crawl', 'first'])

items.py中的代码:

import scrapy


class TutorialItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    link = scrapy.Field()
    desc = scrapy.Field()

这个文件是与first文件有直接联系的。可参考官方文档介绍。

运行

接下来直接运行cmdline.py可得出结果:


配置调试

直接看下面的图上解说吧。


接下来点击debug。


最终两者均可达到输出的效果!

参考:

https://blog.csdn.net/otengyue/article/details/48065841

http://www.cnblogs.com/v-BigdoG-v/p/7393601.html

---------------本文终---------------

文章作者:刘俊

最后更新:2019年01月02日 - 14:01

许可协议: 转载请保留原文链接及作者。