爬虫流程及方法04(Scrapy框架)
目录
安装scrapy
pycharm安装步骤:
1.打开左上角file
2.打开Other Setting下的Setting for New Project
3.在Project Interpreter选择Project Interpreter里你使用的编译器后,点击加号(+)添加包
4.修改Manage Repositories(参考第三方下载包修改篇)
5.在搜索框里搜索以下包名xxx(注意字母大小写不同)
|
|
6.在terminal窗口输入scrapy确认出现版本信息及命令提示
step1:
建立工程文档
终端terminal输入:
|
|
创建得到的文档结构:
工程文档名/ ----->外层目录
scrapy.cfg ----->部署scrapy爬虫的配置文件
工程文档名/ ---->scrapy框架的用户自定义的python代码
_init_.py ----->初始化脚本
items.py ----->items代码模块(继承类)
middlewares.py ----->middlewares代码模块(继承类)
pipelines.py ------>pipelines代码模板(继承类)
setting.py ------>scrapy爬虫的配置文件
spiders/ ------>代码模板目录(继承类)
step2:
产生爬虫
终端terminal输入:(cmd内或pycharm里面的terminal)
|
|
或者:
直接在含spider的目录下新建demo.py文件
写入以下代码
|
|
step3:
配置产生的spider爬虫(具体修改demo文件)
eg:
|
|
step4:
终端terminal运行:
输入以下代码
|
|
ps:(爬虫的另一种框架)
|
|
yield关键字
yield —->生成器
优势:占用存储少,响应速度快
生成器是一个不断产生值的函数,包含yield语句的函数是一个生成器
生成器每次产生一个值(yield语句),函数被冻结,被唤醒后再产生一个值。
生成器写法
|
|
结果
|
|
一般写法
|
|
结果
|
|