您的位置: 首页 > 新闻资讯 > 正文

动态IP如何帮助爬虫爬取360图解电影的图片

发布时间:2019-04-22 17:22:33 来源:互联网

动态IP如何帮助爬虫爬取360图解电影的图片,在360图片中有一个图解电影的标签,电影爱好者可以从中保存自己喜爱的电影图片。今天黑洞代理就为大家分享一下,爬虫是如何爬取360电影图片的。这里以Scrapy来爬取,并将图集按电影名称分类保存至本地。

动态IP如何帮助爬虫爬取360图解电影的图片

代码如下:

import json

from scrapy import Spider, Request

from tujiemovie360.items import IndexItem, DetailItem

class TujiemovieSpider(Spider):

name = 'tujiemovie'

allowed_domains = ['image.so.com/z?ch=video']

start_urls = ['http://image.so.com/z?ch=video/']

# 索引页

index_url = 'http://image.so.com/zj?ch=video&sn=&listtype=new&temp=1'

# 详情页

detail_url = 'http://image.so.com/zvj?ch=video&id=&pn=60&sn='

# 重写

def start_requests(self):

# 索引页请求

for sn in range(0, 1):  # 修改上限值,可以把整个图解电影全爬下来

yield Request(url=self.index_url.format(sn=sn * 30), callback=self.parse_index, dont_filter=True)

def parse_index(self, response):

'''

解析索引页

'''

results = json.loads(response.text)

if 'list' in results.keys():

for movie in results.get('list'):

item = IndexItem()

item['id'] = movie.get('id')

item['group_title'] = movie.get('group_title')

item['total_count'] = movie.get('total_count')

item['actor'] = movie.get('actor')

item['director'] = movie.get('director')

yield item

# 请求每部电影图集详情页

id = movie.get('id')

total_count = movie.get('total_count')

for sn in range(0, total_count // 60 + 1):

yield Request(url=self.detail_url.format(id=id, sn=sn * 60), callback=self.parse_detail,

dont_filter=True)

def parse_detail(self, response):

'''

解析电影图集详情页(每张图片)

'''

results = json.loads(response.text)

if 'list' in results.keys():

for pic in results.get('list'):

item = DetailItem()

item['id'] = pic.get('group_id')  # 电影图集id

item['imageid'] = pic.get('imageid')

item['pic_url'] = pic.get('pic_url')

item['pic_title'] = pic.get('pic_title')

item['qhimg_url'] = pic.get('qhimg_url')

yield item

通过上述代码,我们就可以获取到360图解电影的相关图片了。黑洞代理为您提供安全稳定、高效便捷的爬虫代理IP服务,更多问题请点击官网咨询客服。


相关文章内容简介

1 动态IP如何帮助爬虫爬取360图解电影的图片

  动态IP如何帮助爬虫爬取360图解电影的图片,在360图片中有一个图解电影的标签,电影爱好者可以从中保存自己喜爱的电影图片。今天黑洞代理就为大家分享一下,爬虫是如何爬取360电影图片的。这里以Scrapy来爬取,并将图集按电影名称分类保存至本地。  代码如下:  import∵json  from∵scrapy∵import∵Spider,∵Request  from∵tujiemovie360.items∵import∵Ind... [阅读全文]

最新标签