首先导入我们需要的第三方库
- import requests
- import parsel
复制代码
然后就用我们给的地址去找到网页中我们需要的那个图片的链接,
然后处理就保存了好了
还需要创建一个img文件夹(可以在代码中创建,不过我还在学习中 )
用一个range来爬取1-5页的(可以自行换多少页)
- for page in range(1,6):
- print("-----------------正在爬取第{}页-----------------".format(page))
- url='http://www.win4000.com/meinvtag4_{}.html'.format(page)
- headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:78.0) Gecko/20100101 Firefox/78.0'}
- response=requests.get(url,headers=headers)
- #print(response.text)
- html_data=response.text
- parse=parsel.Selector(html_data)
- data_list=parse.xpath('//div[@class="Left_bar"]//ul/li/a/@href').getall()
- #print(data_list)
- for data in data_list:
- response_2=requests.get(url=data,headers=headers).text
- html_2=parsel.Selector(response_2)
- img_url=html_2.xpath('//div[@class="pic-meinv"]/a/img/@data-original').get()
- img_data=requests.get(url=img_url,headers=headers).content
- file_name=img_url.split('/')[-1]
- with open('img\\'+file_name,'wb')as f:
- f.write(img_data)
- print("正在保存"+file_name)
复制代码
|