爬虫抓取图片

上一节介绍的是获取文字,这一节介绍获取图片并下载到本地。

urllib模块很方便从网页上下载东西。

1, 在浏览器打开 http://www.xxxx.com/xxx/shuiguotupian/ ,按F12查看dom结构:发现图片是放在一个classlist-picDIV里,而且img里的src有完整的图片地址。

image.png

2,  开始尝试写:

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import time
import urllib

headers = {
"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1) Gecko/20090624 Firefox/3.5",
              
"Accept": "text/plain", 'Connection': 'close'}
url =
'http://www.xxx.com/xxx/shuiguotupian/'
r = requests.get(url, headers=headers)
soup = BeautifulSoup(r.text,
'html.parser')
div1 = soup.find(
'div', class_='list-pic')
imgs = div1.find_all(
'img')

for img in imgs:
    time.sleep(
3)
   
print '%s%s' % ('正在下载图片:',img['src'])
    img_name = img[
'src'].split('/')[-1]
   
try:
        urllib.urlretrieve(img[
'src'], "%s%s" % ('D:\\img\\', img_name))
   
except:
       
continue

 

发现是可以正常下载图片的:

image.png


声明:仅供学习参考

该文章对你有帮助吗,求分享转发: 分享到QQ空间 分享给QQ好友

 

 

粤ICP备19116230号
友情链接: 码农藏书阁 天天链