写一个简单的python爬虫程序，爬取一下百度图片Pythonsatasun的博客-

17 四月

星期五, 17 四月 2020 14:33 Last Updated on 星期五, 17 四月 2020 14:33 0 Comments

申明
本文章仅供学习使用，若读者利用该方法进行违法犯罪活动与本人无关。
爬虫已经开始违法了，所以需要谨慎使用。
以下开始正文

首先，import几个需要用到的包

import requests        #需要用这个包向百度发送请求 import re              #需要用这个包进行正则匹配 import time            #休眠一下，以免给服务器造成太大压力

requests在这里主要作用是向百度发送请求，也就是模仿人类的操作进行访问，有post和get两个方法，在这里我们用get方法就行。

然后，开始向百度发送请求，这里当然需要百度图片的链接，先访问一下百度图片看看链接张什么样。写一个简单的python爬虫程序，爬取一下百度图片Pythonsatasun的博客-
url栏长这样：

https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=皮卡丘

剔除一些不必要的内容之后，可以长这样

https://image.baidu.com/search/index?tn=baiduimage&word=皮卡丘

不信你可以试试。

然后对url分析一下，前面的https://image.baidu.com/search/index?tn=baiduimage肯定是固定格式，不能变的，后面的word=皮卡丘很明显就是我们搜索的关键词。url解决了，接下去向百度发送请求。代码如下：

html = requests.get(url) html.encoding = html.apparent_encoding    #这里可以对需要爬取的页面查看一下源码，一般都是utf-8，但是不全是。 html = html.text    #这里需要获取对应的文本，以便后面进行正则匹配操作

写一个简单的python爬虫程序，爬取一下百度图片Pythonsatasun的博客-
接下来的操作，是对源码进行操作，这里最好有一些web前端的知识，不会的话至少要回查看源码（最简单的操作就是在网址栏前面加view-source）

首先，在源码页搜一下jpg（百度图片的后缀，先找到图片的链接）
写一个简单的python爬虫程序，爬取一下百度图片Pythonsatasun的博客-
随便抓一个链接出来分析一下：

{"ObjURL":"https://tiebapic.baidu.com/forum/pic/item/6cad1f30e924b8998595da4079061d950b7bf6b6.jpg","ObjUrl":"https://tiebapic.baidu.com/forum/pic/item/6cad1f30e924b8998595da4079061d950b7bf6b6.jpg"

把里面的https://tiebapic.baidu.com/forum/pic/item/6cad1f30e924b8998595da4079061d950b7bf6b6.jpg抓出来，访问一下，发现可以访问。多试几个，发现只有objURL开头的才能访问，但是objURL开头的也不一定能访问。不管了，先将所有的以

"ObjURL":"xxxx"

格式的链接全部找出来，这时候就需要利用正则匹配了。代码如下：

urls = re.findall('"objURL":"(.*?)"',html,re.S)    #导入的re包就在这里用

要注意，re.findall匹配出来的数据是一个列表，需要用for循环一个个的访问：

i = 0 for url in urls:  time.sleep(3)    #休眠3秒  imag = requests.get(url,timeout = 6).content   #timeout代表每次request请求最多6秒，不然万一卡住了呢  if imag:   with open(str(i) + '.jpg','wb') as f:    print('正在下载第 %d 张图片：%s' % (i + 1,url))    f.write(imag)   i += 1  else:   print('链接超时，图片下载失败') print('图片下载成功')

一个最最简单的爬虫写好了，但是稍微有一点点错误就会报错，没有所谓的健壮性，怎么改进爬虫呢，将在下一篇文章进行讲解。
完整代码如下，大家可以自行体验一下：

import requests import re import time  url = 'https://image.baidu.com/search/index?tn=baiduimage&word=皮卡丘' html = requests.get(url) html.encoding = html.apparent_encoding html = html.text urls = re.findall('"objURL":"(.*?)"',html,re.S) i = 0 for url in urls:  time.sleep(3)    #休眠3秒  imag = requests.get(url,timeout = 6).content   #timeout代表每次request请求最多6秒，不然万一卡住了呢  if imag:   with open(str(i) + '.jpg','wb') as f:    print('正在下载第 %d 张图片：%s' % (i + 1,url))    f.write(imag)   i += 1  else:   print('链接超时，图片下载失败') print('图片下载成功')

不算空行和注释，只有短短20行代码。果然人生苦短，我用python

写一个简单的python爬虫程序，爬取一下百度图片Pythonsatasun的博客-

imbia

发布了6 篇原创文章 · 获赞 9 · 访问量 628

私信关注

展开阅读全文

Python爬虫，爬取百度贴吧图片和视频文件，xpath+lxml，访问被拒的原因分析

02-15 阅读数 115

目录百度贴吧图片和视频文件爬取程序1.需求分析2.url分析3.Xpath分析4.程序设计5.坑点百度贴吧图片和视频文件爬取程序1.需求分析进入百度贴吧，搜索周杰伦，进入周杰伦吧。我们的目的是爬取图片… 博文来自： ck784101777的博客

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

写一个简单的python爬虫程序，爬取一下百度图片Pythonsatasun的博客-

Python爬虫，爬取百度贴吧图片和视频文件，xpath+lxml，访问被拒的原因分析

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

写一个简单的python爬虫程序，爬取一下百度图片Pythonsatasun的博客-

Python爬虫，爬取百度贴吧图片和视频文件，xpath+lxml，访问被拒的原因分析

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录