爬虫爬取小说《动物农场》全部章节内容爬虫weixin46446479的博客-

18 五月

星期一, 18 五月 2020 14:39 Last Updated on 星期一, 18 五月 2020 14:39 0 Comments

核心代码如何构建请参考作者谢乾坤–《Python爬虫开发：从入门到实站》第四章-4.4。这里只补存剩下的代码。

import requests import os #python对操作系统的封装的库（python自带） import re #正则表达库（python自带） start_url = 'https://www.kanunu8.com/book3/6879/'#网址 headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'} def get_html(url):#提取页面信息     html = requests.get(url,headers = headers).content.decode('gbk') return html def get_toc(html):#提取各章节链接     toc_url_list = []     toc_block = re.findall('正文(.*?)</tbody>',html,re.S)[0]     toc_url = re.findall('href="(.*?)"',toc_block,re.S) for url in toc_url:         toc_url_list.append(start_url+url)#将相对路径改成绝对路径 return toc_url_list def get_article(html):#获取章节内容     chapter_name = re.search('size="4">(.*?)<',html,re.S).group(1)     text_block = re.search('<p>(.*?)</p>',html,re.S).group(1)     text_block = text_block.replace('<br />','')#将内容里的<br />标签替换成空字符串 return chapter_name,text_block def save(chapter,article):#存入文件     os.makedirs('动物农场',exist_ok=True)#文件不存在则新建，存在则继续 with open(os.path.join('动物农场',chapter+'.txt'),'w',encoding='utf-8') as f:         f.write(article) html1 = get_html(start_url) html2 = get_toc(html1) for i in html2:     s = get_html(i)     a = get_article(s) if __name__=='__main__':#运行         save(a[0],a[1])

运行结果如图：
爬虫爬取小说《动物农场》全部章节内容爬虫weixin46446479的博客-

weixin_46446479 爬虫爬取小说《动物农场》全部章节内容爬虫weixin46446479的博客-

原创文章 2获赞 4访问量 223

关注私信

展开阅读全文

4
评论
x
海报

扫一扫，海报
手机看

到微信朋友圈

x

扫一扫，手机阅读
打赏

打赏

weixin_46446479

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

确定

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

爬虫爬取小说《动物农场》全部章节内容爬虫weixin46446479的博客-

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

爬虫爬取小说《动物农场》全部章节内容爬虫weixin46446479的博客-

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录