GlidedSky爬虫网站练习基础1爬虫woaiyuyang的博客-

23 五月

星期六, 23 五月 2020 09:58 Last Updated on 星期六, 23 五月 2020 09:58 0 Comments

GlidedSky网站爬虫

使用python爬虫爬取页面信息，进行处理，使用re,bs4,xpath,css等方法，用selenium自动化爬取信息并进行处理

GlidedSky爬虫网站练习第一关

无意中看到一个很不错的爬虫练习网站：

GlidedSky爬虫练习网站
是一个很不错的练习网站，但是先需要注册一下。
第一关是把网页中的数据求和，因为格式统一，所以可以用很多方法实现，
在使用GET方法时，要加入User-Agent和cookie。
*介绍了re,bs4,xpath,css,selenium自动化方法爬取信息。
*selenium自动化测试参考文献

import requests import re from fake_useragent import UserAgent  # 导入随机头headers from lxml import etree from bs4 import BeautifulSoup  def get_html(url): # 随机生成headers  headers = {'User-Agent': UserAgent().random, 'cookie': '你的cookie'} try: # 获取url响应   response = requests.get(url, headers=headers) # 不是200，产生异常   response.raise_for_status() # 将编码设置为文章内容编码   response.encoding = response.apparent_encoding   return response.text  except: return def html_infos(html):  num = 0 # 正则匹配 # infos为获取到数据信息列表  infos = re.findall(r'<div class="col-md-1">(.*?)</div>', html, re.S) # 循环列表，逐一取出相加 for info in infos:   num += int(info.strip()) print(num) #　bs4匹配  soup = BeautifulSoup(html, 'lxml')  infos = soup.find_all('div', class_="col-md-1") for info in infos:   info = info.text.strip()   num += int(info) print(num) # xpath匹配  infos_txt = etree.HTML(html) # 解析html  infos = infos_txt.xpath('//div[@class="col-md-1"]') for info in infos:   info = info.text.strip()   num += int(info) # css匹配  infos_txt = etree.HTML(html)  infos = infos_txt.cssselect('.row>.col-md-1') for info in infos:   num += int(info.text.strip()) print(num) if __name__=='__main__':  url = 'https://www.glidedsky.com/level/web/crawler-basic-1' # url返回text赋给html  html = get_html(url)  html_infos(html) ------------------------------------------------------------------------------------- # 以下是用selenium自动化爬取网页 from selenium import webdriver  from selenium.webdriver.common.by import By  #  用于指定HTML文件中的DOM标签元素 from selenium.webdriver.support.ui import WebDriverWait  # 等待网页加载完成 from selenium.webdriver.support import expected_conditions as EC  # 指定等待页面加载结束  driver = webdriver.Chrome() # 实例化浏览器对象 url = 'https://www.glidedsky.com/login' driver.get(url) # 打开网页 driver.maximize_window() # 全屏显示 #等待页面加载完成 WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.CLASS_NAME, 'form-control'))) #登录页面，实现selenium自动化登录 #需要提前在网站注册个账号 user = driver.find_element_by_id('email') user.click() user.send_keys('你的账号') password = driver.find_element_by_id('password') password.click() password.send_keys('你的密码') #点击登录按钮 login = driver.find_element_by_css_selector( '#app > main > div.container > div > div > div > div.card-body > form > div.form-group.row.mb-0 > div > button') login.click() #进入爬虫第一关练习 spider1 = driver.find_element_by_xpath('//[@id="app"]/main/div[1]/div/div/table/tbody/tr[1]/td[1]/a')  spider1.click() # 点击待爬取页面 url1 = driver.find_element_by_xpath('//*[@id="app"]/main/div[1]/div/div/div/div/a').get_attribute('href') driver.get(url1) num = 0 infos = driver.find_elements_by_class_name('col-md-1') for info in infos:     info = info.text.strip()     num += int(info) print(num) # 以上就是selenium自动化爬取页面，需要等待几秒

展开阅读全文

4
评论 2
x
海报

扫一扫，海报
手机看

到微信朋友圈

x

扫一扫，手机阅读
打赏

打赏

woaiyuyang_

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

确定

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

GlidedSky爬虫网站练习基础1爬虫woaiyuyang的博客-

GlidedSky爬虫网站练习第一关

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group