后台-插件-广告管理-内容页广告位一(手机)

您现在的位置是:首页 > 编程语言 > pythonpython

爬取本blog所有文章链接

2021-04-18 18:39:33python人已围观

简介刚接触python,试一下爬虫。拿自己的Blog开刀
import requests
from bs4 import BeautifulSoup
import pprint
url = "https://www.cnblogs.com/zyqgold/"

#爬取分页
def do

刚接触python,试一下爬虫。拿自己的Blog开刀

import requests
from bs4 import BeautifulSoup
import pprint
url = "https://www.cnblogs.com/zyqgold/"

#爬取分页
def download_all_htmls():
htmls = []
for i in range(7):
url = f"https://www.cnblogs.com/zyqgold/default.html?page={i+1}"
#print("页面URL:",url)
r = requests.get(url)
if r.status_code != 200:
raise Exception("error")
htmls.append(r.text)
return htmls
#爬取分页里边的文章链接
def parse_single_html(html):
soup = BeautifulSoup(html,"html.parser")
articles = soup.find_all("a",class_= "postTitle2 vertical-middle")
nodes =[]
for article in articles:
nodes.append({"name":article.span.string,"link":article.attrs["href"]})
return nodes

htmls = download_all_htmls()

all_html = []
for html in htmls:
all_html.extend(parse_single_html(html))
pprint.pprint(all_html)

文章来源:查看

Tags:链接   文章   blog

很赞哦! ()

后台-插件-广告管理-内容页广告位二(手机)

相关文章

后台-插件-广告管理-内容页广告位三(手机)
后台-插件-广告管理-内容页广告位四(手机)

文章评论

留言与评论(共有 0 条评论)
   
验证码:

本栏推荐

站点信息

  • 文章统计13614篇文章
  • 浏览统计468次浏览
  • 评论统计1个评论
  • 标签管理标签云
  • 统计数据:统计代码
  • 微信公众号:扫描二维码,关注我们