博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
BeautifulSoap库入门
阅读量:4489 次
发布时间:2019-06-08

本文共 873 字,大约阅读时间需要 2 分钟。

  1. BeautifulSoup类的基本元素
基本元素 说明
Tag 标签,最基本的信息组织单元,分别用<>和</>标明开头和结尾
Name 标签的名字,<p>…</p>的名字是'p',格式:<tag>.name
Attributes 标签的属性,字典形式组织,格式:<tag>.attrs
NavigableString 标签内非属性字符串,<>…</>中字符串,格式:<tag>.string
Comment 标签内字符串的注释部分,一种特殊的Comment类型

注:任何存在于HTML语法中的标签都可以用soup.<tag>访问获得

当HTML文档中存在多个相同<tag>对应内容时,soup.<tag>返回第一个

#基本类型print(soup.title)print(soup.a)print(soup.a.parent.name)print(soup.a.parent.parent.name)print(soup.a.attrs)print(soup.a.attrs['class'])print(soup.a.attrs['href'])print(type(soup.a.attrs))print(type(soup.a))print(soup.a.string)print(soup.p)print(soup.p.string)print(type(soup.p.string))##HTML注释newsoup = BeautifulSoup("

This is not a comment

","html.parser")print(newsoup.b.string)print(type(newsoup.b.string))print(newsoup.p.string)print(type(newsoup.p.string))
  1. 基于bs4库的HTML格式输出
print(soup.prettify())

转载于:https://www.cnblogs.com/machine-lyc/p/10264006.html

你可能感兴趣的文章
JAVA 调用命令并输出
查看>>
《Python》 字典
查看>>
个图标当十个用—多功能系统级图标制作攻略
查看>>
软件生命周期
查看>>
0527
查看>>
iis配置
查看>>
正则表达式
查看>>
UVA 299 - Train Swapping(冒泡排序)
查看>>
SQL Server 跨库同步数据
查看>>
2017/4/27 morning
查看>>
跟我从零基础学习Unity3D开发--NGUI入门基础
查看>>
一个循环递归遍历问题
查看>>
Spring学习笔记17--在XML中使用SPEL
查看>>
常用的php方法
查看>>
HTML学习笔记
查看>>
Jaxb2 转换XML文档
查看>>
vue-计算属性-computed
查看>>
[网络流24题] 魔术球问题
查看>>
PHP----作业:查询数据显示在页面上
查看>>
特殊集合
查看>>