本文共 3329 字,大约阅读时间需要 11 分钟。
HTML 指的是超文本标记语言 (Hyper Text Markup Language),它不是一种编程语言,而是一种使用一套标记标签(markup tag)来标记元素作用的标记语言,标记语言使用标记标签来描述网页的内容。标记标签不会出现在页面中,只有标签中的内容才会显示在页面上。
HTML 标记标签通常被称为 HTML 标签 (HTML tag),是由一对尖括号括起来的关键词,称为标签名,如 <html>、<a>、<h1>
。标签不区分大小写,但是推荐使用小写,(X)HTML 版本中强制使用小写,这样更加严谨。
标签的标记分为起始标签和结束标签。HTML 元素指的是从开始标签(start tag)到结束标签(end tag)的所有内容。
起始标签用于标记对应HTML元素的开始位置,结束标签用于标记HTML元素的结束位置。
标签分为单标签和双标签,都需要起始标签和结束标签,不同的是单标签起始、结束标签都写在一个尖括号里而双标签则分别写在两个尖括号里。单标签又称为空标签,双标签又称为闭合标签。单标签的结束标签就是在标签的右尖括号前面一个反斜杠,如<br />
就是一个单标签,双标签的结束标签就是在左尖括号后比开始标签多了一个反斜杠,如<html>
和</html>
就是一对开始标签和结束标签。
不同的HTML标签对应的HTML元素可以根据位置特征等分为两类:
双标签的开始标签和结束标签之间可以嵌套其他标签,不过需要遵循以下规则:
<div><span></span><p></p></div>
这种模式是错误的,因为span是行元素,p是块元素,所以这个是错误的嵌套。虽然标签可以嵌套,但为了提高浏览器的渲染效率,应该尽量少使用标签嵌套。
HTML 标签可以拥有属性,属性为HTML元素提供的更多的附加信息, 属性只能在开始标签中使用,总是以名称/值对的形式出现,属性与属性之间需要用空格隔开,属性使用小写。常用的属性有class(样式类)、id(属性名)、style(显示风格)、title(标题)、align(对齐方式)、bgcolor(背景色)、color(颜色)。
如:<p class="textline" name="line1">
。而<a>
标签定义HTML 链接,链接的地址在<a>
标签href 属性中指定,如: 老猿Python
<html> 与 </html>:
用于标记在这对标签之间的内容为HTML语言文本;<body> 与 </body>
:用于标记这对标签之间的文本是可见的页面内容;<hn> 与 </hn>
:n为1-6,用于标记这对标签之间的文本显示为标题;<p>与 </p>
: 用于标记这对标签之间的文本被显示为一个独立段落;<a>与 </a>
:用于标记这对标签之间的文本为一个网址链接;<img>
:用于标记图像,这是一个单标签,如:<img src="LaoYuanPython.jpg" />
<br />:
单标签,用于标记换行;<hr />
:单标签,用于显示一根水平线;<!--注释内容-->
:用于存放注释;<center>
: 定义居中的内容;<font>
:定义字体;<u>
:定义下划线文本;<i>
:定义斜体文本;<b>
: 定义粗体文本;<big>
: 定义大号字;<em>
: 定义着重文字;<small>
: 定义小号字;<strong>
: 定义加重语气;<sub>
: 定义下标字;<sup>
: 定义上标字;<ins>
: 定义插入字;<del>
: 定义删除字;<link>
:标签定义文档与外部资源的关系,此元素只能存在于 head 部分,不过它可出现任何次数。本节简单介绍了HTML语言的基础知识,如果大家有不理解的地方,可以再在网上多查查资料。这些知识对于爬虫程序解析网页内容非常重要,如果不理解基本概念,对网页解析的知识就不太好理解。另外本节介绍的内容并不全面,也不是最新的,例如关于标签分类,行元素标签现在又进一步细分了,关于格式控制的标签现在建议使用css样式,这些东西老猿就不再详细介绍了,大家感兴趣可以到 更多学习一下。
如果阅读本文于您有所获,敬请点赞、评论、收藏,谢谢大家的支持!
更多Python爬虫入门的介绍请参考专栏《Python爬虫入门 》
专栏网址:前两个专栏都适合有一定Python基础但无相关知识的小白读者学习,第三个专栏请大家结合《》的学习使用。
对于缺乏Python基础的同仁,可以通过老猿的免费专栏《)从零开始学习Python。
如果有兴趣也愿意支持老猿的读者,欢迎购买付费专栏。