install
pip install lxml
基本使用
lxml这个模块使用非常方便,简单可总结为3步:
- 导入模块
- 实例化一个解析对象,实例化时传递要解析的html结构的字符串
- 给对象点xpath方法传递个各种xpath得到结果。
总结下来,我们就掌握住一个xpath方法就行,难点在于如何编写各式各样的xpath表达式。
python
# -*- coding = utf-8 -*-
# 第一步 导包
from lxml import etree
# 第二步
# 解析本地文件方式1
# 不添加下面一行,也就是指定编码的话,会报错: lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: meta line 4 and head, line 6, column 8
parser = etree.HTMLParser(encoding='utf-8')
tree = etree.parse('./素材/chinabidding.html', parser=parser)
print(tree)
# 第三步,传递具体的表达式
# tree.xpath("xpath表达式")
# 解析本地文件方式2,用的较多
tree = etree.HTML(open('./素材/chinabidding.html', 'r', encoding='utf-8').read())
print(tree)
# 第三步,传递具体的表达式
# tree.xpath("xpath表达式")