Skip to content

https://www.chinabidding.cn/search/searchgj/zbcg?table_type=&keywords=酒店设计&search_type=CONTEXT&areaid=&categoryid=&b_date=month&time_start=&time_end=

install

pip install lxml

基本使用

lxml这个模块使用非常方便,简单可总结为3步:

  1. 导入模块
  2. 实例化一个解析对象,实例化时传递要解析的html结构的字符串
  3. 给对象点xpath方法传递个各种xpath得到结果。

总结下来,我们就掌握住一个xpath方法就行,难点在于如何编写各式各样的xpath表达式。

python
# -*- coding = utf-8 -*-
# 第一步 导包
from lxml import etree

# 第二步
# 解析本地文件方式1
# 不添加下面一行,也就是指定编码的话,会报错: lxml.etree.XMLSyntaxError: Opening and ending tag mismatch: meta line 4 and head, line 6, column 8
parser = etree.HTMLParser(encoding='utf-8')
tree = etree.parse('./素材/chinabidding.html', parser=parser)
print(tree)
# 第三步,传递具体的表达式
# tree.xpath("xpath表达式")

# 解析本地文件方式2,用的较多
tree = etree.HTML(open('./素材/chinabidding.html', 'r', encoding='utf-8').read())
print(tree)
# 第三步,传递具体的表达式
# tree.xpath("xpath表达式")