以下是一个示例解决方案,使用Python中的BeautifulSoup库来解析HTML以及使用正则表达式模块来匹配标签:
from bs4 import BeautifulSoup
import re
def get_documents_by_tag(html, tag):
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, 'html.parser')
# 使用正则表达式模块匹配标签
documents = soup.find_all(tag)
# 返回匹配到的文档
return documents
# 示例HTML代码
html = """
标题1
段落1
标题2
段落2
标题3
段落3
"""
# 按标签获取文档
tag = 'h2'
documents = get_documents_by_tag(html, tag)
# 打印匹配到的文档
for document in documents:
print(document.text)
在上面的示例中,我们定义了一个名为get_documents_by_tag的函数,该函数接受两个参数:HTML代码和要匹配的标签。函数使用BeautifulSoup库解析HTML代码,并使用正则表达式模块来匹配标签。最后,函数返回匹配到的文档。
我们还提供了一个示例HTML代码,并在示例代码中调用get_documents_by_tag函数来获取所有标签的文档。最后,我们打印出匹配到的文档的文本内容。
上一篇:按标签和类进行数据抓取
下一篇:按标签获取最后一个片段