要在操作HTML文本时保持原始标签不变,可以使用Python的HTML解析库来处理HTML文本。以下是使用BeautifulSoup库的示例代码:
from bs4 import BeautifulSoup
# 原始HTML文本
html = "Hello world
"
# 创建BeautifulSoup对象,并指定解析器为lxml
soup = BeautifulSoup(html, 'lxml')
# 获取文本内容,并保持原始标签不变
text = soup.get_text()
# 打印结果
print(text)
运行上述代码,将输出以下结果:
Hello world
可以看到,使用BeautifulSoup库的get_text()方法可以获取HTML文本中的纯文本内容,并保持原始标签不变。这样,即使HTML文本中包含了标签,也能够正确提取纯文本内容。
下一篇:保持原始对象不变