一种解决方法是使用TF-IDF和余弦相似度。首先将文本转换为向量表示,然后计算它们之间的余弦相似度。代码示例如下:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# 两个文本
text1 = "This is the first document."
text2 = "This is the second document."
# 使用TF-IDF向量化文本
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform([text1, text2])
# 计算两个向量之间的余弦相似度
similarity = cosine_similarity(X[0], X[1])
print(similarity)
输出结果如下:
[[0.52682019]]
其中,相似度的取值范围为[-1, 1],越接近1表示越相似。
上一篇:比较不同的日期时间格式