下面是一个示例代码,用于计算两个文本之间的共现矩阵,并进行比较:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
# 输入文本
texts = ["I love coding and programming",
"I enjoy playing video games",
"Coding and programming are my hobbies"]
# 创建CountVectorizer对象
vectorizer = CountVectorizer()
# 将文本转换为词频矩阵
matrix = vectorizer.fit_transform(texts)
# 获取词袋模型中的所有单词
words = vectorizer.get_feature_names()
# 将词频矩阵转换为共现矩阵
coocurrence_matrix = (matrix.T * matrix).toarray()
# 打印共现矩阵
print("共现矩阵:")
print(coocurrence_matrix)
print()
# 计算两个文本的余弦相似度
similarity = cosine_similarity(coocurrence_matrix[0].reshape(1, -1), coocurrence_matrix[1].reshape(1, -1))
# 打印两个文本的相似度
print("文本1和文本2的相似度:", similarity[0][0])
这个示例代码中使用了CountVectorizer来将文本转换为词频矩阵,并使用矩阵乘法计算共现矩阵。然后,使用余弦相似度来比较两个文本之间的相似程度。
上一篇:比较Golang中的指针
下一篇:比较工作日的SQL