要实现按列分组的NLP生成相邻三个词的数据框,可以按照以下步骤进行:
import jieba
text = "今天天气很好,适合出门旅游。"
words = jieba.lcut(text)
import pandas as pd
df = pd.DataFrame(columns=['word1', 'word2', 'word3'])
for i in range(len(words)-2):
df.loc[i] = [words[i], words[i+1], words[i+2]]
print(df)
完整代码示例:
import jieba
import pandas as pd
text = "今天天气很好,适合出门旅游。"
words = jieba.lcut(text)
df = pd.DataFrame(columns=['word1', 'word2', 'word3'])
for i in range(len(words)-2):
df.loc[i] = [words[i], words[i+1], words[i+2]]
print(df)
运行上述代码,将会得到一个包含相邻三个词的数据框,每一行代表一个组合。
输出结果示例:
word1 word2 word3
0 今天 天气 很好
1 天气 很好 ,
2 很好 , 适合
3 , 适合 出门
4 适合 出门 旅游
这样就生成了按列分组的NLP生成相邻三个词的数据框。
下一篇:按列分组的SQL查询