2019-07-26 01:39 已编辑湖南大学算法工程师

关注

TF-IDF试用

记录一次生成文本tf-idf过程。

tf-idf资料网上很多，这里就不介绍了。

这里使用Python的sklearn封装的tf-idf，代码如下：

# coding:utf-8

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

__author__ = "yuquanle"

#计算文本的tf-idf,一行为文本的向量

from sklearn.feature_extraction.text importTfidfTransformer

from sklearn.feature_extraction.text importCountVectorizer

import numpy as np

if __name__ == "__main__":

corpus=[]

#输入数据的格式，一行为一个文本，中文要分词（可以使用jieba分词）

filepath = file("C:\\Users\\LLL\\Desktop\\treestructure\\data-nosymbol\\test_STS.input.surprise.OnWN.nosymbol.txt","r")

for line in filepath.readlines():

line = line.strip("\n")

corpus.append(line)

vectorizer = CountVectorizer() # 该类会将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在i类文本下的词频

transformer = TfidfTransformer() # 该类会统计每个词语的tf-idf权值

tfidf = transformer.fit_transform( vectorizer.fit_transform(corpus)) # 第一个fit_transform是计算tf-idf，第二个fit_transform是将文本转为词频矩阵

words = vectorizer.get_feature_names() # 获取词袋模型中的所有词语

weight = tfidf.toarray() # 将tf-idf矩阵抽取出来，元素a[i][j]表示j词在i类文本中的tf-idf权重

#写文件

#写入词库名字，每一行一个词，向量的位置就是词的位置

fileout = file(r'C:\\Users\\LLL\\Desktop\\treestructure\\tf-idf-nosymbol\\OnWN.nosymbol.name.txt',"a+")

for word in words:

fileout.write(word+"\n")

fileout.write("\n")

#写入词袋tf-idf值，这里写入文本，为一个矩阵，矩阵的每一行为一个向量，即文本向量，维度为整个词库的大小，第i维数值为词库中第i个词的tf-idf 值

np.savetxt("C:\\Users\\LLL\\Desktop\\treestructure\\tf-idf-nosymbol\\OnWN.nosymbol.TF-IDF.txt",weight)

输入文本处理如下图格式，一行为一个doc：

此文本记录词库中每个词以及词在词库的位置：

tf-idf值，将tf-idf矩阵写入此文件，每一行为一个文本的文本向量，向量的第i维为词库位置为i的词在这篇doc 的tf-idf值，如下图：

但是当我要得到每个词的具体tf-idf：

当数据集比较大时,使用

weight = tfidf.toarray()会报MemeryError，可以使用下面这种方法得到每个词的tf-idf：

with open("tomato-no_order_tfidf", "w", encoding="utf-8") as f:
for i in range(len(Corpus_data)):
# tfidf[i].getnnz()第i行句子的长度
weight = tfidf[i].toarray()
line = ""
for j in range(len(words)):
if weight[0][j] != 0:
line = line + words[j] + ":" + str(weight[0][j]) + " "
f.write(line)
f.write("\n")
print(line)

全部评论

推荐最新楼层

04-01 09:32

门头沟学院 Java

AI用在刀刃上

作为后端开发实习生，从最开始瞎用AI踩坑，到现在每天高频使用AI，把工作效率提升了3倍，我深刻明白：用AI的次数多不厉害，把AI用在刀刃上，真正帮自己减负、提效、成长，才是核心。先说说我一天的AI使用频率和场景，不算生活里的琐事，纯工作场景，一天就会用AI20次左右，主要集中在这几个模块，也是我总结出来的，职场人用AI最高效的几个方向：一、核心工作提效：用AI做“重复劳动的替身”，把精力留给核心思考这是我用AI最多的场景，占了一天使用次数的60%，核心原则是：所有标准化、重复性、低思考成本的工作，全交给AI。代码开发辅助：这是每天用得最多的。基础的CRUD接口、工具类、通用函数、单元测试、代码...

AI了，我在打一种很新的...

点赞评论收藏

分享

03-29 16:40

中央美术学院附属中等美术学校 Java

做的有点累，感觉不是超级难对ACM选手肯定爆杀，鼠鼠拼尽力做出前两道，后两道不会一个图，一个dp大概是，只拿了0.25一共A了2.25/4。每次做这种题都有一种无力感。。。。做的就不想做了

暴龙战士求offer：4/4小白选手

蜀黍面试记录

点赞评论收藏

分享

02-22 15:15

门头沟学院 Java

简历求拷打

目前0实习，想找中大厂的暑期实习和日常实习，目前进度hot100快刷完了，八股看了一多半（但很多感觉忘记了）。恳求大佬们给出一些建议和指导😸

牛客31544035...：南大加大加粗，可以海投了

点赞评论收藏

分享

03-29 15:20

门头沟学院测试开发

字节测试开发-数据平台部门一面凉经

自我介绍手撕：最长无重复字符的子序列（经典，字节最高频的一道题）询问上段实习为何离职针对简历上图片评测相关的工作讲解一下数据集清洗、打标怎么做的构建benchmark的标准有哪些？讲解一下基于agent skill做ui自动化的细节讲解一下一个需求完整的开发到上线流程。线上出问题是怎么解决的？第二段实习中代码行覆盖率怎么做的，有调用外部工具吗？反问：多久出后续。

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你觉得大几开始实习最合适？ #

15086次浏览 168人参与

# uu们，春招你还来吗？ #

52599次浏览 304人参与

# 开放七大实习专项，百度暑期实习值得冲吗 #

35016次浏览 615人参与

# 面试被问到不会的问题，你怎么应对？ #

12618次浏览 158人参与

# 面试中，你被问过哪些奇葩问题？ #

92217次浏览 890人参与

# Claude Code泄露源码 #

6787次浏览 109人参与

# 招商银行数字金融训练营 #

104258次浏览 880人参与

# 恒生电子笔试 #

17462次浏览 135人参与

# 2023年不发年终奖的公司盘点 #

30271次浏览 174人参与

# 你都用vibe coding做过什么？ #

9027次浏览 371人参与

# AI Coding实战技巧 #

7710次浏览 170人参与

# 26届春招投递记录 #

1481次浏览 24人参与

# 你现在一天AI几次？ #

6474次浏览 87人参与

# 七猫笔试 #

6344次浏览 46人参与

# 做完笔试后你收到面试了吗？ #

14064次浏览 163人参与

# 四大天坑是哪四家？ #

111138次浏览 241人参与

# 你见过哪些招聘隐形歧视？ #

10780次浏览 97人参与

# 机械人你知道哪些单休企业 #

101785次浏览 476人参与

# Vibe Coding 会干掉初级岗位吗？ #

12169次浏览 166人参与

# 大厂实习和小厂实习最大的区别是什么？ #

24537次浏览 191人参与

# 如果人生可以debug你会改哪一行? #

5581次浏览 102人参与

# 网易游戏雷火笔试 #

3842次浏览 66人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务