程序猿成长日记(三)TF-IDF的词嵌入自我理解(原理及实战)

TF-IDF的词嵌入自我理解

TF-IDF原理解析及公式
TF代码实现:
IDF代码实现:
最后的向量表示:
main函数部分:

TF-IDF原理解析及公式

TF-IDF技术是一种基于词的出现频率和词对于文档的不同重要程度而设立的一种模型, 其核心就只有两部分TF词频和IDF逆文档频率.
公式也比较简单:

TF代码实现:

TF部分实现的代码如下:

def TFCalculate(OurDoc):
    wordsofbag = {
   }
    allwords = []  # 记录所有的词数
    # 首先统计所有的词数
    for doc in OurDoc:
        words = doc.split(' ')
        for word in words:
            if word not in wordsofbag.keys():
                wordsofbag[word] = 1
                allwords.append(word)
            else:
                wordsofbag[word] += 1

    tfvec = []  # 文档的tf(t,d)向量

    for doc in OurDoc:
        # 计算每个文档的tf值向量,tf即词文档出现频率
        words = doc.split(' ')
        newvec = [0 for _ in range(len(allwords))]
        for word in words:
            newvec[allwords.index(word)] += 1
        tfvec.append(newvec)

    return wordsofbag, tfvec, allwords

IDF代码实现:

IDF实现的代码部分如下:

def IDFCalculate(tfvec, alllwords):
    """计算IDF的值,公式等于文档的<log(总数/(1+出现该词的文档数))>"""
    nd = len(tfvec)  # 文档数目
    idf = []  # 所有文档df的值,即出现该词的文档数
    for vec in tfvec:
        df = [0 for _ in range(len(allwords))]
        for i in range(len(df)):
            if vec[i]:
                df[i] += 1
        df = list(map(lambda x: np.log(nd / (x + 1)), df))  # +1防止分母为0
        idf.append(df)
    return idf

最后的向量表示:

def TF_IDFCalculate(tfvec, idfvec):
    """计算最后的TF-IDF的向量表示"""
    TF_IDF = []
    for docnum in range(len(tfvec)):
        newvec = []
        for doccolumn in range(len(tfvec[0])):
            newvec.append(tfvec[docnum][doccolumn] * idfvec[docnum][doccolumn])
        TF_IDF.append(newvec)
    return TF_IDF

main函数部分:

由于是尝试,没有采用大型的语料库,但是精髓领悟到了,语料库什么的其实也就不必介意了.

if __name__ == '__main__':
    # 定义文档，这里将每一句话视为一个文档
    OurDoc = ["the sun is shining",
              "the weather is sweet",
              "the sun is shining and the weather is sweet"]
    wordsofbag, tfvec, allwords = TFCalculate(OurDoc)
    idfvec = IDFCalculate(tfvec, allwords)
    TF_IDFVec = TF_IDFCalculate(tfvec, idfvec)

参考文献:
GitHub完整代码
 NLP关键字提取之TF-IDF算法
 TF-IDF算法介绍及实现

全部评论

推荐最新楼层

今天 20:54

上海理工大学算法工程师

高效同城配送系统架构揭秘

同城配送系统架构设计 采用Spring Boot作为基础框架，结合Redis实现高速缓存，利用RabbitMQ处理异步任务。系统采用微服务架构，分为订单服务、配送服务、支付服务和通知服务四大模块。订单服务处理用户下单逻辑，配送服务管理骑手调度，支付服务对接第三方支付平台，通知服务负责短信和推送。 数据库设计采用分库分表策略，订单表按用户ID哈希分片，配送表按地理位置分片。Redis缓存热点数据如骑手实时位置和配送费计算规则。RabbitMQ队列分为即时队列和延迟队列，分别处理普通订单和预定订单。 核心功能实现 订单创建流程 @PostMapping("/orders") p...

点赞评论收藏

11-13 17:26

西安电子科技大学 Java

给学弟学妹们一点分享，一个30岁前端的路口选择

上个月，我刚过完30岁生日。没有办派对，就和家人简单吃了顿饭。但在吹蜡烛的那个瞬间，我还是恍惚了一下。30岁，对于一个干了8年的前端来说，到底意味着什么？前几天，我在做团队下半年的规划，看着表格里的一个个名字，再看看镜子里的自己，一个问题在我脑子里变得无比清晰：我职业生涯的下一站，到底在哪？28岁之前在28岁之前，我的人生是就行直线。我的目标非常纯粹：成为一个技术大神。我的快乐，来自于搞懂一个Webpack的复杂配置、用一个巧妙的Hook解决了一个棘手的渲染问题、或者在Code Review里提出一个让同事拍案叫绝的优化。这条路的升级路径也非常清晰：初级（学框架） -> 中级（懂原理...

牛客在线求职答疑中心

点赞评论收藏

09-24 10:31

重庆理工大学算法工程师

投递实习

27届大三想投实习，佬们帮我看看怎么样？

丿南烟丶：黑白模板吧，不要这样花哨的。主要成就太空了，和获奖融在一起，写一两行就行了。职业技能不要这样排，就传统的掌握精通什么什么然后举例补充的一些重要技术点。自我介绍说实话也没啥用，可以删了。把自己的两个项目方案细节补充上去，为什么这样设计，怎么设计，成果是什么按star法则来写你要引导面试官来问你的技能和项目，你的获奖和自我介绍别人可能看都不看一眼或者不太在乎，重要的是展示你能干活的能力