JonSnow201904121653860

2020-04-02 21:18 已编辑中国人民大学算法工程师

关注

gensim word2vec词向量模型快速加载

背景：
在使用别人已经训练好的word2vec模型时，如Chinese Word Vectors 中文词向量，https://link.zhihu.com/?target=https%3A//github.com/Embedding/Chinese-Word-Vectors
常常这种模型很大（上述链接中的Skip-Gram with Negative Sampling (SGNS)中，Mixed-large 综合行、Word + Ngram列下载解压后的文件为3.43G），将他们加载到内存中再求词向量显然会很费时，求model.most_similar时同样需要搜索整个内存空间.
在stackoverflow中，关于训练好的的word2vec模型加速加载、使用回答链接如下：https://link.zhihu.com/?target=https%3A//stackoverflow.com/questions/42986405/how-to-speed-up-gensim-word2vec-model-load-time

本文尝试解决的问题是：
如何使用已训练的word2vec模型，快速求有限词汇表的词向量。
2. 方法：
构建有限词汇表，转存模型中的词向量为csv或其他格式，使用时载入为字典实现快速读取。
3. 代码：

import numpy as np
import pandas as pd

# 用于过滤在word2vec中的词
def get_vocabulary_vector():
    # 载入已下载的word2vec解压后的模型
    print("start word2vec load ......")
    from gensim.models import KeyedVectors
    wv_from_text = KeyedVectors.load_word2vec_format(Config().model_path+'sgns.merge.bigram',
                                                     binary=False, encoding="utf8",  unicode_errors='ignore')  # C text format
    print("word2vec load succeed")

    # 所有文本构建词汇表，words_cut 为分词后的list，每个元素为以空格分隔的str.
    vocabulary = list(set([word for item in words_cut for word in item.split()]))

    # 构建词汇-向量字典
    vocabulary_vector = {}
    for word in vocabulary:
       if word in wv_from_text:
          vocabulary_vector[word] = wv_from_text[word]
    # 储存词汇-向量字典，由于json文件不能很好的保存numpy词向量，故使用csv保存
    pd.DataFrame(vocabulary_vector).to_csv(config.model_path+"vocabulary_vector.csv")

if __name__=="__main__":
    # 读取词汇-向量字典，csv转字典
    vocabulary_vector = dict(pd.read_csv(Config().model_path+"vocabulary_vector.csv"))
    # 此时需要将字典中的词向量np.array型数据还原为原始类型，方便以后使用
    for key,value in vocabulary_vector.items():
       vocabulary_vector[key] = np.array(value)
    print("vocabulary vector load succeed")

    # 至此可以使用字典方式快速读取词向量，第一次构建耗时，之后只需读取该csv，速度提升很多啦..

全部评论

推荐最新楼层

04-30 10:10

已编辑

北京外国语大学平台产品

回家吧孩子，五一假期就别投你那破简历了

HR都提前请假出门玩了，现在投简历，hr只会恨你。除非特殊的急招，面试很难在这三个工作日内敲定节后入职。大部分求职平台的后台打开都是按时间顺序排列简历，现在投了节后早就被新简历淹的没影了。与其现在把简历塞到人在工位，心在乱飞的hr邮箱里，不如回家好好陪陪爸妈，好好休息！回来再好好打磨简历

胖乎乎的伊泽瑞尔很勇敢：平时不投，放假也不投，那我不是白放假了？

查看图片

五一假期，你打算“躺”还是“卷”？

点赞评论收藏

分享

04-30 17:21

门头沟学院运营

命好苦，舍友不通马桶

室友早上上厕所把马桶堵了，完了把马桶盖一盖就走了🤭更要命的是他们可能五一都不回来了。气死我了，想不到为什么能有人不管，一走了之？？？？他觉得谁会给他通马桶呢？？？？我真的要疯了，怎么会有人这样，他一点体面和羞耻感都不要了吗？什么时候才能一个人住啊啊啊🥹

牛客208528989号：这下真的是拉满了

点赞评论收藏

分享

04-22 18:00

已编辑

东莞市东华初级中学 C++

请问腾讯hr加wx是稳了吗

4.17录用评估一周了，昨晚hr突然加微信，但是官网还是录用评估，状态也还是报批中4.22更已offer

JustinXiang：你这个聊天记录不是就说明一切了吗

腾讯泡池子942人在聊

点赞评论收藏

分享

03-20 11:10

已编辑

大连民族大学 Java

Java双非找实习，天塌了。

投了好几天都无面试，有没有佬给看看简历该怎么改😭😭😭#Java# #实习#

在度假的小确幸很卖萌：26的别急，等我们25的先急

点赞评论收藏

分享

04-29 12:38

沈阳师范大学 Java

五一准备刷完这些面试八股题！！

一、JVM篇1、知识点汇总2、知识点详解3、说说类加载与卸载4、简述-下JVM的内存模型线程私有区线程共享区5、说说堆和栈的区别6、什么时候会触发FullGC7、什么是Java虚拟机?为什么Java被称作是“平台无关的编程语言”?8、java内存结构9、说说对象分配规则10、描述一下JVM加载class文件的原理机制?11、说说Java对象创建过程12、知道了的生命周期吗?13、简述Java的对象结构14、如何判断对象可以被回收?15、JVM的永久代中会发生垃圾回收吗?16、你知道哪些垃圾收集算法17、调优命令有哪些?18、常见调优工具有哪些19、Minor Gc与FulLGC分别在什么时候发...

五一假期，你打算“躺”还是“卷”？

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 找工作，行业重要还是岗位重要？ #

10797次浏览 189人参与

# 国企还是互联网，你怎么选？ #

123598次浏览 958人参与

# 潍柴工作体验 #

17267次浏览 17人参与

# 盲审过后你想做什么？ #

13414次浏览 119人参与

# 五一之后，实习真的很难找吗？ #

49046次浏览 349人参与

# 外包能不能当跳板？ #

22696次浏览 192人参与

# 央国企投递记录 #

80013次浏览 1318人参与

# 你觉得通信/硬件有必要实习吗？ #

92789次浏览 891人参与

# 我的2024小目标 #

57038次浏览 380人参与

# 中美关税战对我们有哪些影响 #

27600次浏览 261人参与

# 每人推荐一个小而美的高薪公司 #

72955次浏览 1358人参与

# 领导秒批的请假话术 #

10688次浏览 83人参与

# 设计人如何选offer #

98973次浏览 692人参与

# 五一假期，你打算“躺”还是“卷”？ #

38967次浏览 490人参与

# 蚂蚁集团工作体验 #

10910次浏览 70人参与

# 小厂实习有必要去吗 #

42584次浏览 260人参与

# 一句话证明你在找工作 #

294320次浏览 2432人参与

# 创作灵感 #

96714次浏览 1475人参与

# 应届生进小公司有什么影响吗 #

67432次浏览 984人参与

# 实习生活中那些难忘的瞬间 #

100423次浏览 1790人参与

牛客网
牛客企业服务