2019-07-26 00:57 已编辑湖南大学算法工程师

关注

工具篇Flair之使用词向量教程

更多实时更新的个人学习笔记分享，请关注：
知乎：https://www.zhihu.com/people/yuquanle/columns
微信订阅号：AI小白入门
ID: StudyForAI

<center>

</center>

Flair工具使用教程

教程三: 如何使用词向量
教程地址：https://github.com/zalandoresearch/flair/blob/master/resources/docs/TUTORIAL_3_WORD_EMBEDDING.md
Flair提供了很多Class，可以通过很多方法获得词/句子嵌入。
单词嵌入类都继承自TokenEmbeddings类，并实现embed（）方法，您需要调用该方法来嵌入文本。
生成的所有嵌入都是Pytorch向量，因此它们可以立即用于训练和微调。

词向量(词嵌入)

Classic Word Embeddings
经典的单词嵌入是静态的和单词级的，这意味着每个不同的单词只能获得一个预先计算的嵌入。大多数词嵌入都属于这一类，包括流行的GloVe或Komnios嵌入。

提供了很多预训练词向量，目前支持以下嵌入：

Contextual String Embeddings
上下文字符嵌入是一类强大的词嵌入，能够更好的捕获潜在的语法语义信息。主要区别在于：

它们在没有任何明确的单词概念的情况下进行训练，从而从根本上将单词建模为字符序列。
它们通过其周围文本进行语境化，这意味着相同的单词将根据其上下文使用而具有不同的嵌入。

您可以通过将字符串传递给CharLMEmbeddings类的构造函数来选择加载的嵌入。目前，提供了以下Contextual String Embeddings：

Character Embeddings
一些嵌入 - 例如字符特征 - 不是预先训练的，而是在下游任务上训练。通常，这需要您实现分层嵌入体系结构。有了Flair，你不必担心这些事情。只需选择适当的嵌入类，然后在下游任务培训期间自动训练字符特征。
Stacked Embeddings
Stacked Embeddings（堆叠嵌入）是此库中最重要的概念之一。您可以使用它们将不同的嵌入组合在一起，例如：

如果您想要将传统嵌入与上下文嵌入嵌入一起使用。
堆叠嵌入允许您混合和匹配。我们发现嵌入的组合通常会产生最佳效果。
您需要做的就是使用StackedEmbeddings类并通过传递您希望组合的嵌入列表来实例化它。

Flair实战

Classic Word Embeddings

from flair.embeddings import WordEmbeddings
c:\users\yuquanle\anaconda3\envs\python36\lib\site-packages\gensim\utils.py:1197: UserWarning: detected Windows; aliasing chunkize to chunkize_serial
  warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")

载入glove词向量，需要下载预训练模型（我网速太差好久没下载下来）

#glove_embedding = WordEmbeddings('glove')

转换在Glove官网下载的词向量
看这里：https://github.com/zalandoresearch/flair/issues/4

import gensim
vectors = gensim.models.KeyedVectors.load_word2vec_format('wiki-news-300d-1M.vec', binary=False)
vectors.save('fasttext_gensim')

载入转换后的glove词向量

embeddings = WordEmbeddings('fasttext_gensim')
from flair.data import Sentence
sentence = Sentence('the grass is green .')

for token in sentence:
    print(token)
    print(token.embedding)
c:\users\yuquanle\anaconda3\envs\python36\lib\site-packages\gensim\utils.py:1197: UserWarning: detected Windows; aliasing chunkize to chunkize_serial
  warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")


Token: 1 the
tensor([])
Token: 2 grass
tensor([])
Token: 3 is
tensor([])
Token: 4 green
tensor([])
Token: 5 .
tensor([])

Contextual String Embeddings

from flair.embeddings import CharLMEmbeddings
charlm_embedding_forward = CharLMEmbeddings('news-forward-fast')
sentence = Sentence('The grass is green .')
#charlm_embedding_forward.embed(sentence)
for token in sentence:
    print(token)
    print(token.embedding)
Token: 1 The
tensor([ 0.0021, -0.0000, -0.0057,  ..., -0.0000, -0.0001,  0.0163])
Token: 2 grass
tensor([-0.0009, -0.0000,  0.0248,  ..., -0.0000,  0.0006,  0.0057])
Token: 3 is
tensor([ 0.0018, -0.0002,  0.0298,  ..., -0.0000,  0.0000,  0.0003])
Token: 4 green
tensor([-0.0004, -0.0000,  0.0046,  ..., -0.0000, -0.0001,  0.0345])
Token: 5 .
tensor([ 0.0008, -0.0000,  0.0050,  ..., -0.0000, -0.0000,  0.0021])

Character Embeddings

from flair.embeddings import CharacterEmbeddings
embedding = CharacterEmbeddings()
sentence = Sentence('The grass is green .')
for token in sentence:
    print(token)
    print(token.embedding)
Token: 1 The
tensor([])
Token: 2 grass
tensor([])
Token: 3 is
tensor([])
Token: 4 green
tensor([])
Token: 5 .
tensor([])

Stacked Embeddings

from flair.embeddings import WordEmbeddings, CharLMEmbeddings
c:\users\yuquanle\anaconda3\envs\python36\lib\site-packages\gensim\utils.py:1197: UserWarning: detected Windows; aliasing chunkize to chunkize_serial
  warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")
# init GloVe embedding
glove_embedding = WordEmbeddings('fasttext_gensim')

# init CharLM embeddings
charlm_embedding_forward = CharLMEmbeddings('news-forward')
#charlm_embedding_backward = CharLMEmbeddings('news-backward')
from flair.embeddings import StackedEmbeddings
stacked_embeddings = StackedEmbeddings(
    embeddings=[glove_embedding, charlm_embedding_forward])
for token in sentence:
    print(token)
    print(token.embedding)
Token: 1 the
tensor([])
Token: 2 grass
tensor([])
Token: 3 is
tensor([])
Token: 4 green
tensor([])
Token: 5 .
tensor([])

另外，代码我已经上传github：https://github.com/yuquanle/StudyForNLP/blob/master/NLPtools/FlairDemo3.ipynb

全部评论

推荐最新楼层

05-08 15:00

东南大学 C++

华为暑期实习面试时间

4.9笔试通过，南研所打电话加微信说后面安排面试，但是到现在没有接到任何面试通知，这正常吗？

投递华为等公司8个岗位 >

点赞评论收藏

分享

05-07 18:38

CVTE_web后台开发工程师(准入职员工)

CVTE内推-CVTE内推码

工作一年给点经验 cvte加不加班？ 加还是加的，但是看部门 其他的一些文职部门我看下班还是六点准时的 而且不是强制，你事情做完可以走的，全天不打卡 工资待遇怎么样？ 待遇还是挺不错，校招普遍都是10k以上，目前我见过最高的是18k的。 有免费的健身房，游泳池，各种课程，比如舞蹈课，美声课，健身瑜伽课，球类运动，乒乓球台球羽毛球什么的都是有的，而且全部免费，有私教一对一要另外付费。吃饭免费早中晚，周六也有，二产还有西餐厅，而且非常丰盛自助餐，水果也天天供应，这点是没得说的好。公司提供住宿但是是要收费的，天天班车间接送上下班。有自己的医院，经常请一些大医院的专家来问诊，价格比外面要低的很多。一些...

CVTE公司福利 467人发布

点赞评论收藏

分享

04-12 23:18

华南理工大学嵌入式软件开发

26届嵌入式软件暑期实习简历求建议

目前没收到一个中大厂的面试，是不是简历有问题啊😭😭 #那些拿到大厂offer的简历长啥样# #投了多少份简历才上岸# #如何写一份好简历# #应届生简历当中，HR最关注哪些？#

放浪的安哥拉兔躺平了：嵌入式行情太差了，试试去投腾讯客户端，嵌入式的简历也会给面试的

那些拿到大厂offer的简历长啥样投了多少份简历才上岸

点赞评论收藏

分享

05-07 16:38

天润融通AI Agent实战营成功举办，助力企业革新客户服务模式

2025年3月，天润融通AI 训练师精英计划首期“AI Agent实战营”圆满收官。为期四周的培训，吸引了来自消费零售、智能电子、汽车、软件服务、家装家居等多个行业的知名企业客户学员踊跃参与。学员们通过系统的理论学习与深度的实操演练，显著提高了对AI Agent的认知与应用能力。AI Agent作为人工智能领域的关键创新成果，正在重塑客户服务边界，不仅能够显著提升客户服务效率与质量，还能有效降低企业运营成本，增强企业市场竞争力。天润融通“AI训练师精英计划”聚焦AI技术在客户服务领域的应用，采用“学-练-评-用”四维闭环设计，旨在帮助客户紧抓AI时代机遇，提升企业客户服务效率和职场竞争力。第一...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 牛油的搬砖plog #

6356次浏览 40人参与

# 实习学不到东西怎么办？ #

196741次浏览 2039人参与

58325次浏览 195人参与

# 一人一个landing小技巧 #

7926次浏览 159人参与

# 跳槽时有那些注意事项 #

83230次浏览 518人参与

# 面试问题记录 #

84909次浏览 1183人参与

# 应届生初入职场，求建议 #

189183次浏览 2499人参与

# 安利/避雷我的专业 #

68791次浏览 501人参与

# 选完offer后，你后悔学本专业吗 #

40387次浏览 220人参与

# 科大讯飞求职进展汇总 #

278738次浏览 2713人参与

# 被AI治愈的瞬间 #

16150次浏览 307人参与

# 我心目中的理想工作是这样的 #

58554次浏览 795人参与

# 工作中，你有没有遇到非常爱骂人的领导？ #

23279次浏览 152人参与

# 找工作的破防时刻 #

4526次浏览 58人参与

# 实习生应该准时下班吗 #

206474次浏览 1343人参与

# 面试经验谈 #

61551次浏览 1002人参与

# 求职季如何保持心态不崩 #

111390次浏览 928人参与

# 技术转行的心路历程 #

50007次浏览 665人参与

# 上班到公司第一件事做什么？ #

43166次浏览 390人参与

# 硬件人的简历怎么写 #

260516次浏览 2907人参与

# 工作时那些社死瞬间 #

28574次浏览 205人参与

牛客网
牛客企业服务