三七是只小学鸡

2020-07-14 02:09 The University of Melbourne 算法工程师

关注

Word2Vec详解（1）

Word2vec

One-hot与Word2Vec

首先要与更早出现的one-hot编码进行对比。
词典大小为N，one-hot编码可以将每个词就表示成一个⻓度为N的向量，只有第i位(i取0到N-1)为1，其他位置为0。
one-hot编码构造简单，但是却很难标示出词与词之间的关系。
以我们所熟悉的余弦相似度举例：
man与woman、man与orange的余弦相似度都为0。
显然，并不具备什么区分度，很难表示出词的相似关系。
针对这个问题，提出了Word2Vec工具。
Word2Vec将每个词表示成定长的向量，并利用这些特征维度标示出词的相似关系。
举例，每个词的维度可能包括：性别、年龄、是否是食物、等等...

word2vec工具包含两个模型

跳字模型(skip-gram)
连续词袋模型(continuous bag of words，CBOW)
前者假设基于中心词来生成序列位置前后的背景词
后者则假设假设基于前后的背景词来生成中心词

假设文本序列：“Sanqi”“is”“a”“stupid”“student”。以“a”作为中心词，设背景窗口大小为2。

Skip-gram关心的是，给定“a”，生成距离2个词以内的“Sanqi”“is”“stupid”“student”的条件概率，即
P (“Sanqi”“is”“stupid”“student” | “a”).

假设给定中心词，背景词的生成是相互独立的，可改写为
P (“Sanqi” | “a”) · P (“is”| “a”) · P (“stupid” | “a”) · P (“student” | “a”).

而CBOW关心的是，给定“Sanqi”“is”“stupid”“student”生成中心词“a”的条件概率，即P ( “a” | “Sanqi”“is”“stupid”“student”).

全部评论

推荐最新楼层

11-20 15:13

门头沟学院 Java

吉利薪资17k，加上各种补贴好像18k（忘了听HR电话说的）但听说加班很严重，面试时听面试官讲，很多杂活估计没啥提升果断拒了

校招薪资来揭秘

点赞评论收藏

分享

11-19 12:18

远景_运维开发工程师(准入职员工)

远景能源内推，远景能源内推码

远景能源-质量管理工程师（三面✅）7.24官网投简历8.10一面✅hr很和蔼，我自我介绍结束以后，因为我上一份实习是处理PDF标准文件的，hr会偏向问我处理非结构化数据的流程，还有一些比较常规的问题，比如对远景公司主营业务有哪些了解，对质量管理有哪些了解，你认为你的专业或实习经历对质量管理有哪些帮助。一面结束hr认为我可能比较适合质量管理的数字化方向。8.14二面✅电话面，本来应该是视频面，但是二面的hr应该很忙，在国外出差，所以他就直接给我打了电话。当时我是不知情的，还在腾讯会议等待间，看到手机有国外电话打过来，下意识觉得是诈骗骚扰电话，我就直接挂了，还挂了两次。这个时候我觉得有点不太对劲，...

点赞评论收藏

分享

10-25 18:35

华东交通大学 Java

26届双非本，11月补录还有机会吗😭

hwwhwh：同双非，有大厂实习其实也没啥用，主要看运气，等就行了

点赞评论收藏

分享

10-09 16:12

门头沟学院 golang

用实力，让HR回心转意

刷牛客的单身狗很认真：全国可飞，支持007 上班时间，是吧？

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 那些年，我收到的‘奇葩’回复 #

23307次浏览 159人参与

# 实习需要主动找活干吗？ #

55060次浏览 295人参与

# 百度秋招 #

50507次浏览 384人参与

191055次浏览 1324人参与

# 你后悔选择现在的专业吗 #

101797次浏览 697人参与

# 职场中那些令人叹为观止的八卦 #

30439次浏览 243人参与

# 腾讯音乐秋招 #

431043次浏览 4779人参与

# 实习教会我的事 #

41943次浏览 342人参与

# 蚂蚁求职进展汇总 #

131503次浏览 1204人参与

# 秋招你经历过哪些无语的事 #

22244次浏览 239人参与

# 2022毕业即失业取暖地 #

120267次浏览 709人参与

# 校招薪资来揭秘 #

83707次浏览 524人参与

# 听到哪句话代表面试稳了OR挂了？ #

105784次浏览 457人参与

# 秋招吐槽大会 #

92174次浏览 795人参与

# 材料人，你最希望上岸的是？ #

11480次浏览 56人参与

# 你今年的保底offer是哪家 #

143727次浏览 620人参与

# 牛客十周岁生日快乐 #

184729次浏览 1825人参与

# 扒一扒那些奇葩实习经历 #

131970次浏览 1125人参与

# AI时代，哪些岗位最容易被淘汰 #

12033次浏览 99人参与

# 你找工作想离家近 or 离家远？ #

16853次浏览 245人参与

# 你秋招最后悔的选择 #

18379次浏览 135人参与

# 我的职场社死时刻 #

22749次浏览 171人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务