2020-11-09 17:01 武汉理工大学测试开发

关注

Bert-中文词向量-序列长度-分词

1. 安装

参考here下载对应语言的模型并安装bert的服务端和客户端包

2. 获取词语向量

首先，启动服务器，需要在启动命令中设置参数pooling_strategy=None,命令如下，

bert-serving-start -pooling_strategy NONE -model_dir /tmp/english_L-12_H-768_A-12/

接着，实现获取词向量的代码：

bc = BertClient()
vec = bc.encode(['hey you', 'whats up?'])

vec  # [2, 25, 768]
vec[0]  # [1, 25, 768], sentence embeddings for `hey you`
vec[0][0]  # [1, 1, 768], word embedding for `[CLS]`
vec[0][1]  # [1, 1, 768], word embedding for `hey`
vec[0][2]  # [1, 1, 768], word embedding for `you`
vec[0][3]  # [1, 1, 768], word embedding for `[SEP]`
vec[0][4]  # [1, 1, 768], word embedding for padding symbol
vec[0][25]  # error, out of index!

但是这样对于中文来说可能存在一个问题，当我们的输入是

from bert_serving.client import BertClient
bc = BertClient()
text = ['我 是中国人', '我是 中国 人']
vec = bc.encode(text)

此时得到的vec中两个句子中的向量是一样的，通过在服务端增加show_tokens_to_clien参数，如下所示：

bert-serving-start -show_tokens_to_clien -max_seq_len 30 -pooling_strategy NONE -model_dir E:\Models\Bert\chinese_L-12_H-768_A-12

然后在客户端使用show_tokens，此时就可以看到服务端对于切词的处理：

from bert_serving.client import BertClient
bc = BertClient()
text = ['我 是中国人', '我是 中国 人']
texts2 = [s.split() for s in text]
vec = bc.encode(text, show_tokens=True)

每个句子的token输出，结果如下：

 [['[CLS]', '我', '是', '中', '国', '人', '[SEP]'],
  ['[CLS]', '我', '是', '中', '国', '人', '[SEP]']]

可以发现，bert对于中文句子的处理是按照单个字进行处理，并且在处理之前忽略了句子中的空格符号

因此，如果要自己进行处理，可以按照下面的思路，使用自己的tokenizer即可。

from bert_serving.client import BertClient
bc = BertClient()
text = ['我 是中国人', '我是 中国 人']
texts2 = [s.split() for s in text]
vec = bc.encode(text, is_tokenized=True)

此时得到的向量才是对应分词的词向量

3. 参数

3.1. 修改序列长度

在服务端命令中增加max_seq_len参数。

bert-serving-start -max_seq_len 30 -pooling_strategy NONE -model_dir E:\Models\Bert\chinese_L-12_H-768_A-12

3.2. 显示tokens

在服务端增加show_tokens_to_clien参数

bert-serving-start -show_tokens_to_clien  -model_dir E:\Models\Bert\chinese_L-12_H-768_A-12

在客户端增加show_tokens参数

from bert_serving.client import BertClient
bc = BertClient()
text = ['我 是中国人', '我是 中国 人']
texts2 = [s.split() for s in text]
vec = bc.encode(text, is_tokenized=True)

4. reference

全部评论

推荐最新楼层

05-24 20:18

已编辑

Université d’Auvergne-Clermont-Ferrand 1 C++

简历包装（没大厂实习怎么办）

可能是因为第一次答疑，给同学们聊爽了。告诉同学们，应届生没有被调。（嘿嘿，这句话什么意思呢。就说简历上写的如果学历是真的的，一切是真的）然后，很多同学焦虑没有大厂实习经历，我说可以包装。（当然我在这里郑重声明，不建议大家包装）然后，就有星球同学问我，可不可以给大家包装。（这里也郑重声明，不会给大家包装的）因为面试实习，不仅问实习简历上写的，还有些基本的常识，这都是需要具备的知识。比如我下面写的大家，真的如果感觉需要，可以找一下上届有大厂实习的同门的，请他吃几次饭，让他给你讲讲用用（当然我在这里郑重声明，不建议大家包装）

没有实习经历，还有机会进大厂吗

点赞评论收藏

分享

05-22 21:19

蚌埠坦克学院嵌入式软件开发

嵌入式笔试刷题（第53天）

第1题题目：声明一个指向函数的指针。该函数的返回值是一个 char 指针，参数为一个 char 指针和一个 char 值。答案： char* (*func_ptr)(char*, char); 解析：char* 是函数的返回类型；(*func_ptr) 表示 func_ptr 是指针；(char*, char) 是函数的参数。第2题题目：int g_rec_count = 10; 在 bbb.c 中引用 g_rec_count 需要怎么声明？答案： extern int g_rec_count; 解析：使用 extern 关键字声明其他文件中的全局变量，以在当前文件中引用。第3题题目：给定变量...

投递太古地产等公司10个岗位 > 嵌入式笔试专栏

点赞评论收藏

分享

04-08 16:31

黑龙江科技大学 Java

当牛马的命

😓😓😓😓😓😓😓😓😓

谁知道呢_：要掉小珍珠了，库库学三年，这个结果

点赞评论收藏

分享

04-10 16:01

广东工业大学 Java

被校招vip威胁？

如题，孩子们我的人生毁了😀，我已经双腿发软，眼神空洞，生活无望了；对了，他偷了我简历还准备高我辅导员😀，没见过这么恶心的人

野猪不是猪🐗：🐒虽滑稽，但不要伸手去逗哦

点赞评论收藏

分享

05-26 18:30

已编辑

腾讯云智研发_智慧出行_前端实习生(实习员工)

速来！缺饭搭子！内推码：NTAAnXd

先放个内推码：NTAAnXd在武汉云智实习这两周，整体体验比较舒适。公司工作 上班时间弹性，上午10点到岗，午休两小时，下午2点开始工作，6点后办公室人基本看不到了。偶尔加班的话，8点能领餐补-18块半天饭钱，10点后打车报销，班车也会运营到晚上8点半，通勤压力不大。日常工作节奏适中，有一对一的导师带，任务分配比较合理，遇到问题同事也愿意帮忙。公司提供免费咖啡和小零食，茶水间经常能遇到闲聊放松的同事，氛围挺不错的。如果想找一个能平衡学习和实践的实习机会，这里算是一个踏实的选择。环境还是很不错的

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 职场捅娄子大赛 #

272465次浏览 2431人参与

# 如何KTV领导 #

50718次浏览 390人参与

# 华泰证券Fintech星战营 #

10909次浏览 143人参与

# 华为求职进展汇总 #

4604572次浏览 28075人参与

# 如果不工作真的会快乐吗 #

111636次浏览 924人参与

# 一人一个landing小技巧 #

47879次浏览 818人参与

# 互联网行业现在还值得去吗 #

13047次浏览 48人参与

# 节后第一天上班，我的精神状态 #

5590次浏览 69人参与

# 2025，我想...... #

42706次浏览 429人参与

# 00后45度躺现状 #

88799次浏览 454人参与

# 租房前辈的忠告 #

161586次浏览 6189人参与

# 应届生应该先就业还是先择业 #

102571次浏览 622人参与

# 产品实习，你更倾向大公司or小公司 #

147708次浏览 1921人参与

# 校招入职后的感受 #

264798次浏览 2629人参与

# 职场上哪些行为很加分？ #

188048次浏览 2312人参与

# 产品人专业大盘点 #

42569次浏览 292人参与

# 秋招最大的收获是什么？ #

28960次浏览 286人参与

# 简历无回复，你会继续海投还是优化再投？ #

63488次浏览 682人参与

# 运营人求职交流聚集地 #

130206次浏览 972人参与

# 扒一扒那些奇葩实习经历 #

54550次浏览 846人参与

# 嵌入式岗知多少 #

35375次浏览 419人参与

牛客网
牛客企业服务