2018-08-29 21:21 成都信息工程大学算法工程师

关注

《数学之美》阅读笔记22-23-24

《数学之美》22-23-24章阅读笔记

第22章自然语言处理的教父马库斯和他的优秀弟子们

1教父马库斯

米奇·马库斯：基于统计的自然语言处理

宾夕法尼亚大学LDC语料库

弟子：迈克尔·柯林斯、艾里克·布莱尔、大卫·雅让斯基、拉纳帕提……

2从宾夕法尼亚大学走出的精英们

·柯林斯：追求完美

迈克尔·柯林斯：自然语言文法分析器

·布莱尔：简单才美

艾里克·布莱尔：基于变换规则的机器学习方法

第23章布隆过滤器

1原理

提出：伯顿·布隆

实质：一个很长的二进制向量和一系列随机映射函数

计算机中的集合：一般是用散列表（哈希表）来存储的

优点：快速准确

缺点：耗费存储空间

例子：过滤垃圾邮件

采用散列表，存储一个亿Email地址，需要1.6GB内存（一个Email地址对应一个8字节的信息指纹，散列表的存储效率为50%，即一个Email地址需要占用16个字节）

布隆过滤器：存储一亿个电子邮件地址，建立一个16亿个比特位全部清零（2亿字节）的向量；对于每一个电子邮件地址X，用8个不同的随机数产生器产生8个信息指纹；再用一个随机数产生器把这8个信息指纹映射到1-16亿中的8个自然数；把这个8个位置的比特位全部置1。对于可疑电子邮件地址Y，用相同的8个随机数产生器对Y产生8个信息指纹；将这8个指纹对应到布隆过滤器的8个比特位，分别是；如果对应的比特值为1，则Y在黑名单中。

优点：快速、省空间

缺点：有一定的误识别率

2布隆过滤器的误识别问题

布隆过滤器的“假阳性”：把不在集合中的元素错判成集合中的元素

假定布隆过滤器有m比特，里面有n个元素，每个元素对应k个信息指纹的散列函数。m个比特中有些为1，有些为0。

在布隆过滤器中插入一个元素，它的第一个散列函数会把过滤器中的某个比特置成1，任何一个比特被置成1的概率：，依然为0的概率：。

对于过滤器中一个特定的位置，如果这个元素的k个散列函数都没有把它置为1的概率：。

如果过滤器中插入第二个元素，某个特定的位置仍然为0的概率：。

如果插入n个元素，某个特定的位置仍然为0的概率：。

一个比特在插入n个元素后，被置为1的概率：。

假定布隆过滤器中已经插入n个元素，新插入一个不在集合中的元素，由于它的信息指纹的散列函数是随机的，因此它的第一个散列函数正好命中某个值为1的比特的概率：。不在集合中的元素被误识别为在集合中，需要所有的散列函数对应的比特值均为1，概率为：。

第24章马尔可夫链的扩展——贝叶斯网络

1贝叶斯网络

马尔可夫链：描述了一种状态序列，每个状态值取决于前面有限个状态。

贝叶斯网络：每个圆圈表示一个状态，状态之间的连线表示因果关系。假定马尔可夫假设成立，即每个状态只跟与其直接相连的状态有关，跟与其间接相连的状态没有直接关系。

贝叶斯网络中的直接和间接关系，都可以有一个量化的可信度，即用一个概率描述，也就是贝叶斯网络的连线有附加的权重。在网络中，每个节点的概率可以用贝叶斯公式来计算。

马尔可夫链是贝叶斯网络的特例，贝叶斯网络是马尔可夫链的推广。

应用：图像处理、文字处理、支持决策

2贝叶斯网络在词分类中的应用

主题模型：基于统计的模型分析文本，从中抽取概念，分析主题。

把文本和关键词的关联矩阵转90度，进行奇异值分解，或者对每个词以文本作为维度，建立一个向量，再进行向量的聚类，得到对词的分类，分出的每一类称为一个概念。

一个概念可以包含多个词，一个词可以属于多个概念。一篇文章可以对应多个概念，一个概念也对应多篇文章。

Phil Cluster：文章、概念和关键词的联系，只考虑关键词与文本关系

Rephil：增加考虑关键词上下文关系

3贝叶斯网络的训练

确定贝叶斯网络的结构：

保证产生的序列——需要完备的搜索——采用贪心算法——会导致陷入局部最优——解决：蒙特卡罗方法；计算互信息

确定节点间的权重：

用条件概率度量——只需优化贝叶斯网络的参数，使得后验概率最大（EM过程）——最大熵模型

结构的训练和参数的训练通常是交替进行的。

全部评论

推荐最新楼层

05-13 20:06

美的集团_AIGC算法工程师(准入职员工)

美的集团内推-美的集团内推码

理想工作氛围：每天工作是自己喜欢的，营运部门也会听取毕业生意见安排培训方案，整个事业部都很帮助毕业生融入集体；mentor很耐心性格很好，部门领导不pua，同事关系也很有边界感 ᖰ⌯'▾'⌯ᖳ 第一年住宿免费，后面两年也都有政府的住房补贴，硕士是2w/年，基本可以cover掉租房费用（等于还赚了一年的政府住房补贴）；有餐补基本cover吃饭，免费班车。而且入职第一个月就发安家费。每年8月有集中带薪年假5天，加上头尾两个周末，等于9天年假！第一年入职就有！年假还发5000高温补贴，零零散散算下来前三年福利差不多7w（以硕士标准哈） 纠正—————— 最近听说社保个人缴纳部分我们这届起政府不会退了...

美的集团公司福利 442人发布

点赞评论收藏

分享

05-15 22:27

哈尔滨工业大学

HTML：面试官喜欢问什么

本统计来源于对HTML 相关面试真题中高频关键词的分析，反映了在前端、移动端、全栈等技术岗位面试中对于 HTML 的常见考察方向。这些关键词涵盖了 HTML 的核心特性：脚本加载机制、元素类型、语义化标签、布局方式、性能优化（重绘/回流） 等。通过分析这些关键词，我们可以更有针对性地准备 HTML 面试内容，掌握重点知识模块和常见考点。📊 一、关键词分布概览（按占比排序）1. 脚本加载控制defer、async、script标签7.23% + 7.07% + 6.11% ≈ 20.41%2. 元素类型与布局行内元素、块级元素、三栏布局、Flex 布局5.63% + 4.50% + 1.93%...

30万真题，揭秘面试官最... 面试之前应该如何准备？面试常问题系列

点赞评论收藏

分享

05-17 15:05

陕西国际商贸学院前端开发其它

大二，想要去实习（计算机专业）

求指教，求内推！不挑岗位，只要跟专业相关的都可以，麻烦各位大佬们指教一下，本人很乐意谦虚学习吃苦耐劳  

路过的咸蛋超人也想拿offer：emm，算了，你是我见过最美的牛客女孩

不给转正的实习，你还去吗我的实习求职记录

点赞评论收藏

分享

04-28 10:29

门头沟学院前端工程师

东子现在这么野的么，把我开除本科籍了？

如图，社招，其实我没和他说的是，我下午刚好有京东其他部门的面试😋

秋盈丶：后续：我在宿舍群里和大学同学分享了这事儿，我好兄弟气不过把他挂到某脉上了，10w+阅读量几百条评论，直接干成精品贴子，爽

点赞评论收藏

分享

05-16 16:21

苏州大学设计

职场老菜鸟给职场新人的一些工作建议

已经在职场上混过很多年了，走过的路不少，踩过坑的也很多，以下都是亲身经历，分享给你们，希望对你们有帮助。1.完成比完美更重要所有事情都没有完美的，尤其在职场中，工作是有时限和收益成本的，大多都是先完成再完美，不断迭代优化。在我刚工作的时候，总想把事情做到完美，就没考虑需要花费的时间，前期花掉很多时间准备，又当我能力做不出想象中的“完美”时，就会焦躁、卡住，最后可想而知，要的作业结果延期了。按时完成工作，是职场最基本的要求，所以我们要在规定时间下，首先保证完成，如果时间可以再做到“完美”。老板们都是看结果的，出现问题后，是要看到问题被解决后的结果，所以不要陷入自责和内耗中，根本没用，反而会影响到...

twine~0720：按时完成工作，是职场最基本的要求，先完成再完美👌

职场新人生存指南一人一个landing小技巧

点赞评论收藏

分享

评论

点赞

收藏

招聘动态

vivo蓝极星

25届+26届招募启动

国央企投递合集（含实习）

26届投递链接合集

快手

25届补录+26届实习

26届实习内推合集

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 一人一个landing小技巧 #

32756次浏览 612人参与

# 选offer应该考虑哪些因素 #

3986次浏览 81人参与

# 我的求职总结 #

3829次浏览 75人参与

# 你想留在一线还是回老家？ #

34197次浏览 421人参与

# 聊聊你的职场新体验 #

153378次浏览 1355人参与

# 互联网公司爆料 #

118297次浏览 670人参与

# 四大天坑是哪四家？ #

69009次浏览 198人参与

# 58同城求职进展汇总 #

30917次浏览 247人参与

# 三一集团提前批进度交流 #

20101次浏览 129人参与

# 你们公司哪个部门最累？ #

13263次浏览 105人参与

# 大学最后一个寒假，我想…… #

35095次浏览 445人参与

# 米哈游工作体验 #

13676次浏览 108人参与

# 你认为工作的意义是什么 #

138507次浏览 999人参与

# 你小时候最想从事什么职业 #

88567次浏览 1648人参与

# 牛友们的论文几号送审 #

33317次浏览 698人参与

# 查收我的offer竞争力报告 #

180312次浏览 1191人参与

# 你觉得机械有必要实习吗？ #

5622次浏览 60人参与

# 你最满意的offer薪资是哪家公司？ #

24322次浏览 125人参与

# 这些公司卡简历很严格 #

31475次浏览 155人参与

# 你们公司几号发工资 #

16016次浏览 106人参与

牛客网
牛客企业服务