《机器学习与优化》之文本与网页挖掘025

百科全书将出现全新形式,它会是一张有相互关联的条目贯穿其中的网,被当做记忆的扩展存储器并被放大。------范内瓦。布什
网页包含类型广泛的数据,有些是有结构的,有些是有部分结构的,还有些是完全没有结构的。爬虫和索引都是系统的方法,用以访问网页、收获其中所载的信息,以及为搜索、信息检索和排名准备数据结构。
通过将文本转换成数据向量(例如向量-空间模型中的所选单词的频率),可以重用传统的ML技术,但是网页文档中丰富的结构适用于一些更专门的分析。
网页挖掘技术查找文档(网页链接)之间的显式关系、推断隐式关系(通过聚类)、在连接站点的网络上排名最相关的页面,或在社交网络中识别最相关和人脉最广的人。抽象使我们能对网页和社交网络使用类似的工具。一个值得注意的例子是,超链接和线性代数工具(本证向量和本征值)的使用,过去曾在文献计量学中给研究者排名,如今带来了非常强大的网页排名技术,也是谷歌的搜索引擎技术的基础。
从今往后,你再看到超链接、Facebook上的赞,Twitter上的粉丝到这本书时最流行的社交软件时,你会用不同以往的分析思维和观点来看待它们。
#机器学习##读书笔记#
全部评论

相关推荐

头像
点赞 评论 收藏
转发
点赞 收藏 评论
分享
牛客网
牛客企业服务