倒排索引压缩算法

倒排索引——词典+倒排链表

在拥有大规模索引数据的搜索引擎中,倒排索引被证明是一种非常高效地数据结构
事实上,可以简单的理解为

词典

由大量的词项组成,主要用来记录整个文档集合中出现过的此项和对应的倒排链表指针。

倒排链表

记录了该此项在不同文档中的命中信息、位置信息或者与计算分数等信息。

在实际应用中,词典文件比起倒排文件来说相对较小。所以一般研究倒排链表压缩算法。每个从磁盘读取的数据块包含一定数量的倒排链表数据段。每个数据段作为压缩算法处理的基本单位,包含着一串被压缩的整数序列。每个数据段包含一组docid和对应的一组freq

全部评论

相关推荐

点赞 评论 收藏
分享
09-22 15:45
门头沟学院 Java
谁给娃offer我给...:我也遇到了,我说只要我通过面试我就去,实际上我根本就不会去😁
点赞 评论 收藏
分享
评论
4
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务