搜索引擎的日志要记录所有查询串,有一千万条查询,不重复的不超

[问答题]

搜索引擎的日志要记录所有查询串,有一千万条查询,不重复的不超过三百万
要统计最热门的10条查询串. 内存<1G. 字符串长 0-255
(1) 主要解决思路
(2) 算法及其复杂度分析

fengniumaxuwei

不重复的不超过三百万，三百万条记录可以存放在1G的内存中，每次取出3百万条记录，每次统计出各记录出现的次数，取完所有的记录后，各记录出现的次数也就统计出来了，此时可以采用包含十个元素的最小堆，若大于堆顶元素则插入堆中，则将所有记录出现次数的数据插入堆中后，堆中最后剩下的便是10条最热门的查询条。

发表于 2015-07-29 15:17:42 回复(4)

张立超

（1）主要解决思路：

1）因为只有1千万条查询，每条查询占最多255个字节，也就是2.55G，1G内存显然不够，用一致性hash的思想，将查询串分到3个子文件，尽量均衡。

2）然后在每个子文件中，创建hash表，统计每个串出现的次数，再创建一个大小为10的小根堆，如果串比堆头大，堆头扔掉，串进堆，调整；如果串比堆头小，串扔掉，堆不变；

3）然后再将三个子文件中每个的前10名进行比较，最后选出最后的前10名

（2）算法及其复杂度分析：

1）第一步：时间复杂度O(N)

2）第二步：时间复杂度O(NlogN)，空间复杂度O(N)

3）第三步：得出结果

发表于 2016-08-28 10:10:31 回复(0)

牛里格村

(1)首先一千万条查询记录，每条字符串长0~255，而限制内存< 1G，所以不能把一千万条记录全部放进内存中处理，经计算，1千万条记录的最大占用空间大小为256Byte*10^8=0.25KB * 10^8=2.5*10^7KB，而1G = 1024M = 1024*1024KB = 1.024*1.024*10^6KB，从这可看出内存一次性读取的最大记录数是40万条，所以使用hash分割将1千万条记录分成25个记录块，Hash(字符串记录)%25，使得相同的字符串记录在相同的记录块中，再使用哈希表来计算出40万条记录重复次数最大的前10条记录，哈希表的key是记录字符串，值是重复次数。这样25次访问完1千万条记录，将会得到250条记录，然后使用Map存储这250条记录，key是重复次数，值是记录字符串，比较函数是greater函数对象，从大到小存储在Map中，前10条即是最热门的10条查询串。 </div> <div> (2)复杂度分析：2N + klogk ～ O(N)。但是有个问题是，假如有些查询记录重复次数大于40万次，则还有可能相同记录不在同一个记录块中的情况，还是会有问题，希望大神能给出好的想法。

编辑于 2015-09-10 22:10:49 回复(8)

探寻的脚步

300万个字符串最多（假设没有重复，都是最大长度）占用内存3M*1K/4=0.75G。所以可以将所有字符串都存放在内存中进行处理。
可以使用key为字符串（事实上是字符串的hash值），值为字符串出现次数的hash来统计每个每个字符串出现的次数。并用一个长度为10的数组/链表来存储目前出现次数最多的10个字符串。
这样空间和时间的复杂度都是O(n)。

发表于 2015-09-02 14:24:46 回复(0)