为了更快追踪突发热点,我们仅在“查询时刻 t 之前的最近 K 篇文档”内计算 TF‑IDF,并以加权余弦相似度挑选最相关的文档。
窗口内越新的文档权重越高(从旧到新第 j 篇的权重为 (K−j+1)/K)。
给定按时间递增的文档序列和若干查询(每条查询含时间点 t 与查询短语 q),请在窗口中找出与 q 的加权余弦相似度最高且相似度≥0.6 的文档编号;若存在并列最高,返回窗口中最早的那一篇;若无满足阈值的文档,输出 -1。
- 词向量用 TF‑IDF:TF 为词频;IDF 采用平滑公式 IDF(x)=log((N+1)/(df(x)+1))+1,其中 N 为窗口文档数,df(x) 为窗口内包含词 x 的文档数。
- 余弦相似度采用 q 与每个文档向量的点积除以范数乘积;文档向量还需乘以其时间权重。
- 文档与查询均以空格分词、统一小写,不做额外清洗。为避免早期窗口不足的问题,测试均保证 t ≥ K−1。