聊简历项目,对搜索推荐算法的了解
从向量化的角度来看,每一篇文档都对应一个向量,其中
表示特征项i.
是一个向量由词、词的位置、TF等义项来确定的。对于版本1,我们只取了词、词的位置。我们先用分类规则,把文档分成若干类,基于每一类进行如下计算:
表示两个特征项的相似度。
我们定义一下距离公式
我们对于每个文档的特征项,两两求出特征项的相似度。通过这个距离公式
我们可以得出,对于每一个分类,以这些特征项为顶点,以相似度距离为边,就构
成了如下的无向图。
(lawnet)
类比于wordnet和知网的hownet,我们称这个无向图,为lawnet。