3.Cauchy(柯西)特征映射

对比

LE Embedding为图的节点提供了一种低维表示的办法,其中边权值表示节点对象之间的相似性。 通常认为LE Embedding的结果保持了原始数据在低维投影子空间上的局部拓扑,即对于任何相似度较大的节点对,都应该在Embedding Space内距离相近。 然而,在本文中,我们将证明LE Embedding 往往不能很好地保存局部拓扑。 为了Node Embedding局部拓扑保持特性,可以利用一种新的柯西图嵌入方法,该方法通过分类保留了原始数据在嵌入空间中的相似关系,可以方便地对嵌入数据进行嵌入,并具有更好的性能。 在合成和真实基准数据集上的实验结果表明了这种新型嵌入的有效性。

无监督降维在各种机器学习应用中是一个重要程序,从图像分类到全基因组表达建模。 许多高维真实世界的数据往往本质上处于低维空间,因此可以降低数据的维数而不会造成信息的重大损失。 从数据嵌入的角度来看,我们可以将无监督的方式分为两类,一类是将数据通过线性转换嵌入到一个线性空间,即在高维数据中建立线性模型。然而,真实数据的潜在结构常常是高度非线性的,因此无法通过线性流形空间准确的表达。第二类方法,就是基于不同的目的以非线性的方式嵌入数据。最近提出了一些可行的非线性方法。他们通常从邻域图设置一个二次目标,并求解其主要特征向量:Isomap取与最大特征值相关联的特征向量; LLE和LE嵌入使用与最小特征值相关联的特征向量。 Isomap试图保持输入数据在低维流形上测量的全局成对距离; LLE和拉普拉斯嵌入试图保持数据的局部几何关系。

一般认为拉普拉斯嵌入具有局部拓扑保持性质:一对相互相似性高的图节点嵌入到嵌入空间的附近,而一对相互相似性小的图节点嵌入到嵌入空间的远处。拉普拉斯嵌入的感知局部拓扑保持性质在很多应用中并不适用。更准确地说,我们首先给出局部拓扑保持性质的精确定义,然后说明拉普拉斯嵌入通常给出不保持局部拓扑的嵌入,即在嵌入空间中不嵌入具有较大相互相似性的节点对。在此之后,我们将提出一种新的柯西嵌入方法,它不仅具有像拉普拉斯嵌入那样好的非线性嵌入性质,而且还连续地保留了原始数据中存在的局部拓扑。

简述LE

W作为输入数据,是一个有n个节点的图上的边权值矩阵。我们需要用坐标将图的节点嵌入到一维空间中(x1,···,xn)。如果对向量x的大小没有限制,计算的最小值时,。因此引入初始化
$$

如果我们把x换成 ,a是一个常数,原目标函数是不变的。因此解不唯一。

为了避免不确定性,我们可以调整为
$x_ix_i$成了混合符号,有了这两个约束条件

很容易得到结果(参考LE特征映射笔记)
$$

LE失效场景

距离大(相似度小)

拉普拉斯嵌入的二次方函数放大距离,使得小的节点对(i, j)被分离得很远

距离小(相似性大)

拉普拉斯嵌入的二次函数不强调小距离对,导致破坏了许多小距离对的在Embedding Space的局部拓展性。

Cauchy Embedding

Cauchy Embedding是一种强调短距离的图嵌入方法,并保证局部上两个节点越相似,它们在嵌入空间中越接近。

如果
$$

此外,函数Γ1(·)和函数Γ2(·)一样是单调的。因此,求最小化的函数为:
$$

由于是固定值,因此,对嵌入的优化计算是:

我们可以看到,在拉普拉斯映射中,由于的平方项,导致远距离节点对权重占比更大,所以可能更好的表示节点较为分散的图的特征。

而使用柯西映射,由于目标函数需要的平方项尽可能小,因此近距离节点权重占比更大,所以可能更好的表示节点关联性较强的图的特征。

高维的特征映射

若映射到嵌入空间的向量为n维即
$$

指数和高斯嵌入

可以利用高斯嵌入强化短距离对的权重
$$

或者使用指数嵌入
$$

重读4.3. Algorithms to Compute Cauchy Embedding

原论文地址

全部评论

相关推荐

03-27 16:40
已编辑
门头沟学院 C++
26学院本太难了,很多公司机筛就给我刷了。机会都难拿到如果是简历存在问题也欢迎拷打————————————————————分割线——————————————————————2026.3.4更新:发完贴之后,时不时投递又收到了不少的笔试/面试邀请。主要是之前投递简历出去之后基本上都是沉默状态,年后好转了不少timeline:2026.01.21 文远知行笔试,半年多没刷算法题 ->挂 (后续HR说春招可以重新安排笔试)2026.2.4     小鹏汇天 技术一面,第二周收到结果 ->挂2026.2.12   大众Cariad代招 技术二面 ->Offer2026.2.28   多益网络技术面试,由于风评太差,一直在犹豫要不要接面试 ->推迟-----------分割线-----------2026.3 月前的某一天,临时去电网报名了二批计算机岗位的笔试2026.3.6 从上家公司实习离职,氛围最好的一家公司,leader 说可以帮忙转正,但是流程太长,而且我们部门据说只有一个 hc,更想要研究生,我很有可能是会被签外包公司在这里干活,就离职了。2026.3.9 入职新公司,大众Cariad 以外部公司的身份进组,项目组签了三年,后续三年应该都可以在这里呆,不知道有没有希望原地跳槽。2026.3.10 电网考试居然说我通过资格审查了,短信约我去参加资格审查,请假一天,买了 12 号晚上的机票回成都2026.3.15 参加国家电网计算机类笔试2026.3.17 电网出成绩了,感觉很低。觉得已经🈚️了2026.3.18 收到电网面试通知,通知 3.22-3.25 这个时间去面试,我的岗位只招 1 个人。据说面试只有 2-3 人,不知道能不能成功----------分割线-----------2026.3.21 电网面试结束,感觉回答的还勉勉强强,大概是2个岗位分别招1个人,一共11人面试,实际来了9人2026.3.27 出面试成绩,满分100分,早上10:20左右发现面试成绩46,我震惊了,没截图,后面过了十分钟重新看发现面试成绩给我改成58了。但同样震惊。朋友问我是不是把面试官打了,哈哈
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务