结构化数据预训练模型的线性化策略review

  • Row by Row 策略

  1. TURL[2021  TURL只对元数据和表格中的entity进行embedding表示;从embedding表达式上看,TURL需要对表格中的所有entity cell进行标注,同时属于哪种类型(subject/object/topic)进行标注;疑问1:TURL的word/type/entity embedding的生成方式;疑问2:TURL是在所用数据库上如何得到这些标识的;思考点1:为什么TURL要对entiy cell标注entity?好处究竟是什么?思考点2:2维表格被压成1维表格后,利用attention机制获取额各种信息(语义、关系)量相比于原表格的损失量度量,这可以成为衡量表格预训练模型的优lelve;
  2. TaPEx[2022] TaPEx主要的想法是通过预训练来近似形式化语言在表格上的结构化推理过程;TaPEx用[HEAD]和[ROW]这样的特殊字符来表示表格的不同部分,并且列之间用符号|来进行区分;疑问1:TaPEx具体的学习机制;疑问2:TaPEx如此线性化策略的优势;
  3. TABBIE[2021]: 利用行、列transformers提取当前行和列的上下文表示,再做平均得到当前cell下一层的表示;这种方式attention方式随着网络层数的加深,一个固定位置的节点能捕捉到整个表结构信息;这种方式感觉特别适合corrupt列的检测,因为一个corrupt cell在行、列transformers过程中往往会给自己较高的attention权重,在多层attention后这种差异应该会越来越明显,将非常利于corrupt cell的探查;
  4. TableGPT[2021] : 采用基于模版的表线性化策略来将表格编码成序列,例如"name: jack reynolds"键值对变为句子"name is jack reynolds"并将这些这些句子按行序列合并成一个文件,具体策略参见[chen 2019]
  5. UNIFIEDSKG[2022]:
全部评论

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务