Recurrent Models for Situation Recognition

摘要

这项工作提出了使用递归神经网络（RNN）模型来解决”场景识别“任务，该任务为一个结构化输出任务，行为涉及到的参与角色要被赋予特定的实体。与先前依赖条件随机场（CRF）的工作相比，我们使用专门的网络来预测行为，接着使用RNN进行名词实体预测。我们的系统在具有挑战性的最新imSitu数据集上获得了最先进的准确性，超过了基于CRF的模型，包括经过额外数据训练的模型。此外，我们表明，从情况预测中学习到的特殊功能可以转移到图像字幕的任务中，以更准确地描述人与物体之间的相互作用。

引言

静态图像中的行为以及人物交互识别任务在计算机视觉领域已经被广泛研究，早期的数据集和方法主要集中在识别较少数量的动作，比如10个的PASCAL VOC数据集[7]，40个的Stanford Dataset数据集[30]，而像MPII Human Pose[19]这样更新和更大的数据集将动作的类别扩充到了400类左右，COCO-A[21]和HICO[4]数据集致力于识别人与人、人与物之间的交互，进一步将问题的输出扩大到形如“人-骑-自行车”、“人-修-自行车”、“人-骑-马”等形式。

近来这方面的研究重点已经转移到预测更加结构化的输出，以解决更高层次的问题，例如“谁正在使用什么物体做什么事”。最新被提出的imSitu数据集[33]将动作识别的任务泛化为一个“场景识别“的任务，该任务为人或者其他主体发生的行为涉及到的参与交互角色填充对应的实体（这句的翻译不太恰当）。即，给定一个动作行为，对应的场景则涉及到一组特定的”语义角色：名词实体“对，从imSitu数据集选取一张图（图一）举例来说，“一个女人正在台面上的花瓶中插花”由 Action: arranging, {(Agent: woman),(Item: flowers), (Tool: vase), (Place: countertop)}来表示。(这个三元组要直译成中文吗？？)另一个例子，“A horse rearing outside” can be mapped to Action: rearing, {(Agent: horse), (Place: outside)}.imSitu数据集包含了504个动作，1700种语义角色(v-r组合)，11000种名词实体(v-r-n组合)，最终组成将近200,000种场景(?)。在提出该数据集的同时，Yatskar等人[33,32]引入了使用CRF模型来预测图像场景。在我们的工作中，我们提出并训练了RNNs模型来解决本任务，并且取得了SOTA。

Our use of RNNs for situation prediction is motivated by their popularity for tasks like image caption generation, where they have proven to be successful at capturing grammar and forming coherent sentences linking multiple concepts. The standard framework for caption generation involves feeding high-level features from a CNN, often trained for image classification on ImageNet [22], into an RNN that proceeds to generate one word of the caption at a time [11, 26, 27, 6, 34]. Situation recognition involves the prediction of a sequence of noun entities for a particular action, so it can be viewed as a more structured version of the captioning task with a grammar that is fixed given an action.

RNN在image caption generation中受到广泛的应用，实验证明RNN确能够成功捕获语法并形成连接多个概念的连贯的句子，受启发于此，我们将其运用于situation预测任务。标准caption generation任务的标准框架[11,26,27,6,34]包括1，通过CNN抽取高级特征（通常预先在ImageNet上进行分类训练），2，将抽取到的特征送入RNN网络，在每一个时间点(time 怎么翻译呢？)生成caption中的一个词。Situation recognition问题包括了一个特定动词的一系列名词实体(noun entities)的预测，所以可以将其视为一个特定动作拥有着固定语法框架的更结构化的captioning task.

2.The Situation Prediction Task and Methods

场景基于一组离散的动作动词V、名词实体N以及语义角色R，每个动词v∈V都对应于一个独立的框架f∈F，该框架的定义来自FrameNet[8。R中的{Agent，Item，Tool，Place}这一组语义角色就与动作arranging相关联，在一个特定的情境下，每一个role匹配到一个名词实体（或不匹配任何值，如果当前场景并未涉及到此role的参与），名词实体的集合N由WordNet[17]生成。具体来说，某一张图片I的实例，对应于一个动词v，一组所有role都匹配了noun的Frame组成。形如F(I,v)={}，而一个场景则可表示为S={v,F(I ,v)}.situation recognition的任务就是为每一个特定的图像预测这样的S集合。鉴于不同的人对场景的理解会有不同，例如图1中的Place，可以是countertop也可以是kitchen，所有Imsitu数据集为每一张图像的frame提供了三组独立的标注。

提出situation任务的作者同样提出了基于CRF模型的baseline，其将场景的结构化预测任务S={v,F}解构为一个verb和F中的一组角色名词实例组合(r,n)。他们为每个动词学习一个势函数￥（v;@）,以及为每个动词-语义角色-名词实体三元组组合学习另一个势函数（），其中，@为用于预测这些势能的深度神经网络的参数。对于situation的预测则可表示为p(S|I;@)=xxxx(公式1)

后面在很细致的讲CRF在做什么，这段暂时省略

我们的工作基于固定的动词其role组合是确定这一事实，将思路转换。举例而言，给定arranging动词，我们需要预测R={Agent，Item，Tool，Place}这组角色所对应的名词实体。在动词verb给定情况下，如果我们假定当前动作的角色是一个特定且固定顺序的角色组合（这一段翻译起来有点奇怪），我们可以将问题简化为对应于一组语义角色的名词实体序列的预测。我们将问题解构为：

公式2，3，4.

Note that如果每一个动词verb的任意的却固定顺序的语义角色被选定了，（说的是个啥），那么公式2到公式3的推理可以成立。在我们的实现中，我们我们使用数据集里提供的语义角色顺序，该顺序由FrameNet确定。我们在第三部分的论述中探索了特定顺序对于结果的敏感度，最终证明准确率只收到较小程度的影响。

后面的就开始将结构了，不属于related work的部分。

论文1的related work

静态图像中的活动识别已经得到了广泛的研究[21]，人们普遍认为物体和场景对识别非常重要[31]。通过将活动识别作为一个离散的分类问题，以及一组将动词与场景或对象组合在一起的多词类别标签，这些直觉直接构建到数据集中[4、10、22、44、48、49]。尽管最近的工作已经扩展了类的数量[30]，但它们仍然是手工选择的，很难知道这些类应该包含什么。例如，虽然Stanford-40中的“切菜”是一个类别，但缺少许多其他可能的类别，如“割草”或更通用的“切”（在所有当前活动识别数据集中都可以找到类似的例子）。与之不同的是，我们的任务利用语言学资源定义了一个非常大的，更全面的情景域。

人们提出了许多方法来建模活动识别中的语义上下文[6]。我们的方法与建模对象共现的工作关系最为密切[38]，并使用图形模型来组合许多上下文信息源[17，12]。动作是一个特别富有成效的背景来源[35]，特别是当与姿势结合创造人-物交互时[33，47]。然而，我们提出了第一种方法来定义多个对象如何参与一个单一活动，允许我们系统地恢复特定于活动的事实，例如“谁在做这件事？”？“（代理角色），“他们在干什么？“（病人）等。

省略若干;

然而，我们回避了生成句子所带来的评估挑战[45，7]，同时也为动词提供了视觉证据，以辅助字幕。至少部分出于同样的考虑，最近有人致力于制定视觉问答（VQA）任务[1，39，51，18，9]，系统必须回答诸如“人用什么割草？”？“在对VQA数据集的初步研究中[1]，我们发现高达20%的问题询问语义角色，这表明位置识别可能是有益的。