科学家教机器人新技能 跟着视频模仿左手右手慢

2019-06-04 作者:科学研究   |   浏览(75)

人类平时都会从视频中学习技能,机器人也可以。位于日内瓦的意大利技术研究院机器视觉中心的研究者在最新发表的论文中介绍了一种可以将视频片段转化为用于训练半自主机器的自然语言命令的深度学习架构。

摘要: 这里有改变世界的7大NLP技术,点进来了解一下吧!

“虽然人类可以轻松理解并模仿其他人的动作,但让机器人基于对人类的观察做出同样的动作却是业内的难题,”论文作者写道,“在该项目中,我们认为克服这一难题需要机器人掌握两种能力,分别是理解人类的举动以及模仿人类举动,这对机器人的技能和性能提出了很高的要求。”

改变世界的七大NLP技术,你了解多少?

jin2055金沙网站 1

jin2055金沙网站 2

机器人

在第1部分中,我介绍了自然语言处理领域以及为其提供支持的深度学习。我还介绍了NLP中的3个关键概念:文本嵌入机器翻译(使用神经网络翻译语言),以及Dialogue和Conversations(可以实时与人进行对话的技术)。在第2部分中,我将介绍另外4项重要的NLP技术,你应该关注这些技术,以跟上这一研究领域快速增长的步伐。

jin2055金沙网站,研究团队最终提出了一个针对两项任务优化后方案:视频生成文字和动作识别。该方案囊括了一个递归神经网络翻译器,用于根据输入数据搭建视觉特征长期依赖性的模型,并发出一系列指示;此外还有一个分类器,分类器中内置了用于编码时间信息并详细归类人类动作的卷积网络。

人际交往不仅仅是文字和其明确的含义,而且它还是微妙且复杂的。即使在完全基于文本的对话中,你也可以根据单词选择和标点符号判断客户是否感到愤怒。你可以阅读产品在天猫平台的评论,并了解评论者是否喜欢或不喜欢它,即使他们从未直接说过。为了使计算机真正理解人类每天的交流方式,他们需要理解的不仅仅是客观意义上的词语定义、而且他们需要了解我们的情绪。情绪分析是通过较小元素的语义组成来解释较大文本单元(实体、描述性术语、事实、论据、故事)的含义的过程。

输入进分类器的数据是预先训练的AI模型从视频中提取的特性集合。正如研究者们解释的那样,在训练过程中编码器协助翻译器和分类器生成正确详细的动作信息,以此让架构更好理解输入的视频。

传统情感分析的方法是将句子视为一个词袋,并查阅“积极”和“消极”单词的策划列表,以确定该句子的情绪。这需要手工设计的特征来捕捉情绪,所有这是非常耗时和不可扩展的。

“通过共同训练分类器和翻译器,神经网络可以有效地编码视频中的空间信息和时间信息,”研究者们说,“系统的输出数据可以包含视觉和规划模型,让机器人执行不同的任务。”

用于情感分析的现代深度学习方法可用于形态学、语法和逻辑语义,其中最有效的是递归神经网络。顾名思义,递归神经网络开发的主要假设递归是描述语言的自然方式。递归在消歧方面很有用,有助于某些任务引用特定的短语,并且对于使用语法树结构的任务非常有效。

为了验证这一架构,研究者们创造了新的视频到命令数据集,其中包含被手动分割为1.1万个两三秒片段的人类视频,这些视频被标注了描述相关动作的命令句。他们使用一种工具自动从命令句中提取动词,并将动词作为每个视频片段的动作类别,最终生成的动作种类共有46个。

jin2055金沙网站 3

在使用了IIT-V2C命令数据集、不同的动作特性提取方法和递归神经网络的实验中,研究者们表示他们的模型架构可以成功地编码每个视频的视觉特征并生成相关的命令。

递归神经网络非常适合具有嵌套层次结构和内部递归结构的设置。语法的句法规则是高度递归的,因此,我们利用递归神经网络!使用RNN对句子进行建模的另一个好处是,我们现在可以输入任意长度的句子,这对于在NLP中使用神经网络来说是一个巨大的难题,使用非常聪明的技巧使句子的输入向量具有相同的大小,尽管句子的长度不相等。

jin2055金沙网站 4

标准RNN是一种递归神经网络的最基本的版本。它具有最大边距结构预测架构,可以在复杂的场景图像和句子中成功地运用这种结构。它用于为自然语言句子提供有竞争力的语法分析器比如说Penn Treebank。作为参考,Penn Treebank是第一个大型树形数据集,由华尔街日报三年收集的24,799个故事组成,它广泛用于句法注释。此外,它优于语义场景分割、注释和分类的替代方法。

然而,标准RNN并不能捕获语法短语的完整语法。在语法上解开RNN,也被称为成分矢量语法,这个方法是解决这个问题的一个重大升级。它使用语法解开的递归神经网络来学习句法语义和组合向量表示。该模型能够像标准RNN一样快速地进行训练和实施。

jin2055金沙网站 5

另一个演变是Matrix-Vector RNN,它能够捕获更长短语的组成含义。该模型为解析树中的每个节点分配一个向量和一个矩阵:向量用于捕获成分的固有含义,而矩阵捕获它如何改变相邻单词或短语的含义。而且该矩阵向量RNN可以在命题逻辑和自然语言中学习运算符的含义。

该模型在三个不同的实验中获得过不错的表示:

· 预测副词-形容词对的细粒度情感分布;

· 对电影评论的情感标签进行分类;

· 使用它们之间的句法路径对名词之间的语义关系进行分类。

jin2055金沙网站 6

迄今为止用于情感分析的最强大的RNN模型是递归神经张量网络,其在每个节点处具有神经网络的树结构。该模型可用于边界分割,以确定哪些词组是积极的,哪些是消极的。在Sentiment Treebank上接受训练时,该模型在几个指标上的表现优于所有以前的方法。

问答(QA)系统的想法是直接从文档、对话、在线搜索和其他地方提取信息,以满足用户的信息需求。QA系统不是让用户阅读整个文档,而是更喜欢简短而简洁的答案。如今,QA系统可以非常容易地与其他NLP系统结合使用,并且一些QA系统甚至超越了对文本文档的搜索,并且可以从图片集合中提取信息。

事实上,大多数NLP问题都可以被视为一个问题回答问题。范例很简单:我们发出查询指令,机器提供响应。通过阅读文档或一组指令,智能系统应该能够回答各种各样的问题。

jin2055金沙网站 7

强大的深度学习架构(称为动态内存网络已针对QA问题进行了专门开发和优化。给定输入序列和问题的训练集,它可以形成情节记忆,并使用它们来产生相关答案。该体系结构具有以下组件:

· 语义内存模块被用来创建从输入句子的嵌入字序列预先训练手套载体。

· 输入模块处理与问题有关的输入矢量称为事实。该模块使用门控循环单元实现,GRU使网络能够了解当前正在考虑的句子是否相关或与答案无关。

· 问题模块逐字处理疑问词,并且使用输出相同权重的GRU输入模块的向量。事实和问题都被编码为嵌入。

· 情景记忆模块接收从输入中提取和编码的嵌入事实和问题载体。这使用了一个受大脑海马体启发的想法,它可以检索由某些反应触发的时间状态,如景点或声音。

· 答案生成模块,通过适当的响应,情景记忆应该包含回答问题所需的所有信息。该模块使用另一个GRU,使用正确序列的交叉熵错误分类进行训练,然后可以将其转换回自然语言。

jin2055金沙网站 8

DMN不仅在质量保证方面做得非常好,而且在情感分析和词性标注方面也优于其他架构。自开发以来,动态内存网络已经有了重大改进,进一步提高其在问答环境中的准确性,包括:

· 用于视觉和文本问题的动态存储网络问答应用基本上是将DM​​N应用于图像,其内存和输入模块已升级,以便能够回答视觉问题。该模型改进了许多基准Visual Question Answering数据集的现有技术水平,而不支持事实监督。

· 用于问题应答的动态Coattention网络解决了从对应于不正确答案的局部最大值恢复的问题。它首先融合了问题和文件的共同依赖表示,以便集中于两 者的相关部分。然后,动态指向解码器迭代潜在的答案跨度,该迭代过程使模型能够从对应于不正确答案的初始局部最大值中恢复。

人类很难手动汇总大型文本文档。文本摘要是NLP为源文档创建简短、准确和流畅的摘要问题。随着推送通知和文章摘要获得越来越多的注意力,为长文本生成智能且准确摘要的任务每天都在增长。

本文由jin2055金沙网站发布于科学研究,转载请注明出处:科学家教机器人新技能 跟着视频模仿左手右手慢

关键词: jin2055金沙网站