再出大招!李飞飞的新 AI 能「预知未来」,精準度更高的吓人

作者: 时间:2020-06-18 分类:Y蹭生活 评论:49 条 浏览:476

再出大招!李飞飞的新 AI 能「预知未来」,精準度更高的吓人

本文经 AI 新媒体量子位(公众号 ID:QbitAI)授权转载,转载请联繫出处

作者:量子位/ 晓查、乾明

道路千万条,你走哪一条?

AI  知道。

不仅知道,还能预测出你要干什幺。

这种全面「窥视未来」的能力,出自李飞飞团队的最新研究。

我们来(假装)看一段街头影片。

一个人,从车后绕过来 ……

再出大招!李飞飞的新 AI 能「预知未来」,精準度更高的吓人

画面定格,引来保安终极三问:他是谁?要去哪?干什幺?

当然是继续走向车门旁边,伸手开门。

AI  回答正确。

提高一点难度,多拍几个人试试:

再出大招!李飞飞的新 AI 能「预知未来」,精準度更高的吓人

李飞飞团队的新 AI  还是能答对。系好安全带,开车上路。

李飞飞的 AI 增加预言强度、範围、甚至包含「人类行动」

这项研究,由卡内基梅隆大学(CMU)、Google AI  和史丹佛大学共同完成。

他们运用一个端到端的多任务学习系统,从画面中识别人类行为和 TA  与周围环境的互动情况,然后根据这些信息,预测出这名行人未来的路径和行为。

无论是预知的範围还是準确率,都比以往的研究更强。

在此之前,「窥视未来」的研究也不少,不过都只是预测人接下来的行走路径,无法预测他们干什幺。

比如 2018  年李飞飞夫妇团队发表在 CVPR  上的 Social GAN,代表了当时最先进的水平,却也只能预测「要去哪儿」。

再出大招!李飞飞的新 AI 能「预知未来」,精準度更高的吓人

而这项最新的研究,不仅预测了人的路径,还预测出了这些人的活动。

再出大招!李飞飞的新 AI 能「预知未来」,精準度更高的吓人

论文中说,这是首次同时预测人未来路径和活动的研究。

如果你仔细观察上图的蓝色预测轨迹,还会发现:新研究的轨迹预测能力也比以前更强了。

当然,这些是主观定性的感受,放到定量的分析中,它对路径预测的误差平均下来也是最小的。

再出大招!李飞飞的新 AI 能「预知未来」,精準度更高的吓人

上图是各种算法在五个场景人物路径预测数据上的表现。

为了充分证明模型的性能,分成了两类,一是对单一模型结果的比较(Single Model),一是比较 20  个模型输出结果最优情况(20 Outputs)。

这五个场景来自两个公开的数据集。

一是 ETH  数据集,包括 ETH(大学外部)和 HOTEL(公共汽车站),二是 UCY  数据集,包括 UNIV(大学)、ZARA1(购物街)和 ZARA2(购物街)。

图表中的数据,表示人物接下来路径中 12  个点的预测误差,「/」左侧数据代表平均位移误差,右侧数据代表最终位移误差,数据越小越好。

各个场景平均来看(AVG),这项最新研究单一模型的平均误差比其他模型要少 0.2,最终误差少 0.4。20  个模型输出结果最优情况中,平均误差和最终误差也都少了 0.1  左右。

一个算法,既能预测轨迹,又能预测行为,误差还比其他方法低。那幺问题来了 ——

李飞飞如何让 AI 拥有预言超能力?

预测运动轨迹这件事,和预测行为本来就是相辅相成的。

人类走路是以特定目的为导向,了解一个人的目的,有助于推测他要去哪。

再出大招!李飞飞的新 AI 能「预知未来」,精準度更高的吓人

既然要同步预测运动轨迹和行为,就不能像以往那些研究一样,把人简化成一个点了。

这个神经网路,总共包含 4  部分:

人物行为模块、人物交互模块、轨迹生成器、活动预测

其中前两个模块是图像识别的部分,分别负责识别场景中每个人的动作和相互关係。

获得的信息交给 LSTM  编码器,压缩成一个「视觉特徵张量」Q,交给剩下两部分生成轨迹和活动的预测结果。

另外,活动预测模块还能对活动即将发生的位置进行预测,弥补轨迹生成器的误差。

这四个模块的功能和工作原理,具体来说是这样的:

1、人物行为模块

再出大招!李飞飞的新 AI 能「预知未来」,精準度更高的吓人

这个模块负责对场景中每个人的图像信息进行编码,除了标记人的轨迹点以外,还要对身体活动进行建模。

为了对人在场景中的变化进行建模,这里用一个预训练的带有「RoAlign」的物体检测模型,来提取每个人边界框的固定尺寸 CNN  特徵。

除了场景以外,人物行为模块还需要获取肢体活动的信息,本文使用了一个 MSCOCO  数据集上训练的检测模型,来提取人体关键点信息。

以上两个部分分别输入 LSTM  编码器,获得场景和肢体动作的特徵表示。

2、人物交互模块

这个模块负责查看人与周围环境的交互,包含人与场景、人与对象的交互。

其中人与场景的交互是为了对人附近的场景进行编码。

首先使用预训练的场景分割模型导出每一帧的像素级场景语义分类,划分出场景中的道路、人行道等部分。

然后选取适当的尺寸大小来确定模型需要识别的环境区域。例如把数值设定为 3,表示选取人周围 3×3  大小的範围作为观察区域。

将以上不同时刻获取的信息输入 LSTM  编码器,最终获得了人与场景关係的特徵。

再出大招!李飞飞的新 AI 能「预知未来」,精準度更高的吓人

与前人的研究不同,「人与对象的交互」模块可以对场景中所有对象与人的几何关係和类型进行建模,并根据几何距离来计算人与其他对象的关係,而不仅仅只关注与周围近邻的关係。

但是人的轨迹更容易受到近距离物体或人的影响,文中使用对数函数作为权重,来反映不同距离人或物体对轨迹的影响。实际效果也证明了这种编码方式是有效的。

下一步,将某个时刻的几何特徵和对象类型特徵嵌入到多维向量中,并将嵌入的特徵馈送到 LSTM  编码器中。

由人与其他人、汽车之间的距离,可以获得人与物体的关係特徵;由人是靠近人行道还是草地,可以判定人物场景特徵。

将这些信息提供给模型,让它能学习到人类的活动方式。比如一个人在人行道上比在草地上走得更频繁,并且会倾向于避免撞到汽车。

3、轨迹生成器

上面两个模块提取的 4  种特徵,包括场景、肢体动作、人与场景和人与对象关係等信息,由单独的 LSTM  编码器压缩成视觉特徵张量 Q。

接下来使用 LSTM  解码器直接解码,在实际平面坐标上预测未来的轨迹。

这项研究用了一种焦点注意力的机制。它起初源于多模态推理,用于多张图片的视觉问答。其关键之处是将多个特徵投射到相关空间中,在这个空间中,辨别特徵更容易被这种注意力机制捕获。

焦点注意力对不同特徵的关係进行建模,并把它们汇总到一个低维向量中。

4、活动预测

活动预测模块有两个任务,确定活动发生的地点和活动的类型。

相应地,它包含两个部分,曼哈顿网格的活动位置预测和活动标籤预测。

活动标籤预测的作用是猜出画面中的人最后的目的是什幺,预测未来某个瞬间的活动。活动标籤在某一时刻并不限于一种,比如一个人可以同时走路和携带物品。

而活动位置预测的功能,是为轨迹生成器纠错。

轨迹生成器有个缺点,预测位置的误差会随着时间累计而增大,最终目的地会偏离实际位置。

为了克服这个缺点,就有了「活动位置预测」这项辅助任务。它确定人的最终目的地,以弥补轨迹生成器和活动标籤预测之间的偏差。包括位置分类和位置回归两个任务。

位置分类的目的是预测最终位置坐标所在的网格块。位置回归的目标是预测网格块中心(图中的蓝点)与最终位置坐标(红色箭头的末端)的偏差。

再出大招!李飞飞的新 AI 能「预知未来」,精準度更高的吓人

添加回归任务的原因是,它能提供比网格区域更精确的位置。

但这 AI 只能预言人类 30 种行为模式

虽然模型设计中,考虑的非常周到,但面对现实情况时,仍旧会出现种种失败案例:

再出大招!李飞飞的新 AI 能「预知未来」,精準度更高的吓人

左边,预测人物要打开后备箱,但实际上是他只是站着。

右边,预测任务将会向右前方前进,提着一些东西,但实际上他一直骑行,并向左前方拐弯,全然不顾前方即将到来的车辆。

从这些情况来看,模型应对一些场景还有些吃力。

此外,这个 AI  目前仅适用于美国国家标準局提供预定义的 30  个人类活动,例如关门、开门、关后备箱、开后备箱、提东西、打招呼、推、拉、骑自行车、跑、步行等等。

再出大招!李飞飞的新 AI 能「预知未来」,精準度更高的吓人

研究道路千万条,这是第一条。

随着研究的成熟,在自动化社会中,人类这一最不稳定的变量也就将会在控制之中。

未来,自动驾驶的汽车,可能再也不用担心横冲直撞的行人了,机器人也会与人类「和谐相处」了,毕竟人类想要干什幺,系统都了如指掌。

如果你对这个领域感兴趣,还请收好这篇论文的传送门:(点这)

再出大招!李飞飞的新 AI 能「预知未来」,精準度更高的吓人

你可能感兴趣

IBM 世界创举!首场 AI vs 真人辩论公开赛,电脑罩得住吗?

MIT 用「群」训练, AI 只练了 300 次就学会玩叠叠乐!

DeepMind 将直播 AI 血洗人类玩家、称霸《星海争霸 II》!

相关推荐