Ai 通过视频学会了预测人类行为:

通过肢体语言来预测一个人接下来要做什么对人类来说是自然而然的,但对电脑来说却不是这样。当我们遇到另一个人时,他们可能会用打招呼,握手,甚至击拳的方式来问候我们。我们也许不知道会用哪种手势,但是我们可以根据实际情况并做出反应。


哥伦比亚大学的工程学研究人员公布了一项计算机视觉技术,通过利用人、动物和物体之间更高层次的联系,使机器能够更直观地感知接下来会发生什么。哥伦比亚大学计算机科学助理教授卡尔 · 冯德里克说: “我们的算法向机器迈进了一步,机器能够更好地预测人类行为,从而更好地协调它们与我们的行为。”他是这项研究的负责人,该研究于2021年6月24日在计算机视觉和模式识别国际会议上发表。


“我们的研究结果为人类与机器人的协作、自动驾驶汽车和辅具打开了许多可能性。”这是迄今为止预测未来几分钟内视频动作事件最准确的方法,研究人员说。在分析了数千小时的电影,体育游戏,还有像《办公室》这样的节目之后,系统学会了预测数百种活动,从握手到碰拳。当它无法预测特定的行为时,它会找到更高层次的概念,将它们联系起来,在这个例子中,是“问候”这个词。“过去的预测机器学习的尝试,包括团队的尝试,都集中在一次只预测一个动作。算法决定是否将动作分类为拥抱,击掌,握手,甚至是像“忽略”这样的非动作但当不确定性很高时,大多数机器学习模型无法找到可能选择之间的共同点。


哥伦比亚大学工程学博士生 didac suris 和 ruoshi liu 决定从另一个角度来看长期预测问题。“未来的事情并不都是可以预测的,”该论文的联合主要作者苏里斯说。“当一个人无法准确预见将要发生的事情时,他们会谨慎行事,并在更高的抽象层次上进行预测。我们的算法是第一个学习这种抽象推理未来事件的能力。”苏里斯和刘不得不重新考虑,在高中,学生学习熟悉和直观的几何规则——直线走直线,平行线永远不会交叉。大多数机器学习系统也遵循这些规则。然而,其他几何图形却有着奇异的、违反直觉的特性: 直线弯曲,三角形凸起。苏里斯和刘利斯利用这些不寻常的几何构造了人工智能模型,组织了高层次的概念,并预测了未来人类的行为。


“预测是人类智能的基础,”麻省理工学院(massachusetts institute of technology)高级研究科学家、麻省理工学院 ibm watson 人工智能实验室联合主任奥德•奥利瓦(aude oliva)表示。奥利瓦是人工智能和人类认知方面的专家,没有参与这项研究。“机器会犯人类永远不会犯的错误,因为它们缺乏我们抽象推理的能力。这项工作是缩小技术差距的关键一步。”研究人员开发的数学框架使机器能够根据未来事件的可预测程度来组织事件。


例如,我们知道游泳和跑步都是锻炼的形式。这项新技术学会了如何自己对这些活动进行分类。研究人员说,这项技术可以使计算机更接近于能够判断情况并做出微妙的决定,而不是预先编程的行动的状态。这是在人类和计算机之间建立信任的关键一步,该论文的共同主要作者刘说。“信任来自于机器人真正理解人的感觉,”他解释说。“如果机器能够理解和预测我们的行为,计算机将能够无缝地协助人们的日常活动。“尽管新算法比以前的方法对基准任务做出了更准确的预测,但接下来的步骤是验证它在实验室之外是否有效,” vondrick 说。研究人员说,如果这个系统能够在不同的环境下工作,那么部署机器和机器人可能会提高我们的健康和安全。该小组计划继续提高算法的性能,使用更大的数据集和计算机,以及其他形式的几何。“人类的行为往往令人惊讶,” vondrick 评论道。“我们的算法使机器能够更好地预测它们下一步要做什么。”