EmbodiedAI具身智能必读论文|LEMON: Learning 3D Human-Object Interaction Relation from 2D Images
论文标题
LEMON: Learning 3D Human-Object Interaction Relation from 2D Images
LEMON:从二维图像中学习三维人-物体交互关系
论文链接:
该系统:从二维图像中学习三维人体与物体交互关系论文下载链接
论文作者
Yuhang Yang, Wei Zhai, Hongchen Luo, Yang Cao, Zheng-Jun Zha
内容简介
本论文开发了一个命名为LEMON(LEarning 3D huMan-Object iNteraction relation)的模型

方法
1.交互意图挖掘(Interaction Intention Excavation) :
- LEMON基于多分支注意力机制模仿图像内容与人类及物体几何结构之间的交互意图相关性,并揭示其对应的交互意图表示。
- 通过余弦相似性进一步加强语义一致性。

2.曲率引导的几何相关性(Curvature-guided Geometric Correlation) :
- 使用LEMON算法对物体及其人体的法向量进行编码,并将交互意图作为条件捕获人类与物体间的相互吸引力。
- 交叉注意力机制协同作用于曲率编码过程中的各部分单元体之间,并指导计算过程以实现几何相关性的精确估计。

3.接触感知的空间关系(Contact-aware Spatial Relation) :
人类与物体之间的互动方式多种多样,在推理这些物体间的三维空间关系时会面临极大的挑战。LEMON通过隐式地限制物体的位置来辅助推断潜在的人类-物体空间关联。
4.损失函数(Loss Functions) :
LEMON的训练过程涉及多种不同的损失函数,在优化过程中通过整合这些不同的_loss_function_来提升模型的整体性能。具体而言,该方法涵盖了接触点_loss_function, 可供性_loss_function, 语义一致性_loss_function以及空间位置_loss_function等多个关键指标, 通过这四者的协同作用实现了对模型性能的有效优化
数据集
- 3DIR数据集 :作者汇总了自然交互图像与其对应的物体点云数据,并标注了人类接触点、物体可供性及人-物空间关系等多个维度的信息。这些标注内容为模型的训练与评估提供了可靠的基础支持。

实验
研究者在其3DIR数据集上展开了系统性的实验探究,并通过大量样本的有效训练实现了对单个互动单元特性深度刻画的能力提升。实验证明,在评估单个互动单元时 LEemon 显著优于单独评估每个单元的方法。进一步研究表明,在涉及多互动关系、多实体以及多实例的情形下 LEemon 持续展现出卓越的泛化性能与稳定的性能特征。

结论
LEMON通过巧妙利用人类与物体之间的互动意图以及它们在空间中的几何关联性,在准确评估物体间的相互亲和度方面取得了显著成果,并有效降低了交互中的不确定性;该系统成功预测了合理的三维交互元素,并为其提供了新的研究视角以推进3D人类-物体互动理解领域的发展。研究者进一步探讨了该方法的局限性及其未来发展方向:一方面整合人体网格恢复技术(HMR),另一方面则致力于利用多模态数据来提升对互动关系的理解能力
EmbodiedAI具身智能必读论文合集:
[精选学术资源库: EmbodiedAI 具身智能必读论文合集](https://volctracer.com/w/TsT1vBdQ [精选学术资源库: Emb-bodiedAI 具身智能必读论文合集])
希望能为广大学者提供帮助。觉得有帮助的朋友别忘了点赞关注哦!期待您的支持与关注!我们也会持续为大家分享更多高质量的学术资源。
