京东AI研究成果再向前一步 方法领先Waymo、Facebook
近日,第34届神经信息处理系统大会Conference on Neural Information Processing Systems,简称NeurIPS,NIPS在线上召开。作为全球顶级的机器学习和计算神经科学会议,今年的NIPS依然受到了学者们的高度关注,甚至由于其线上开放的特性缓解了往年抢票难的问题,而将获得更多的“听众”。
据悉,今年NeurIPS稿件录取率为20.09,创下历史新低。在如此严苛的录取标准之下,京东AI深度学习与语音语义实验室提交的探索稀疏3D点云Global Context的论文《Group Contextual Encoding for 3D Point Clouds》成功入选。今年以来,京东AI深度学习与语音语义实验室的研究成果频获国际认可,此前还有多篇论文入选国际语音和语言处理顶会比如ACL 2020、AAAI 2020、INTERSPEECH 2020等。
Global Context对视觉感知至关重要,可以根据语义信息提高物体识别的准确率,但目前针对3D点云的Global Context的研究还不够充分,特别是在三维空间的情况下,数据呈现高维、稀疏的特点,对传统深度学习算法提出了挑战。因此,京东AI研究院基于其研究实习生计划与东京大学合作了《Group Contextual Encoding for 3D Point Clouds》,针对这一研究领域提出了Group Contextual Encoding的Global Context学习方法。
从目前已有3D点云Global Context的研究成果来看,比如LG-PointNet++ 【1】,其复杂度为,N是输入点的个数。当场景复杂时,输入点数较多会导致耗费相当大的算力。Contextual Encoding Layer【2】的复杂度是,是一种有效率的方法,K是该方法里code word数目。但是点云数据稀疏导致的过拟合现象overfitting,会影响性能的提升,导致在ScanNet,SUN-RGBD数据集上3D检测性能随着Code word数目K的增长,性能却很快就饱和不再增长。虽然目前有一些深度补全的算法可以解决数据稀疏这个问题,但是这些算法都存在结构复杂、耗费计算资源的问题,因此,京东AI研究院决定探索简单有效的方法。
首先要解决数据的稀疏问题。通过把特征通道分组,从而获得更多的等效数据,如图1所示,如果把通道分成G组特征子向量,数据就相对应增广了G倍。再将分组后的特征子向量通过Encoding layer得到Global context,从而有利于在分组后的特征子空间学习全局上下文,然后通过channel attention的形式作用于分组后的特征。最后通过Concat操作恢复为原特征的尺寸。如此操作既解决了数据的稀疏问题,又解决算法结构复杂、算力耗费巨大的问题。
图1:Group Contextual Encoding方法图。
随后,京东AI研究院又将这种方法在多个3D数集上进行验证,不仅证实这种方法简单有效,还刷新了SOTA方法的性能。将这种方法应用在PointNet++ Backbone上,并部署到VoteNet模型。如表1所示,在ScanNet数据集以mAP@0.25指标测评时,该方法领先VoteNet 【3】 2.2mAP,增幅已然明显,但更令人惊喜的是,在更加严格的mAP@0.5的指标下,如表2所示,该方法领先Waymo、Facebook AI Research以及Stanford大学提出的 VoteNet高达6.57 mAP,可视化结果如图2所示。
表1:ScanNet数据集mAP@0.25评测指标的结果。
表2:ScanNet数据集mAP@0.5评测指标的结果。
图2:ScanNet数据集的结果可视图。在SUN-RGBD数据集,我们的方法也领先VoteNet 3mAP,具体定量以及定性结果如表3和图3所示。
表3:SUN-RGBD数据集mAP@0.25评测指标的结果.
图3:SUN-RGBD数据集的结果可视图。
京东自2017年开始全面向技术转型,用技术重塑了京东的生态系统,逐渐突破零售边界,拓展至数字科技、物流、健康等众多领域。一直以来,消费者们更多的在购物、物流等环节体验到京东技术的进步,如今,京东在人工智能领域的长足进展不仅获得学术界的认可,也逐渐被更多的用户所知悉,京东的智能语音技术也已经在智能外呼机器人、客服语音机器人等电话交互场景中实现成熟应用,此次提出的Group Contextual Encoding方法也可以应用在下游的AR增强现实、MR混合现实以及机器人,自动驾驶等领域,推动这些领域的发展。京东技术将不仅赋能金融、医疗、教育、健康等行业,还将在更多领域为用户提供便利。
参考文献
【1】Wang, Xu, Jingming He, and Lin Ma."Exploiting Local and Global Structure for Point Cloud Semantic Segmentation with Contextual Point Representations." Advances in Neural Information Processing Systems. 2019.
【2】Zhang, Hang, et al."Context encoding for semantic segmentation." Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2018.
【3】Qi, Charles R., et al."Deep hough voting for 3d object detection in point clouds." Proceedings of the IEEE International Conference on Computer Vision. 2019.
相关阅读
最新文章
随机推荐
- 中建三局一公司合肥联投书城项目组织环保毅行志愿者活动
- 贵州禧鸿泰集团带领黔货企业合力举行“禧耀红城黔货出山”群星会
- ABCmouse代理加盟商如何开展免费体验课
- 贪吃小站的货源都是哪里进的?听说义乌菡笑
- 热烈祝贺深圳美丽魔方集团董事长陈琼女士出席第七届中国企业家发展年会并载
- 网红云商怎么样?通过红人大赛洞悉网红云商魅力
- 羊懂:从一线螺丝工到CEO,90后小伙子7年的创业之路
- 手机前置摄像头自带美颜,欧美用户集体抗议,网友:没美颜能活吗
- 聪明挑选-四大类卸妆产品
- 山东千亩园葡萄酒庄有限公司简介
- 一体鸡加盟市场前景和独家优势
- 天台白鹤:“企小青”组团跑,为企业发展添动能
- 高效率的罗曼电动牙刷,让牙齿洁净看得见
- 挽回男友的话,怎样挽回你学会了吗?
- 宠物美容课程全面更新,更新广泛,更专业
- JMatPro 2019年度中国区研讨会(东莞)圆满落幕
- 超威售后,给你更多关爱
- 家里湿气太大,这家江南人经常腰酸背痛,后来整个家都毁了
- advantek光子面膜仪--给肌肤最好的呵护
- 苦苦等待不如主动MarryU北京
最新评论
更多评论