VoxTNT:基于多尺度Transformer的点云3D目标检测方法 - Details

author：

郑强文 (郑强文.) ^[1] | 吴升 (吴升.) ^[2] | 魏婧卉 (魏婧卉.) ^[3]

Abstract：

[背景]传统方法因静态感受野设计较难适配城市自动驾驶场景中汽车、行人及骑行者等目标的显著尺度差异,且跨尺度特征融合易引发层级干扰.[方法]针对自动驾驶场景中多类别、多尺寸目标的3D检测中跨尺度表征一致性的关键挑战,本研究提出基于均衡化感受野的3D目标检测方法VoxTNT,通过局部-全局协同注意力机制提升检测性能.在局部层面,设计了Point-SetFormer模块,引入诱导集注意力模块(Induced　Set　Attention　Block,ISAB),通过约简的交叉注意力聚合高密度点云的细粒度几何特征,突破传统体素均值池化的信息损失瓶颈;在全局层面,设计了VoxelFormerFFN模块,将非空体素抽象为超点集并实施跨体素ISAB交互,建立长程上下文依赖关系,并将全局特征学习计算负载从O(N　2)压缩至O(M　2)(M＜＜N,M为非空体素数量),规避了复杂的Transformer　直接使用在原始点云造成的高计算复杂度.该双域耦合架构实现了局部细粒度感知与全局语义关联的动态平衡,有效缓解固定感受野和多尺度融合导致的特征建模偏差.[结果]实验表明,该方法在KITTI数据集单阶段检测下,中等难度级别的行人检测精度AP(Average　Precision)值达到59.56%,较SECOND基线提高约12.4%,两阶段检测下以66.54%的综合指标mAP(mean　Average　Precision)领先次优方法BSAODet的66.10%.同时,在WOD数据集中验证了方法的有效性,综合指标mAP达到66.09%分别超越SECOND和PointPillars基线7.7%和8.5%.消融实验进一步表明,均衡化局部和全局感受野的3D特征学习机制能显著提升小目标检测精度(如在KITTI数据集中全组件消融的情况下,中等难度级别的行人和骑行者检测精度分别下降10.8%和10.0%),同时保持大目标检测的稳定性.[结论]本研究为解决自动驾驶多尺度目标检测难题提供了新思路,未来将优化模型结构以进一步提升效能.

Keyword：

Transformer 三维目标检测体素智能交通工程点云自动驾驶

Community：

[ 1 ] [郑强文]福州大学计算机与大数据学院,福州 350100
[ 2 ] [吴升]福州大学数字中国研究院(福建),福州 350100
[ 3 ] [魏婧卉]福州大学计算机与大数据学院,福州 350100

Reprint 's Address：

Email：

Show more details

Version：

VoxTNT：基于多尺度Transformer的点云3D目标检测方法
2025，地球信息科学学报

Related Keywords：

自注意力机制下融合图像和点云的三维目标检测
2025，福州大学学报（自然科学版）
基于球语义多模态融合的三维目标检测
2025，光电子技术
基于深度学习的三维目标检测方法综述
2020，汽车技术
基于车载激光点云的道路交叉口检测与识别
2021，南京信息工程大学学报(自然科学版)

Source ：

地球信息科学学报

ISSN： 1560-8999

Year： 2025

Issue： 6

Volume： 27

Page： 1361-1380

Cited Count：

WoS CC Cited Count：

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count：

Chinese Cited Count：

30 Days PV： 0

Affiliated Colleges：

Get Fulltext

Library Discovery Baidu Scholar Search WF

Type
Departments

All Years Choose Year From to