We link 2D feature extraction and 3D object prediction via geometric back-projection with camera transfor-mation matrices.
每张图像提取 resnet 4 个 stage 的多尺度特征
3d box 标注信息: position, size, heading angle, and velocity, 9-dim
(cx, cy, cz, w, l, h, theta, vx, vy)
Core: 如何在 2d 特征上采样 reference point
每层 decoder 的输入都是 3d query feat,forward MLP 给出 reference point
每个采样点都是 3-dim 再根据相机外参计算该点在每个 view 的坐标,这里的计算:
T 矩阵是相机外参和内参的矩阵乘积
P.S. 相机坐标系,世界坐标系 https://www.cnblogs.com/wangguchangqing/p/8126333.html#autoid-0-2-0
最后 3d 特征是所有 valid 2d point(如果 cli 3d xyz 成功变换到 2d uv 认为是 valid)feat 的 sum
文档信息
- 本文作者:Mengqi Cao
- 本文链接:https://rogercmq.github.io//2022/10/08/DETR3D/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)