Detr3d

2022/10/08 共 491 字,约 2 分钟

We link 2D feature extraction and 3D object prediction via geometric back-projection with camera transfor-mation matrices.

每张图像提取 resnet 4 个 stage 的多尺度特征

3d box 标注信息: position, size, heading angle, and velocity, 9-dim

(cx, cy, cz, w, l, h, theta, vx, vy)

Core: 如何在 2d 特征上采样 reference point

每层 decoder 的输入都是 3d query feat,forward MLP 给出 reference point

每个采样点都是 3-dim 再根据相机外参计算该点在每个 view 的坐标,这里的计算:

T 矩阵是相机外参和内参的矩阵乘积

P.S. 相机坐标系,世界坐标系 https://www.cnblogs.com/wangguchangqing/p/8126333.html#autoid-0-2-0

最后 3d 特征是所有 valid 2d point(如果 cli 3d xyz 成功变换到 2d uv 认为是 valid)feat 的 sum

文档信息

Search

    Table of Contents