Occupancy Network Tesla AI Reference

2022/10/04 PaperNotes Freespace 共 1201 字,约 4 分钟

论文名称:Occupancy Networks: Learning 3D Reconstruction in Function Space

Reference (其实就是复制粘贴了大佬的 papernote

https://blog.csdn.net/qq_34342853/article/details/120078510

三维重建任务:把2D图像映射到3D虚拟场景下。3D物体通常有voxel,point,mesh表征三种方式。

关于 mesh 表征:

缺点: only able to generate meshes with simple topology, require a reference template from the same object class or cannot guarantee closed surfaces

Method

本文提出了occupancy表征。

首先定义occupancy function:

然后定义occupancy network:

给每个实空间的3D点一个0-1之间的占用概率(因此和二分类模型等价)。神经网络f输入是一个点和一个几何体的表示(X),输出是一个0-1之间的实数,表示这个点在这个几何体里的概率。

所以 occupancy network 的损失函数是二分类,判断 batch 里采样点是否在 object 里面。

此外,occupancy network 也可以用来学习 概率隐变量模型(probabilistic latent variable models),作为生成模型的 encoder 部分。

occupancy network 的架构:

输入是一个几何体的表示和T个3D点,输出每个点被 occupied 的概率

embedding 可以是图像(ResNet),稀疏的体素(3D CNN),点云(PointNet)

conditional BN:gamma 和 beta 是 linear 生成的

Inference

Multiresolution IsoSurface Extraction (MISE) 多分辨率等值面提取

`

Tesla AI Day

  1. 网络输入
    1. augment 之后的当前帧 multi-camera image
  2. 网络结构
    1. 先 spatial attention得到spatial feature
    2. spatial frame alignment怎么做的没看懂
    3. 用spatiotemporal feature去做上采样
  3. 网络输出
    1. Volume Outputs 输出的是 occupancy / occupancy flow / sub-voxel shape information / 3D semantics
    2. Surface Outputs 输出的是 road surface geometry / road surface semantics
  4. 网络预测
    1. queryable outputs 和 occupancy network 是相同的,输入的是图像特征和具体的XYZ,MLP判断当前3D点的occupancy prob
    2. NeRF State 有什么用没看懂

文档信息

Search

    Table of Contents