论文阅读四十四：用于高效细致曲面重建的二次高斯泼溅

摘要

最近，3D高斯泼溅（3DGS）因其在神经辐射场（NeRF）之上的卓越的渲染质量和速度而受到关注。为了解决3DGS在曲面表示中的限制，2D高斯泼溅（2DGS）引入圆盘（disks）作为场景基元，来建模和重构来自多视图图像的几何图形。然而，圆盘的一阶线性近似常常导致过平滑的结果。我们提出二次高斯泼溅（QGS），一种新方法，它用二次曲面替代圆盘，增强了几何拟合。QGS在非欧空间定义高斯分布，允许基元捕获更复杂的纹理。作为二阶曲面近似，QGS还渲染空间曲率来指导法线一致性项，来有效减少过平滑。而且，QGS是2DGS的泛化版本，取得更准确和细致的重建，已由DTU和TNT上的实验验证，展示了它超越了几何重建中大多数先进方法的有效性。我们的代码将会作为开源发布。项目在： https://quadraticgs.github.io/QGS

引言

曲面重建和真实新视图合成（NVS）是计算机图形和视觉中的重要任务。它们的目标是从来自不同视角的图像中恢复密集几何结构，并渲染照片级真实感的图像。最近，3D高斯泼溅（3DGS）通过结合传统泼溅技术和端到端的优化，已经在渲染质量和速度中均超越基于神经辐射场（NeRF）的方法。随后，基于GS的方法在动态重建、编辑和大尺度场景重建中快速发展。

然而，普通的泼溅忽略了z轴的高斯贡献，并使用近似[16,39]。因此，即使在场景曲面偏移的情况下，它也可以渲染高质量、多视图一致的纹理，这使得捕捉准确的几何体变得具有挑战性。在随后的工作中[4,12,19,35,36]，ray-splat交互在2D中计算用于检索高斯权重，这是准确场景几何恢复的关键因素。在使用高斯椭球体作为基元[35,36]的方法中，ray-splat交互依赖于视图方向，限制了不同视图间的法线一致性。相反，使用高斯圆盘作为基元的方法[12,19]可以确保多视图一致性几何，由于它们的基于曲面的属性，促进了多视图几何一致性的结合[4,19]。然而，圆盘，作为几何体的一阶拟合，常常导致过于平滑的重建，如图2所示。

早期工作[26,31,40]表明，surfel(点元)元素可以有效表示复杂场景几何，如原子模型。基于此，2DGS[12]结合高斯分布和圆盘元素取得先进重建，启发了我们的方法。本文中，我们提出一种新的基于曲面的渲染方法，称之为二次高斯泼溅（QGS），用于场景重建和新视图合成。该方法通过更高阶表示增强了场景基元的几何拟合，实现了二次模型曲面网格（mesh）的准确提取。

不同于先前在欧式空间中操作的方法，如3DGS或2DGS，QGS在二次抛物面（paraboloid）定义高斯分布，可以在凸形和凹形之间连续过渡，提供了更加灵活的几何拟合。使用抛物面进行泼溅的关键技术在于实现非欧空间中基于测地距离（geodesic distances）的高斯分布，它允许分布的能量集中在曲面，来高效捕捉复杂几何纹理。相较于2DGS中的一阶近似，QGS提供场景几何的二阶拟合。因此，QGS不仅可以生成多视图一致性的法线和深度，而且提供了曲率信息，它表示曲面弯曲并帮助指导单视图法线一致性监督。此外，我们观察到，大多数GS方法使用的体素渲染顺序，导致爆裂伪影，影响新视图合成和几何重建。为此，我们采样来自StopThePop[25]的排序标准，重组以适应二次曲面结构，从而改进2DGS中使用的质心排序，来更好处理二次曲面的复杂交互。最终，QGS能够提取高质量和细节丰富的网格（mesh）模型，如图1所示。

总之，我们工作的主要贡献如下：

提出QGS，一种新颖高效的使用二次曲面作为场景基元的可微分表示，提供更加强大的几何拟合能力。
提出第一个，引入测地距离在曲面实现高斯分布的高斯泼溅工作，实现图元拟合更加复杂纹理。
在更高自由度QGS中使用更严格的深度排序，方法取得SOTA几何重建，并增强渲染质量。

方法

预备知识

Kerbl等[16]提出使用3D高斯椭球体作为基元来表示场景，并使用可微体积泼溅来渲染图像。椭球体的性质和方向（orientation）由其位置 $p_k$ 的缩放S和姿势R控制。R、S和 $p_k$ 一起定义了一个度量空间，在其中，高斯分布形式化为：

$G(x) = exp(-\frac{1}{2}(x - p_k)^T\Sigma^{-1}(x - p_k)) \tag{1}$

其中，协方差矩阵 $\Sigma = RSS^TR^T$ 。为渲染3D高斯到图像，每个高斯分布首先使用世界到相加变换W变换到相机空间。然后通过局部仿射变换J[39]，映射它到射线空间，其中视图方向于坐标轴对齐:

$\Sigma' = JW\Sigma W^T J^T \tag{2}$

在正交投影下，我们跳过 $\Sigma'$ 的第三行和列，产生一个 $2\times 2$ 的协方差矩阵 $\Sigma^{2D}$ 来表示2D高斯 $G^{2D}$ 。随后，3DGS使用体积渲染来整合2D高斯。

$C(p) = \sum{i=0}^{N-1}G_i^{2D}(p)\alpha_i c_i\prod_{j=0}^{i-1}(1 - G_j^{2D}(p)\alpha_j) \tag{3}$

这里， $\alpha_i$ 表示不透明度， $c_i$ 表示每个高斯基元的颜色，以及p是像素坐标。最终，每个高斯基元通过最小化光度损失（photometric loss）来优化。

高斯网格(mesh)重建 。普通3DGS[16]可以渲染高质量的图像，但它由于在泼溅过程中缺少多视图一致性，对场景几何重建产生次优结果。在后续的几何重建方法中，诸如geo-GOF[35]和RadeGS[36]的体素方法利用ray-splat交互技术，取得先进重建质量，但限制了法线和深度的一致性。相反，2DGS[12]在平面盘中定义2D高斯分布，固有地提供多视图的一致性法线和深度。但圆盘仅是曲面的一阶近似，通常导致2DGS中过度平滑的重建结果，如图2所示。

二次高斯泼溅

为增强曲面表示的几何拟合能力，我们提出可微二次高斯泼溅，如图1所示。我们将首先介绍二次高斯模型，然后讨论用于二次性的泼溅设计，并最后解释优化过程。

二次高斯模型

二次模型。给定齐次坐标（homogeneous coordinate） $x = [x,y,z,1]^T \in R^4$ ，二次曲面可以定义为如下方程的解集：

$\begin{aligned} f(x,y,z) &= Ax^2 + 2Bxy + 2Cxz + 2Dx + Ey^2 \\ &+ 2Fyz + 2Gy + Hz^2 + 2Iz + J \\ & =\begin{bmatrix}x &y& z& l\end{bmatrix}\begin{bmatrix} A&B&C&D \\ B&E&F&G\\ C&F&H&I\\ D&G&I&J \end{bmatrix}\;\begin{bmatrix}x\\y\\z\\1 \end{bmatrix}\\ &= x^TQx = 0 \end{aligned} \tag{4}$

类似于[26]，我们应用全等对角化将上面方程变换到其规范形式：

$\begin{aligned} Q = T^{-T}DT^{-1}, \text{with D diagonal}, d_{ii} \in \lbrace 0,\pm 1 \rbrace \\ T = \begin{bmatrix}u&v&w&c\\0&0&0&1\end{bmatrix} \end{aligned} \tag{5}$

这里，c表示二次曲面的位置， $\begin{bmatrix}u&v&w&c\\0&0&0&1\end{bmatrix}$ 可以分解到RS，其中 $R = [r_1,r_2,r_3]$ ， $S = diag(s_1,s_2,s_3)$ ，表示二次曲面在目标空间中的方向和缩放。矩阵D定义曲面的形状： $D = diag(1,1,1,1)$ 产生一个椭球体，而 $D = diag(1,0,0,0)$ 产生平面。

为了计算任意曲面点的高斯权重，我们首先在曲面上定义一个度量来建立高斯分布。为了将高斯能量集中在曲面上，我们使用测地线长度[27]作为度量：两个曲面点之间的测地线距离是沿曲面的最短路径，如图3中的红线所示。

然而，不是所有测地线都有闭式解。当Q是椭球面或双曲面，通常需要数值方法计算测地线长度。因此，我们仅侧重在抛物面的情况：

$\begin{aligned} f(x,y,z) &= x^T\begin{bmatrix}R&c\\0&1\end{bmatrix}^{-T} \bar{D}\begin{bmatrix}R&c\\0&1\end{bmatrix}^{-1} x \\ &= \hat{x}^T\begin{bmatrix}\frac{d_{11}}{s_1^2}&0&0&0\\0&\frac{d_{22}}{s_2^2}&0&0\\0&0&0&0&-\frac{d_{33}}{2s_3}\\0&0&-\frac{d_{33}}{2s_3}&0\end{bmatrix} \hat{x} \\ &= \frac{d_{11}}{s_1^2}\hat{x}^2 + \frac{d_{22}}{s_2^2}\hat{y}^2 - \frac{d_{33}}{s_3}\hat{z} = 0 \end{aligned} \tag{6}$

从现在开始，我们使用 $\hat{\cdot}$ 来表示高斯局部坐标。 $d_{ii}\in \lbrace 0, \pm 1\rbrace$ 决定抛物面是椭圆、双曲，还是平面的。然而，由于 $d_{ii}$ 是离散的，基元不能在椭圆抛物面和双曲抛物面之间平滑过渡。为此，我们引入符号缩放用于抛物面类型间的可微过度：

$f(\hat{x},\hat{y},\hat{z}) = \frac{sign(s_1)}{s_1^2}\hat{x}^2 + \frac{sign(s_2)}{s_2^2}\hat{y}^2 - \frac{1}{s_3}\hat{z} = 0 \tag{7}$

在普通3DGS[16]，缩放通过指数（exp）激活函数获得，即， $s(x) = exp(x)$ 。为引入符号(sign)，我们添加另外的变量t来控制符号，即， $s(x,t) = tanh(t)exp(x)$ 。

二次曲面上的高斯分布。我们现在将描述如何在抛物面上定义高斯分布。首先，需要在二次曲面上定义一个度量。抛物面（方程7）可以以显式形式表达为：

$\hat{z}(\hat{x},\hat{y}) = s_3(\frac{sign(s_1)}{s_1^2}\hat{x}^2 + \frac{sign(s_2)}{s_2^2}\hat{y}^2) \tag{8}$

将其等距转换为圆柱坐标，即， $\hat{x} = \rho\; cos\theta, \hat{y} = \rho\; sin\theta$ 。并重写方程8为：

$\begin{aligned} \hat{z}(\theta,\rho) &= s_3(\frac{sign(s_1)cos^2\theta}{s_1^2} + \frac{sign(s_2)sin^2\theta}{s_2^2})\rho^2 \\ &= a(\theta)\rho^2 \end{aligned} \tag{9}$

由于抛物面的对称性，对于任意点 $\hat{p}_0 = (\rho_0, \theta_0, \hat{z}(\theta_0,\rho_0))$ ，平面 $\theta = \theta_0$ 与抛物面的交线： $\hat{z}(\theta_0,\rho),\rho\in(0,\rho_0)$ ，是原点的测地线。那么如图3所示，测地距离是该曲线的弧长 $\mathcal{l}$ 。

$\begin{aligned} \mathcal{l}(a,\rho_0) &= \int_0^{\rho_0} \sqrt{1 + (2at)^2}dt\\ &= \frac{ln(\sqrt{u^2 + 1} + u) + u\sqrt{u^2 + 1}}{4a} \\ &\text{where } u = 2a\rho_0 \end{aligned} \tag{10}$

对于积分的推导，请参考补充材料。然后，我们在二次曲面的原点处定义曲面上二维高斯分布的均值，其中 $(s_1, s_2)$ 表示高斯的主轴方差。由于二维高斯分布的轮廓形成椭圆：

$\frac{\rho^2 cos^2\theta}{s_1^2} + \frac{\rho^2 sin^2\theta}{s_2^2} = 1 \tag{11}$

给定椭圆上的点 $(\theta_0,\rho_0)$ ， $\rho_0$ 表示 $\theta_0$ 方向中的2D高斯分布的标准差。

$\sigma(\theta_0) = \rho_0 = \frac{s_1 s_2}{\sqrt{(s_2 cos \theta_0)^2 + (s_1 sin \theta_0)^2}} \tag{12}$

因此，对于曲面上的任意点 $\hat{p}_0$ ，我们可以定义相应地高斯函数值为：

$G(\hat{p}_0(\theta_0,\rho_0)) = exp(-\frac{(\mathcal{l}(a(\theta_0),\rho_0))^2}{2(\sigma(\theta_0))^2}) \tag{13}$

值得注意的是，当 $|s_3| \rightarrow 0$ 时，抛物面等效于圆盘。此外，随着 $x \rightarrow 0$ ，我们有 $\sqrt{1 + x} \rightarrow 1$ 和 $ln(1 + x) \approx x$ 。因此，随着 $|s_3| \rightarrow 0$ ，我们通过方程10得到 $a \rightarrow 0$ 和 $\mathcal{l} \rightarrow \rho_0$ ，意味着测地距离变得等价于欧氏距离。这表明，2DGS可视为QGS特定退化情况。，其更加泛化的特性允许它有效拟合高曲率区域。

泼溅

尽管Sigg等人[26]推导出了射线二次交点，但QGS整合了高斯分布，因此需要重新定义交点以实现多视图一致性。

射线泼溅交点。令高斯局部空间中的相机中心表示为 $\hat{o} \in R^{3\times 1}$ 且射线方向表示为 $\hat{d} \in R^{3 \times 1}$ 。射线上的点可以定义为 $\hat{p} = \hat{o} + t\hat{d}$ 。通过将 $\hat{p}$ 带入方程8，我们求解二次方程获得两个交点：较近点 $\hat{p}_n = (\hat{x}_n,\hat{y}_n,\hat{z}_n)$ 和较远点 $\hat{p}_{\mathcal{f}} = (\hat{x}_f, \hat{y}_f, \hat{z}_f)$ ，其中 $t_n \le t_f$ 。为确保QGS中的多视图一致性，我们选择这两个点中的一个：首先，若 $\hat{p}_n$ 的测地距离在 $3\sigma(\theta_n)$ 内，我们选择 $\hat{p}_n$ 。否则，我们检查 $\hat{p}_f$ 是否在 $3\sigma(\theta_f)$ 内。若是，我们选择 $\hat{p}_f$ 。若没有符合的条件，我们假设射线 $\hat{p}(t)$ 和基元之间没有交点。推导在补充材料中。

法线和曲率。类似于2DGS[12]，QGS是基于曲面的表示，自然地拥有多视图一致性几何属性，使其容易计算曲面法线。给定曲面上任意点 $\hat{p}_0 = (\hat{x}_0,\hat{y}_0,\hat{z}(\hat{x}_0,\hat{y}_0))$ ，我们可以取方程7的偏导，得出：

$\hat{n}_0(\hat{p}_0) = (\frac{2sign(s_1)}{s_1^2}\hat{x}_0, \frac{2sign(s_2)}{s_2^2}\hat{y}_0, -\frac{1}{s_3}) \tag{14}$

由于QGS提供二阶拟合，它自然地输出二阶几何信息，比如曲率，描述了曲面的弯曲度。对于每个QGS基元，在射线泼溅交点的高斯曲率可以解析计算，详细推导可见补充材料。令 $\lambda_1 = sign(s_1)\cdot s_3/s_1^2$ 和 $\lambda_2 = sign(s_2)\cdot s_3/s_2^2$ 。点 $\hat{p}_0$ 的曲率是：

$\hat{K}_0(\hat{p}_0) = \frac{4\lambda_1\lambda_2}{(1 + 4\lambda_1^2\hat{x}_0^2 + 4\lambda_2^2\hat{y}_0^2)^2} \tag{15}$

如图4所示，对于给定的视点，我们使用阿尔法混合通过方程16渲染法线图N（p）和曲率图K（p）。

$\begin{aligned} N(u,v) &= \sum_{i=0}^{N-1}G_{i}\alpha_i n_i \prod_{j=0}^{i-1}(1 - G_j\alpha_j) \\ K(u,v) &= \sum_{i=0}^{N-1}G_i\alpha_i K_i \prod_{j=0}^{i-1}(1 - G_j\alpha_j) \end{aligned} \tag{16}$

按块排序和按像素重新排序。在方程16中，通过从近到远对基元进行排序来确定索引i。大多数类似GS的方法按泼溅质心深度而不是射线泼溅交点深度进行排序，正如StopThePop[25]所指出的那样，这会导致爆裂伪影。此外，我们观察到质心排序在几何重建中引入了条纹伪影，如图8所示。为了解决这个问题，我们将StopThePop的按块排序和按像素重新排序[25]应用于我们的QGS。简而言之，我们首先计算每个图块中最接近二次中心的射线，以估计粗略排序的交点深度。在体积渲染过程中，我们使用缓冲区阵列根据每个像素的交点深度进行局部重排序二次曲面。补充材料中提供了更多详细信息。

优化

对于具有更强几何拟合能力的QGS，仅依赖光度一致性误差可能会引入几何噪声，如不光滑的曲面。因此，我们采用2DGS[12]提出的深度失真损失和法线一致性损失来缓解这种情况。

深度失真。我们使用深度失真损失来促进二次曲面的更紧密对齐。

$\mathcal{L}_d = \sum_{i=0}^{N-1}\sum_{j=0}^{i-1}w_iw_j(t_i - t_j)^2 \tag{17}$

这里， $w_i = \bar{\alpha}_iT_i$ 表示第i高斯的alpha混合权重，以及 $t_i$ 表示射线泼溅交点的深度。 i,j表示对射线有贡献的高斯。此外，遵循GOF的建议，我们通过 $w_i$ 冻结深度失真损失梯度，仅优化深度 $t_i$ 。
法线一致性。 2DGS引入法线一致性损失来确保射线上的所有基元与真实曲面局部对齐。

$\mathcal{L}_n = \sum_i w_i(1 - n_i^T N) \tag{18}$

这里， $n_i$ 表示面向相机的泼溅法线，而N是通过将深度点p与相邻像素区分开来计算的。

$N(u,v) = \frac{\triangledown_u P \times \triangledown_v P}{|\triangledown_u p \times \triangledown_v p|} \tag{19}$

然而，相邻像素可能不满足局部平面假设，特别是在深度变化显著的区域。在边缘区域使用微分法线一致性损失可能会引入误差，导致2DGS中观察到的过度平滑。PGSR[4]和MVGsplating[19]都注意到了这个问题，并使用图像边缘来近似几何边缘，在这些边缘应用额外的处理。我们发现，在大多数场景中，图像边缘并不完全对应于几何边缘，尤其是在均匀照明的区域。因此，我们利用曲率图来指导法线监督，曲率图更准确地对应于几何边缘，并且由QGS高效且唯一地生成。

$\begin{aligned} \lambda_K(K(u,v)) = 1 - sigmoid(ln(|K(u,v))| + \epsilon) \\ \mathcal{L}_{Kn}(u,v) = \lambda_K(K(u,v))\mathcal{L}_n(u,v) \end{aligned} \tag{20}$