An Easy Guide to Gauge Equivariant Convolutional Networks
几何深度学习无疑是一个极具创新性的新兴领域,在代数拓扑和理论物理等学科中其数学基础正在逐步深入。其中一篇论文尤其值得关注(https://arxiv.org/abs/1902.04615), 我对这篇论文持有浓厚的兴趣,并计划深入探讨其内容。我对规范场论的语言充满敬意,在物理学中任何愿意同时使用"量子"与"场"两个关键词的地方都会感到特别亲切——这可能就是为什么这篇综述文章能够如此详尽地阐述这一领域的基本概念所在的原因所在吧?据我所知,在此方向上发表过最详尽、最全面的综述文章中, 这篇文章可能仍然是最引人入胜且易于理解的作品之一——尽管如此, 但它依然是一项具有挑战性的课题。
我的目标是呈现一种纯粹直观的理解方式,无需涉及数学知识.尽管我没有严格按照纸张的组织方式排列内容,请放心地并排翻开纸张阅读吧!因为我会特别强调所有关键术语.
在此背景下,请基于你已了解卷积神经网络(CNN)的工作原理,并探讨它们与流形之间的潜在联系。请让我们共同开启探索之旅吧!

Manifolds
"manifold"是一个相对简单的概念。 您所见的每一个二维曲面都可以被视为一个"manifolds"实例。 球面、立方体以及其他类似形状的曲面都是典型的manifolds。 但是需要注意的是,并非仅限于二维空间;实际上,它甚至涵盖了难以想象的高维空间。 曲线属于manifolds家族中的一员。 四维时空流形展示了丰富的几何特性。 但为了简化讨论,在本节中我们主要关注二维流形及其相关的操作。
比如说,在预测天气方面,我们可以采用CNN技术。对于任何一个国家而言,在利用当地气象数据作为输入的同时,并结合预训练好的Keras模型进行分析。如果我们想要对整个地球范围内的天气情况进行分类怎么办?如何将这一目标融入单个图像中?也许:

然而存在一个问题。实际上左右两侧处于同一位置。顶部边缘对应一个点而底部边缘也是一样。整体上边缘区域出现扭曲现象曾经尝试过将乒乓球压扁但结果并不理想当我们试图应用卷积操作时却得到了意想不到的结果这些不符合现实的情况可能出现在边缘区域它能够预测图像最右侧强烈的风向但却无法解释左侧同样位置的现象这是因为CNN未能意识到地球是环绕的
或者,在地球表面构建多个相互叠加的地图,并具备操作这些地图所需功能的CNN(卷积神经网络)。这些地图的集合被称为地图集。通过将卷积神经网络应用到每个单独的地图上,在它们重叠的区域连续处理数据,在下一个重叠区域继续处理。这样系统应当能够推断出地球是一个球体。这是几何深度学习的核心理念:直接将深度学习应用于曲面或流形以保持其几何结构。然而,这个方法仍然面临一个巨大的挑战。
Let’s go to Singapore!
现在,请无视短暂的天气变化并取出罗盘。如果你位于新加坡,在转向北方时,请在泰国、中国、蒙古国境内穿越后抵达北极地区,并保持航向不变继续前行——在加拿大和美国境内穿行……最终抵达中美洲的一个位置停下下来开始在太平洋中开始游泳……数百万圈后应能回到原出发点。(为什么你在不断前行而不转向南方?)
让我们再来一遍吧!不过这次北极 reachable的时候我们会左拐。最终在尼日拉附近会开始倒退行走,并且方向不会再有变化。一抵达新加坡后……这有点奇怪哦!别信我的胡说八道!自己去试试看吧!只需要一支指南针就能开始这项活动。
该问题源于球体的曲率特性。我们将这一现象定义为“沿着路径保持方向不变的方式”称为平行传输。观察者发现,在球体上进行平行传输确实依赖于所选择的路径。然而,在平面上的情况则完全不同。当返回原点时,在平面上你可以在任何路径上保持方向不变,并且最终方向与出发时一致。因此得出结论:平面具有可并行化的能力(即在闭合回路中方向向量保持平行),而球面不具备这一特性。
从球面视角来看,在我们当前的CNN架构中存在一个挑战。当我们尝试将CNN以不同的方式映射到各个地图时,可能会导致方向上的变化。为了解决这一问题,我们需要找到一种方法来确保这种异常不会干扰我们的结果;或者至少我们应当掌握应对策略。
Hairy, Hairy Balls
在寻求解决方案之前,我们有必要引入更多的数学概念。指南针类似于一个指向北方的三维矢量,在飞机上使用时具有特定的方向性特征。当指南针旋转时所形成的平面与地球表面相切,并被称为该处的切线空间。尽管地球是一个球体,在局部观察下其切线空间仍然是平坦的。其效果类似于一个局部坐标系,在此系统中北向和东向分别作为基向量发挥作用。由于我们在地球上任何位置都可以放置指南针,并且每个位置都有自己的切线空间;同时我们还可以选择特定的角度(如40°和130°)作为我们的坐标轴方向来描述这一现象
现在,请我们在切线空间中任意选取一个方向。
沿选定的方向微小移动一步。
保证沿着测地线进行移动,并抵达一个新的点位置。
我们可以将其视为前进的过程。
为了制造一些混乱感…
将这个过程称为指数映射(因为所有这些微小步骤神奇地类似于指数函数的系列扩展… 现在这并不重要)。
请再次观察我们的罗盘。罗盘赋予地球上的任何一点一个切线矢量的事实被称为(切线)矢量场。风自然构成一个矢量场因为它为每个点指定方向。为了避免混淆我们在磁极附近我们特别标记了这个异常现象因为当您直接站在磁北或磁南时您会发现罗盘出现故障实际上对于球体上所有连续的非零向量场都存在矛盾也就是说在这种情况下没有可能构造出一个连续的非零向量场以满足磁场的条件因此在球体表面必须存在至少两个极点这种现象被称为毛球定理(Hairy Ball Theorem)因为它类似于无法用毛发覆盖整个球体而不出现旋涡

矢量场无需与切线空间保持相同的维度;相比之下,则可以在每个点独立地拥有任意维度的向量空间。这种特性至关重要,因为我们希望能够在地球上的每个点分配3维或99维矢量而不是仅仅依赖于二维方向。在该场中任何一点处所对应的向量空间也被称作纤维(fibre)。
在物理学中存在一种特殊的物理场类型称为标量场。其显著特征仅具有一维性质,在这种情况下温度可被视为这种标量场的一个实例。
Gauge
全球范围内采用不同的温标体系。其中,在欧洲国家如德国等地区普遍采用摄氏温标(Celsius),而美国等地区则采用华氏温标(Fahrenheit)。这种区别的选择被称为量测基准(或量规),这一术语源自于测量工具的发展历史。当我在阅读国外天气预报时(尤其是在美国),我必须将华氏温度转换为摄氏温度才能更好地理解其数值含义(因为这些地区的气象报道多以不同的温标体系呈现)。同样地,在全球范围内存在多种参考标准(或基准系统),它们各自适用于特定的应用场景或地理区域。为了实现不同温标之间的相互转换关系(即规范变换),我们需要应用相应的数学公式来进行换算操作。(注:尽管具体的数值并未发生变化)
如果我们观察矢量场及其特性如风向等现象,则会发现情况变得更为复杂。为了实现对极限状态的准确描述与分析,请设想一些特殊的地理区域如Gaugeland国家。这一虚构区域虽然不将其南北方向作为主要关注点,并且独立建立了基于星座或北极星导向的方向系统(类似于"刺猬恐惧时"的方向认知模式)。当这些区域的描述者讨论风向时,则需要通过特定的坐标转换操作来实现对相应方向的理解与统一表述。在此背景下,在数学中规范变换被被视为一种可逆矩阵运算(即该运算需能够双向实现)。而由所有满足条件的这类矩阵所组成的集合则被称为一般线性群,在数学中通常记作GL(n)
在理论上设想的扁平地球中,在其上所进行的大规模气象观察活动往往能够实现全空间范围内的同步更新与数据共享机制建设。然而,在特定领域的气象服务需求却呈现出一种特殊的分布特征,在这种情况下难以构建单一覆盖全区域范围的气象站网络系统;而不得不依靠多种气象站分布模式以及地理地图作为支撑才能满足实际应用需求;基于当前关于球面上并行计算面临的挑战以及著名的"毛发定理"所揭示的关键技术障碍性限制因素分析结果表明,在这种情况下应该形成相应的理解基础,并且能够基于这些理论分析结果形成相应的解决方案思路框架
这自然要求我们采用多个风图。然而,在Gaugeland中禁止所有的shaaniganz,并规定他们的矢量(风速)幅度必须与我们的相同。我们仅允许他们采用不同的方向。因此,在这种情况下,每个规格变换都简化为一个旋转。这些变换构成了一个集合——称为特殊正交群SO(n),它是GL(n)的一个子群。通过选择不同的结构群,则可以有效减少规范理论中允许进行的变化类型。
Back to Deep Learning
让我们回到最初的问题,在这一过程中,'风'被视为输入特征,在这一过程中,我们将'小补丁'作为局部区域,并对其执行卷积操作,以便从'风'的数据中提取出相关特征。(值得注意的是,在气象学领域中尚不清楚这种方法的具体应用前景……而将输出向量映射到另一个空间的过程……这也是我们需要深入探讨的核心内容)
然而,“粗略描述”的定义往往不够明确。在平面几何中这一概念具有直观且直接的意义——我们能够在补丁中心周围放置一些球体内的所有元素。这种定义同样地,在完美球体的情形下也是适用的——只是当考虑到不同情况下时,“任意多方面”的复杂性使得情况变得更加复杂。观察这个引人注目的流形:

我们通常称它为Klein瓶,在几何学中研究时会发现点之间的原始距离存在…问题。在深度学习的应用中,我们可能永远不会需要用到Klein瓶来解决特定问题;但仍在努力追求最大的通用性。
我们需要的是在拓扑学视角下, 仅考虑位于流形邻近区域的点的方法。通过适当的方法设计和实现, 我们确实能够达到这一目标。考虑到我们在流形上采用指数图进行微小步进以定位邻近点, 让我们具体实施这一策略。从中心位置出发, 我们将所有允许的方向纳入我们的卷积运算, 这样就可以确保所涉及的点都位于局部范围内。
我们需要一些与卷积相关的函数。为此目的,在每个指针处分配了一个矩阵。
这个现象确实有些令人费解。
但是经典二维卷积通常表现出类似的行为。
在研究过程中,在线性代数框架下将该矩阵与输入矢量进行运算从而生成对应的输出矢量。在这一过程中,在研究过程中,在线性代数框架下将该矩阵与输入矢量进行运算从而生成对应的输出矢量。在这里,在研究过程中,在线性代数框架下将该矩阵与输入矢量进行运算从而生成对应的输出矢量。在这里,在研究过程中,在线性代数框架下将该矩阵与输入矢量进行运算从而生成对应的输出矢量。在这个阶段上,在线性代数框架下将该矩阵与输入向量进行操作会产生特定的结果。在这个阶段上,在线性代数框架下将该矩阵与输入向量进行操作会产生特定的结果。在这个阶段上,在线性代数框架下将该矩阵与输入向量进行操作会产生特定的结果。这个过程涉及到对特定区域的分析和计算。这个过程涉及到对特定区域的分析和计算。这个过程涉及到对特定区域的分析和计算. 在二维空间中这是一个相对简单的问题. 在二维空间中这是一个相对简单的问题. 在二维空间中这是一个相对简单的问题. 但在实际应用中由于场的复杂性和多样性需要考虑更多因素. 但在实际应用中由于场的复杂性和多样性需要考虑更多因素. 但在实际应用中由于场的复杂性和多样性需要考虑更多因素. 因此需要开发更加灵活的方法来处理这些情况. 因此需要开发更加灵活的方法来处理这些情况. 因此需要开发更加灵活的方法来处理这些情况.
请求我们团队寻求这一问题的解决方案,并将这些点上的向量传递回我们的核心区域。在此处,我们可以方便地应用我们的矩阵而不必担心遇到奇异的曲率情况。
Gauge Equivariance
经研究发现目前所定义的卷积具有显著价值。通过采用自定义核函数的方法我们可以成功地提取出数据特征进而准确预测出龙卷风转向方向。然而在对比过程中发现当前方法所得出的结果与Gaugeland模型存在差异。值得注意的是其他研究者则基于不同理论基础提出了另一种观点认为龙卷风转向可能与刺猬左翼政党有关。
确认一下:我们计划评估如何将他们的成果整合到我们的框架中(包括aaa和voila)。尽管他们预测龙卷风会转向西方……但实际情况并非如此。
发生了什么?我们的卷积规范尚未实现统一。简单来说,在这种情况下, 内核的结果必须依赖于所选择的规格设定, 并且经过等价变换才能相互关联或相互比较。如果没有恰当的规格设定进行等价变换的话, 我们只会得到无法相互关联或相互比较的奇怪结果。
但是,在考虑输出矢量可能属于不同维度或与输入具有不同解释的情况下
有了表示的概念,在适当的意义下我们可以让卷积范数变得一致。具体来说,我们只需要确保在输入矢量发生规范变换时(即其大小按某种方式变化),其对应的输出矢量也会发生相应的等变变换(亦即同一类型的变换,在适当的表示下)。
现在,在采用规范等效的方法时,在不同地图上实施卷积运算会得到各自独特的结果;然而这些结果对特定的地图而言都是具有意义的;这也是我们定义卷积以使其在整个范围内具有意义的最佳方法。
Icosahedron?
在论文第二部分中,我们已经基本完成了全部内容的覆盖. 研究人员接下来将研究二十面体结构,在其拓扑属性上与球体高度相似的情况下表现出更优性能. 相较于球体而言,在离散二十面体顶点时具有更高的效率和精度.
类似我们在地球表面绘制地图时所采用的方法, 我们现在在二十面体表面应用了五个相互叠加的区域, 使用小号纯白色三角形标记重叠区域

地图不仅美观而且精确,在细节上毫无二致。正是由于这种独特性, 所以他们选择了这种布局方案。我们也可以将之视为一个图表的形式来理解它。请注意,在这个歧管上的每个交叉点都带有输入特征向量的信息(在图中无法直接观察到)。每一个小三角形都由三个角组成, 每个角都是这些节点中的一个, 他们是我们在研究中的重点对象。
So, let’s do convolution!
为了更好地了解我们的指数地图,请注意以下内容:
实际上,在该离散结构中完成这一目标是相对直接的。
我们只需要从每个节点出发,并选择任意一个方向移动一步即可。
方向一词表示为图中的边。
因此,在大多数情况下(即非边缘情况),每个节点都有六个相邻节点;而在二十面体的顶点处,则仅有五个相邻节点。
为构建有效的特征提取器,我们需要设计一个合适的内核函数。然而,出于效率考虑,我们希望避免复杂的自定义开发过程。因此,在现有技术库中选择标准的二维卷积操作较为合适。具体而言,在3x3采样窗口中包含一个中心像素及其8个相邻像素。然而,在实际需求中我们只需关注6个特定邻居关系(即忽略右上角和左下角的位置),其余部分则不予考虑。
最终目标是规范化处理二十面体的结构组。我们对二十面体的结构组进行了考察,并意识到,在这种结构中只能存在6个独特的方向。在该结构模型中对风进行描述时,则仅有这有限数量的方向可用——这等价于一个具有六阶对称性的循环群。
最后,在介绍我们的地图时指出其存在重叠。从而,在考虑移动卷积滤波器至有重叠区域的问题时,在处理这些关键参数时主要依赖于来自不同映射的结果。在应用这些参数之前,在完成相关计算后会测量其对应正确的帧位置。最后,在应用完所有参数后会完成整个卷积过程
Conclusion
从个人角度来看,在该研究中作者为几何深度学习领域贡献了基础性成果。 在卷积操作中掌握其整体思路并认识其实质意义是研究的核心内容。
我希望我的非技术性解释能够帮助读者更好地理解论文中提出的核心思想。 如果你对这类主题感到好奇并且渴望深入探讨其中的严谨数学内容,则不妨参考Nakahara的经典著作《几何、拓扑与物理》一书以获取详尽的知识资源。
Author: Michael Kissner, translated by Mr. Adam坤.
