pointnet++网络结构图（point network网络）

题目：GASA-UNet: Global Axial Self-Attention U-Net for 3D Medical Image Segmentation

GASA-UNet：用于3D医学图像分割的全局轴向自注意力U-Net

作者：Chengkun Sun，Russell Stevens Terry，Jiang Bian， Jie Xu

全局轴向自注意力（GASA）块的提出：作者提出了一个创新的3D自注意力块，称为全局轴向自注意力（GASA）块。这个块被设计为利用ViT的全局注意力优势，同时将体素级空间细节纳入3D局部特征中。这是通过在不替换U-Net架构中的编码器和解码器的情况下，作为一个额外的分支集成到U-Net架构中实现的。
改进的视觉Transformer框架：作者的模型在修订的视觉Transformer框架内合并了全局和局部特征，赋予了U-Net模型3D全局轴向自注意力能力，同时参数增加最小。这种设计提高了特征的可辨性，同时保留了U-Net在详细局部特征提取方面的基础优势。
新的补丁生成方法：作者的模型引入了一种新的补丁生成方法，该方法利用三个2D卷积核，通过先进的空间编码改进了语义相似特征的区分。这包括扩展自注意力值的输出，连接通道维度，并使用位置嵌入，从而增强了模型对细微分类和模糊器官边界的处理能力。

在医学成像中，对多个器官进行精确分割以及区分病理组织是至关重要但又具有挑战性的任务，尤其是在对细微分类和模糊器官边界的处理上。为了应对这些挑战，作者介绍了GASA-UNet，这是一个改进的U-Net模型，特点是引入了一个新颖的全局轴向自注意力（GASA）块。该块将图像数据作为3D实体处理，每个2D平面代表不同的解剖横截面。在此空间上下文中定义体素特征，并利用多头自注意力（MHSA）机制对提取的1D补丁进行处理，以促进这些平面之间的连接。将位置嵌入（PE）纳入我们的注意力框架中，为体素特征增加了空间上下文，增强了组织分类和器官边缘勾勒。作者的模型在分割性能上显示出了有希望的改进，特别是在较小的解剖结构上，这一点通过在三个基准数据集，即BTCV、AMOS和KiTS23上的Dice分数和标准化表面Dice（NSD）得到了证明。

作者的GASA-UNet模型建立在流行的U-Net样式的3D编码器-解码器架构之上，通过引入一个新颖的GASA块。

GASA块是作者提出模型的核心组件。它旨在利用ViT的全局注意力优势，同时将体素级空间细节纳入3D局部特征。图2展示了GASA块的示意图。对输入进行沿宽度（W）、高度（H）和深度（D）轴的三个卷积、和，每个卷积生成一个1D补丁。这些生成的补丁随后根据其各自的W、H和D轴顺序连接在一起。具体而言，W轴方向的卷积核大小设置为与全局特征的H × D维度相匹配。相应地，对于H轴方向，卷积核跨越W × D维度，而对于D轴方向，卷积核覆盖W × H维度。生成的补丁总数是W、H和D维度的总和。对于这些2D卷积的输入通道深度与全局特征相同，而输出通道深度是预设的，默认值为25——这一参数将在作者的消融研究中进一步探讨。补丁生成过程的数学表示如下：

/embed>

path data-c="58" d="M42 0H40Q26 0 26 11Q26 15 29 27Q33 41 36 43T55 46Q141 49 190 98Q200 108 306 224T411 342Q302 620 297 625Q288 636 234 637H206Q200 643 200 645T202 664Q206 677 212 683H226Q260 681 347 681Q380 681 408 681T453 682T473 682Q490 682 490 671Q490 670 488 658Q484 643 481 640T465 637Q434 634 411 620L488 426L541 485Q646 598 646 610Q646 628 622 635Q617 635 609 637Q594 637 594 648Q594 650 596 664Q600 677 606 683H618Q619 683 643 683T697 681T738 680Q828 680 837 683H845Q852 676 852 672Q850 647 840 637H824Q790 636 763 628T722 611T698 593L687 584Q687 585 592 480L505 384Q505 383 536 304T601 142T638 56Q648 47 699 46Q734 46 734 37Q734 35 732 23Q728 7 725 4T711 1Q708 1 678 1T589 2Q528 2 496 2T461 1Q444 1 444 10Q444 11 446 25Q448 35 450 39T455 44T464 46T480 47T506 54Q523 62 523 64Q522 64 476 181L429 299Q241 95 236 84Q232 76 232 72Q232 53 261 47Q262 47 267 47T273 46Q276 46 277 46T280 45T283 42T284 35Q284 26 282 19Q279 6 276 4T261 1Q258 1 243 1T201 2T142 2Q64 2 42 0Z">

/path>

g data-mml-node="mi">

/g>

g data-mml-node="mi" transform="translate(642, -150) scale(0.707)">

/g>

g data-mml-node="mi">

/g>

g data-mml-node="mi" transform="translate(642, -150) scale(0.707)">

/g>

g data-mml-node="mi">

/g>

g data-mml-node="mi" transform="translate(642, -150) scale(0.707)">

/g>

path data-c="50" d="M287 628Q287 635 230 637Q206 637 199 638T192 648Q192 649 194 659Q200 679 203 681T397 683Q587 682 600 680Q664 669 707 631T751 530Q751 453 685 389Q616 321 507 303Q500 302 402 301H307L277 182Q247 66 247 59Q247 55 248 54T255 50T272 48T305 46H336Q342 37 342 35Q342 19 335 5Q330 0 319 0Q316 0 282 1T182 2Q120 2 87 2T51 1Q33 1 33 11Q33 13 36 25Q40 41 44 43T67 46Q94 46 127 49Q141 52 146 61Q149 65 218 339T287 628ZM645 554Q645 567 643 575T634 597T609 619T560 635Q553 636 480 637Q463 637 445 637T416 636T404 636Q391 635 386 627Q384 621 367 550T332 412T314 344Q314 342 395 342H407H430Q542 342 590 392Q617 419 631 471T645 554Z">

/path>

path data-c="77" d="M580 385Q580 406 599 424T641 443Q659 443 674 425T690 368Q690 339 671 253Q656 197 644 161T609 80T554 12T482 -11Q438 -11 404 5T355 48Q354 47 352 44Q311 -11 252 -11Q226 -11 202 -5T155 14T118 53T104 116Q104 170 138 262T173 379Q173 380 173 381Q173 390 173 393T169 400T158 404H154Q131 404 112 385T82 344T65 302T57 280Q55 278 41 278H27Q21 284 21 287Q21 293 29 315T52 366T96 418T161 441Q204 441 227 416T250 358Q250 340 217 250T184 111Q184 65 205 46T258 26Q301 26 334 87L339 96V119Q339 122 339 128T340 136T341 143T342 152T345 165T348 182T354 206T362 238T373 281Q402 395 406 404Q419 431 449 431Q468 431 475 421T483 402Q483 389 454 274T422 142Q420 131 420 107V100Q420 85 423 71T442 42T487 26Q558 26 600 148Q609 171 620 213T632 273Q632 306 619 325T593 357T580 385Z">

/path>

path data-c="68" d="M137 683Q138 683 209 688T282 694Q294 694 294 685Q294 674 258 534Q220 386 220 383Q220 381 227 388Q288 442 357 442Q411 442 444 415T478 336Q478 285 440 178T402 50Q403 36 407 31T422 26Q450 26 474 56T513 138Q516 149 519 151T535 153Q555 153 555 145Q555 144 551 130Q535 71 500 33Q466 -10 419 -10H414Q367 -10 346 17T325 74Q325 90 361 192T398 345Q398 404 354 404H349Q266 404 205 306L198 293L164 158Q132 28 127 16Q114 -11 83 -11Q69 -11 59 -2T48 16Q48 30 121 320L195 616Q195 629 188 632T149 637H128Q122 643 122 645T124 664Q129 683 137 683Z">

/path>

path data-c="64" d="M366 683Q367 683 438 688T511 694Q523 694 523 686Q523 679 450 384T375 83T374 68Q374 26 402 26Q411 27 422 35Q443 55 463 131Q469 151 473 152Q475 153 483 153H487H491Q506 153 506 145Q506 140 503 129Q490 79 473 48T445 8T417 -8Q409 -10 393 -10Q359 -10 336 5T306 36L300 51Q299 52 296 50Q294 48 292 46Q233 -10 172 -10Q117 -10 75 30T33 157Q33 205 53 255T101 341Q148 398 195 420T280 442Q336 442 364 400Q369 394 369 396Q370 400 396 505T424 616Q424 629 417 632T378 637H357Q351 643 351 645T353 664Q358 683 366 683ZM352 326Q329 405 277 405Q242 405 210 374T160 293Q131 214 119 129Q119 126 119 118T118 106Q118 61 136 44T179 26Q233 26 290 98L298 109L352 326Z">

/path>

表示沿W轴、H轴和D轴的切片数量。补丁生成后，这些补丁直接输入到MHSA块中以计算GASA注意力值。这个特定的MHSA块是从ViT架构中改编而来，但通过省略通常包含的MLP层来简化结构。该块内的注意力机制处理输入补丁，使模型能够专注于图像的不同部分并提取相关特征。GASA注意力值的计算公式如下：

其中、和分别对应查询、键和值。表示键的维度。值得注意的是，整个过程中输出注意力的维度保持一致。随后，每个轴向注意力输出被扩展为2D特征，与生成它的卷积方向对齐。具体而言，W轴注意力被重塑为输入特征的H × D维度，而H和D轴的注意力分别匹配W × D和W × H维度。这些轴向特征随后沿通道维度连接，使输出维度相比于MHSA输出增加三倍。一个可学习的1D绝对位置嵌入被集成到GASA输出的每个体素中，为特征嵌入全面的全局信息。最后，这些GASA特征与初始全局特征在通道方向上合并，然后送入基于CNN的解码器，如图2所示。

GASA块位于编码器的末尾和3D CNN解码器的开头，是U-Net样式骨架的关键补充，促进了轴向注意力。它通过处理特征空间的W、H和D方向的切片，将3D空间位置信息编码到特征表示中。这使得在三个维度中提取轴向注意力成为可能。作者的损失函数是软Dice损失和鲁棒交叉熵损失的组合，来自nnUNet，每个损失的权重为1。损失函数的公式如下：

其中表示体素的总数，表示不同类别的数量。、分别表示第类和第个体素的独热编码标签和预测概率。

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

到此这篇pointnet++网络结构图（point network网络）的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章，希望大家都能在编程的领域有一番成就！

上一篇： airplay2（airplay2怎么连接音响）

下一篇： rmsprop和adam区别（arom和prom不同的原因）

版权声明：
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符，请将相关资料发送至xkadmin@xkablog.com进行投诉反馈，一经查实，立即处理！

转载请注明出处，原文链接：https://www.xkablog.com/rfx/34376.html

题目：GASA-UNet: Global Axial Self-Attention U-Net for 3D Medical Image Segmentation

GASA-UNet：用于3D医学图像分割的全局轴向自注意力U-Net

作者：Chengkun Sun，Russell Stevens Terry，Jiang Bian， Jie Xu

相关文章：