Un deux - Jiaxing RELAIS Inc.

Rapports scientifiques volume 13, Numéro d'article : 12846 (2023) Citer cet article

268 accès

2 Altmétrique

Détails des métriques

Ce travail proposait KidneyRegNet, un nouveau pipeline d'enregistrement profond pour les analyses rénales 3D CT et 2D U/S de la respiration libre, qui comprend un réseau de fonctionnalités et un réseau d'enregistrement 3D-2D basé sur CNN. Le réseau de fonctionnalités comporte des couches de fonctionnalités de texture fabriquées à la main pour réduire le fossé sémantique. Le réseau d'enregistrement est une structure codeur-décodeur avec perte de mouvement d'image caractéristique (FIM), qui permet une régression hiérarchique au niveau des couches de décodeur et évite la concaténation de plusieurs réseaux. Il a d'abord été pré-entraîné avec une stratégie de génération de données d'ensemble de données rétrospectives et de formation, puis adapté à des données de patients spécifiques dans le cadre d'un apprentissage par transfert non supervisé en un cycle dans des applications sur site. L’expérience a été réalisée sur 132 séquences U/S, 39 images CT multiphasées et 210 images CT publiques monophasées, et 25 paires de séquences CT et U/S. Cela a abouti à une distance moyenne de contour (MCD) de 0,94 mm entre les reins sur les images CT et U/S et une MCD de 1,15 mm sur les images CT et CT de référence. Les ensembles de données avec de petites transformations ont donné lieu à des MCD de 0,82 et 1,02 mm, respectivement. Des transformations importantes ont abouti à des MCD de 1,10 et 1,28 mm, respectivement. Ce travail a abordé les difficultés liées à l'enregistrement des reins 3DCT-2DUS pendant la respiration libre via de nouvelles structures de réseau et stratégies de formation.

L'enregistrement d'images médicales est un processus qui aligne une image sur une autre provenant de la même modalité ou d'une modalité différente. Cette image alignée contient davantage d’informations spatio-temporelles, ce qui est important pour des applications telles que la chirurgie guidée par l’image1, la surveillance des maladies2 et la prévision des risques3. L'enregistrement entre images de même modalité est un enregistrement monomodal, et l'enregistrement entre images de modalités différentes est un enregistrement multimodal. Différentes techniques d’imagerie sont sensibles à différents tissus du corps. Par conséquent, les images de différentes modalités doivent être enregistrées les unes avec les autres pour fournir des informations complémentaires. Cependant, ceci est difficile en raison de la relation complexe entre les intensités des structures correspondantes dans les deux images. Les images échographiques (U/S) sont particulièrement difficiles en raison de leur grand mouvement, de leur petit champ de vision et de leur faible qualité de numérisation. Néanmoins, un enregistrement 3D-2D est nécessaire. Le potentiel de l’apprentissage profond sur ces questions n’a pas été pleinement exploité4. Dans ce travail, nous avons proposé une méthode d'apprentissage profond en deux étapes pour aborder l'enregistrement des reins par tomodensitométrie (TDM) 3D et par échographie 2D (3DCT-2DUS).

Les méthodes de pointe (SOTA)5 peuvent être classées en enregistrement supervisé, faiblement supervisé et non supervisé, selon la stratégie d'apprentissage ou l'enregistrement d'images basé sur un réseau neuronal convolutif (CNN), basé sur un réseau contradictoire profond et basé sur un transformateur, selon l’architecture réseau de base. L'enregistrement supervisé 6 est entraîné à prédire la transformation en utilisant des images et leurs transformations de vérité terrain. L'enregistrement faiblement supervisé7,8,9 utilise des segmentations superposées de structures anatomiques comme fonction de perte, ce qui réduit les limites associées aux données de vérité terrain. L'enregistrement non supervisé10,11,12,13,14,15 est formé en minimisant une mesure de dissimilarité étant donné un ensemble d'images et ne nécessite pas de transformations de vérité terrain. L'enregistrement d'images basé sur CNN16,17 entraîne une architecture CNN conçue et apprend le mappage entre les images d'entrée et les champs de déformation. L’enregistrement d’images contradictoires en profondeur18,19 se compose d’un réseau générateur et d’un réseau discriminateur. Le réseau générateur est formé pour générer des transformations et le réseau discriminateur apprend la métrique de similarité pour garantir que les transformations générées sont réalistes ou que les images d'entrée sont bien enregistrées. L'enregistrement basé sur Vision Transformer (ViT)20,21,22,23,24 apprend les relations inhérentes entre les données grâce au mécanisme d'attention. Notre solution est l’enregistrement non supervisé basé sur CNN. Nous appelons l'inscription un apprentissage non supervisé car le sous-réseau d'inscription est soumis à une formation non supervisée. Les sous-réseaux de fonctionnalités sont formés séparément et non spécifiquement pour la tâche d'enregistrement. Ce sont des extracteurs de fonctionnalités indépendants, et les fonctionnalités universelles sont également applicables à notre solution.