Głębokie uczenie się do oceny jakości obrazu w angiografii optycznej tomografii koherentnej

Dziękujemy za odwiedzenie Nature.com.Używasz wersji przeglądarki z ograniczoną obsługą CSS.Aby uzyskać najlepszą jakość, zalecamy użycie zaktualizowanej przeglądarki (lub wyłączenie trybu zgodności w przeglądarce Internet Explorer).Ponadto, aby zapewnić ciągłość wsparcia, wyświetlamy witrynę bez stylów i JavaScript.
Suwaki pokazujące trzy artykuły na slajd.Użyj przycisków Wstecz i Dalej, aby poruszać się po slajdach, lub przycisków kontrolera slajdów na końcu, aby poruszać się po poszczególnych slajdach.
Optyczna koherentna angiografia tomograficzna (OCTA) to nowa metoda nieinwazyjnej wizualizacji naczyń siatkówki.Chociaż OCTA ma wiele obiecujących zastosowań klinicznych, określenie jakości obrazu pozostaje wyzwaniem.Opracowaliśmy system oparty na głębokim uczeniu się, wykorzystujący klasyfikator sieci neuronowej ResNet152 wstępnie przeszkolony za pomocą ImageNet do klasyfikowania obrazów powierzchniowych splotów włośniczkowych z 347 skanów 134 pacjentów.Obrazy zostały również ręcznie ocenione jako prawdziwe przez dwóch niezależnych oceniających w ramach modelu uczenia się pod nadzorem.Ponieważ wymagania dotyczące jakości obrazu mogą się różnić w zależności od warunków klinicznych lub badawczych, przeszkolono dwa modele, jeden do rozpoznawania obrazów o wysokiej jakości, a drugi do rozpoznawania obrazów o niskiej jakości.Nasz model sieci neuronowej wykazuje doskonałe pole pod krzywą (AUC), 95% CI 0,96-0,99, \(\kappa\) = 0,81), które jest znacznie lepsze niż poziom sygnału zgłaszany przez maszynę (AUC = 0,82, 95 % CI).0,77–0,86, \(\kappa\) = 0,52 i AUC = 0,78, 95% CI 0,73–0,83, \(\kappa\) = 0,27, odpowiednio).Nasze badanie pokazuje, że metody uczenia maszynowego można wykorzystać do opracowania elastycznych i niezawodnych metod kontroli jakości obrazów OCTA.
Optyczna koherentna tomografia komputerowa (OCTA) to stosunkowo nowa technika oparta na optycznej tomografii koherentnej (OCT), która może być stosowana do nieinwazyjnej wizualizacji naczyń mikrokrążenia siatkówki.OCTA mierzy różnicę we wzorach odbić powtarzających się impulsów świetlnych w tym samym obszarze siatkówki, a następnie można obliczyć rekonstrukcje w celu uwidocznienia naczyń krwionośnych bez inwazyjnego użycia barwników lub innych środków kontrastowych.OCTA umożliwia również obrazowanie naczyń z dużą rozdzielczością, umożliwiając lekarzom oddzielne badanie powierzchownych i głębokich warstw naczyń, co pomaga w różnicowaniu chorób naczyniowo-siatkówkowych.
Chociaż technika ta jest obiecująca, zróżnicowanie jakości obrazu pozostaje głównym wyzwaniem dla wiarygodnej analizy obrazu, utrudniając interpretację obrazu i uniemożliwiając powszechne zastosowanie kliniczne.Ponieważ OCTA wykorzystuje wiele kolejnych skanów OCT, jest bardziej wrażliwa na artefakty obrazu niż standardowe OCT.Większość komercyjnych platform OCTA zapewnia własną metrykę jakości obrazu zwaną siłą sygnału (SS) lub czasami indeksem siły sygnału (SSI).Jednakże obrazy o wysokiej wartości SS lub SSI nie gwarantują braku artefaktów obrazu, które mogą mieć wpływ na późniejszą analizę obrazu i prowadzić do błędnych decyzji klinicznych.Typowe artefakty obrazu, które mogą wystąpić w obrazowaniu OCTA, obejmują artefakty ruchu, artefakty segmentacji, artefakty zmętnienia mediów i artefakty projekcji1,2,3.
Ponieważ miary oparte na OCTA, takie jak gęstość naczyń, są coraz częściej stosowane w badaniach translacyjnych, badaniach klinicznych i praktyce klinicznej, istnieje pilna potrzeba opracowania solidnych i niezawodnych procesów kontroli jakości obrazu w celu wyeliminowania artefaktów obrazowych4.Połączenia pomijane, zwane również połączeniami resztkowymi, to projekcje w architekturze sieci neuronowej, które umożliwiają informacjom ominięcie warstw splotowych podczas przechowywania informacji w różnych skalach i rozdzielczości5.Ponieważ artefakty obrazu mogą wpływać na wydajność obrazu w małej skali i ogólnie na dużą skalę, sieci neuronowe z pomijaniem połączeń doskonale nadają się do automatyzacji tego zadania kontroli jakości5.Niedawno opublikowane prace wykazały pewne nadzieje w zakresie głębokich splotowych sieci neuronowych szkolonych przy użyciu wysokiej jakości danych pochodzących z ludzkich estymatorów6.
W tym badaniu szkolimy splotową sieć neuronową z pominięciem połączeń, aby automatycznie określała jakość obrazów OCTA.Opieramy się na wcześniejszych pracach, opracowując oddzielne modele identyfikacji obrazów o wysokiej i niskiej jakości, ponieważ wymagania dotyczące jakości obrazu mogą się różnić w zależności od konkretnych scenariuszy klinicznych lub badawczych.Porównujemy wyniki tych sieci z splotowymi sieciami neuronowymi bez brakujących połączeń, aby ocenić wartość uwzględnienia funkcji na wielu poziomach szczegółowości w ramach głębokiego uczenia się.Następnie porównaliśmy nasze wyniki z siłą sygnału, powszechnie przyjętą miarą jakości obrazu zapewnianą przez producentów.
Do naszego badania włączono pacjentów chorych na cukrzycę, którzy zgłaszali się do Yale Eye Center w okresie od 11 sierpnia 2017 r. do 11 kwietnia 2019 r. Wykluczono pacjentów z jakąkolwiek chorobą naczyniowo-siatkówkową niezwiązaną z cukrzycą.Nie było kryteriów włączenia ani wyłączenia ze względu na wiek, płeć, rasę, jakość obrazu lub jakikolwiek inny czynnik.
Obrazy OCTA uzyskano przy użyciu platformy AngioPlex na aparacie Cirrus HD-OCT 5000 (Carl Zeiss Meditec Inc, Dublin, Kalifornia) w ramach protokołów obrazowania 8\(\times\)8 mm i 6\(\times\)6 mm.Od każdego uczestnika badania uzyskano świadomą zgodę na udział w badaniu, a Komisja Rewizyjna Uniwersytetu Yale (IRB) zatwierdziła stosowanie świadomej zgody w przypadku fotografii globalnej w przypadku wszystkich tych pacjentów.Przestrzeganie zasad Deklaracji Helsińskiej.Badanie zostało zatwierdzone przez IRB Uniwersytetu Yale.
Obrazy płytki powierzchniowej oceniano w oparciu o wcześniej opisaną skalę artefaktów ruchu (MAS), opisaną wcześniej ocenę artefaktów segmentacji (SAS), środek dołka, obecność zmętnienia ośrodka oraz dobrą wizualizację małych naczyń włosowatych, jak stwierdził osoba oceniająca obraz.Obrazy analizowało dwóch niezależnych oceniających (RD i JW).Obraz otrzymuje ocenę 2 (dopuszczalny), jeśli spełnione są wszystkie następujące kryteria: obraz jest wyśrodkowany w dołku (mniej niż 100 pikseli od środka obrazu), MAS wynosi 1 lub 2, SAS wynosi 1 oraz nieprzezroczystość nośnika jest mniejsza niż 1. Występuje na obrazach o rozmiarze / 16, a małe kapilary są widoczne na obrazach większych niż 15/16.Obraz otrzymuje ocenę 0 (brak oceny), jeśli spełnione jest którekolwiek z poniższych kryteriów: obraz jest niecentryczny, jeśli MAS wynosi 4, jeśli SAS wynosi 2 lub średnie krycie jest większe niż 1/4 obrazu oraz małych kapilar nie można regulować więcej niż 1 obraz/4, aby je rozróżnić.Wszystkie pozostałe obrazy, które nie spełniają kryteriów punktacji 0 lub 2, otrzymują ocenę 1 (przycięcie).
Na ryc.1 pokazuje przykładowe obrazy dla każdego ze skalowanych szacunków i artefaktów obrazu.Wiarygodność poszczególnych wyników między oceniającymi oceniano za pomocą wagi kappa Cohena8.Indywidualne wyniki każdego oceniającego są sumowane, aby uzyskać ogólny wynik dla każdego obrazu w zakresie od 0 do 4. Obrazy z łącznym wynikiem 4 są uważane za dobre.Obrazy z łącznym wynikiem 0 lub 1 są uważane za niskiej jakości.
Konwolucyjna sieć neuronowa o architekturze ResNet152 (ryc. 3A.i) wstępnie wytrenowana na obrazach z bazy danych ImageNet została wygenerowana przy użyciu fast.ai i frameworku PyTorch5, 9, 10, 11. Splotowa sieć neuronowa to sieć wykorzystująca wyuczoną wiedzę filtry do skanowania fragmentów obrazu w celu badania cech przestrzennych i lokalnych.Nasz wyszkolony ResNet to 152-warstwowa sieć neuronowa charakteryzująca się przerwami lub „połączeniami resztkowymi”, które jednocześnie przesyłają informacje w wielu rozdzielczościach.Wyświetlając informacje w różnych rozdzielczościach przez sieć, platforma może poznać cechy obrazów o niskiej jakości na wielu poziomach szczegółowości.Oprócz naszego modelu ResNet przeszkoliliśmy także AlexNet, dobrze poznaną architekturę sieci neuronowej, bez brakujących połączeń do porównania (rysunek 3A.ii)12.Bez brakujących połączeń ta sieć nie będzie w stanie przechwytywać funkcji z większą szczegółowością.
Oryginalny zestaw obrazów 8\(\times\)8mm OCTA13 został udoskonalony przy użyciu technik odbicia poziomego i pionowego.Pełny zbiór danych został następnie losowo podzielony na poziomie obrazu na zbiory uczące (51,2%), testowe (12,8%), dostrajanie hiperparametrów (16%) i sprawdzające (20%) zbiory danych przy użyciu zestawu narzędzi scikit-learn python14.Rozważono dwa przypadki, jeden oparty na wykrywaniu tylko obrazów o najwyższej jakości (ogólny wynik 4), a drugi oparty na wykrywaniu tylko obrazów o najniższej jakości (ogólny wynik 0 lub 1).Dla każdego przypadku użycia o wysokiej i niskiej jakości sieć neuronowa jest ponownie szkolona raz na podstawie naszych danych obrazu.W każdym przypadku użycia sieć neuronowa była szkolona przez 10 epok, wszystkie wagi warstw oprócz najwyższych zostały zamrożone, a wagi wszystkich parametrów wewnętrznych poznano dla 40 epok przy użyciu metody dyskryminacyjnej szybkości uczenia się z funkcją utraty entropii krzyżowej 15, 16..Funkcja straty entropii krzyżowej jest miarą logarytmicznej skali rozbieżności między przewidywanymi etykietami sieci a danymi rzeczywistymi.Podczas treningu wykonywane jest opadanie gradientowe na wewnętrznych parametrach sieci neuronowej, aby zminimalizować straty.Szybkość uczenia się, wskaźnik przerywania nauki i hiperparametry redukcji masy ciała dostrojono przy użyciu optymalizacji Bayesa z 2 losowymi punktami początkowymi i 10 iteracjami, a AUC w zestawie danych dostrojono przy użyciu hiperparametrów jako docelowej wartości 17.
Reprezentatywne przykłady obrazów OCTA 8 × 8 mm powierzchownych splotów włośniczkowych uzyskały 2 (A, B), 1 (C, D) i 0 (E, F).Pokazane artefakty obrazu obejmują migoczące linie (strzałki), artefakty segmentacji (gwiazdki) i nieprzezroczystość multimediów (strzałki).Obraz (E) również jest niecentralny.
Następnie generowane są krzywe charakterystyki działania odbiornika (ROC) dla wszystkich modeli sieci neuronowych, a raporty siły sygnału silnika są generowane dla każdego przypadku użycia o niskiej i wysokiej jakości.Pole pod krzywą (AUC) obliczono za pomocą pakietu pROC R, a 95% przedziały ufności i wartości p obliczono za pomocą metody DeLonga18,19.Skumulowane wyniki osób oceniających są wykorzystywane jako punkt odniesienia dla wszystkich obliczeń ROC.Dla siły sygnału zgłaszanej przez urządzenie AUC obliczono dwukrotnie: raz dla wartości odcięcia Wyniku Skalowalności wysokiej jakości i raz dla punktu odcięcia Wyniku Skalowalności niskiej jakości.Sieć neuronową porównuje się z siłą sygnału AUC, odzwierciedlającą jej własne warunki szkolenia i oceny.
Aby dalej testować wytrenowany model głębokiego uczenia się na oddzielnym zbiorze danych, bezpośrednio zastosowano modele wysokiej i niskiej jakości do oceny wydajności 32 pełnych obrazów płyt powierzchniowych o grubości 6\(\times\) 6 mm zebranych na Uniwersytecie Yale.Eye Mass jest wyśrodkowany w tym samym czasie co obraz 8 \(\times \) 8 mm.Obrazy 6\(\×\) 6 mm zostały ręcznie ocenione przez tych samych oceniających (RD i JW) w taki sam sposób, jak obrazy 8\(\×\) 8 mm, obliczono AUC, a także dokładność i kappa Cohena .na równi .
Współczynnik niezrównoważenia klas wynosi 158:189 (\(\rho = 1,19\)) dla modelu niskiej jakości i 80:267 (\(\rho = 3,3\)) dla modelu wysokiej jakości.Ponieważ stosunek nierównowagi klas jest mniejszy niż 1:4, nie wprowadzono żadnych konkretnych zmian w architekturze, aby skorygować nierównowagę klas20,21.
Aby lepiej zwizualizować proces uczenia się, wygenerowano mapy aktywacji klas dla wszystkich czterech wytrenowanych modeli głębokiego uczenia się: wysokiej jakości model ResNet152, niskiej jakości model ResNet152, wysokiej jakości model AlexNet i niskiej jakości model AlexNet.Mapy aktywacji klas są generowane z wejściowych warstw splotowych tych czterech modeli, a mapy cieplne są generowane przez nałożenie map aktywacji na obrazy źródłowe z zestawów walidacyjnych 8 × 8 mm i 6 × 6 mm22, 23.
Do wszystkich obliczeń statystycznych wykorzystano wersję R 4.0.3, a wizualizacje wykonano przy użyciu biblioteki narzędzi graficznych ggplot2.
Zebraliśmy 347 przednich obrazów powierzchownego splotu włośniczkowego o wymiarach 8 \(\times \)8 mm od 134 osób.Maszyna zgłaszała siłę sygnału w skali od 0 do 10 dla wszystkich obrazów (średnia = 6,99 ± 2,29).Spośród 347 uzyskanych obrazów średni wiek w momencie badania wynosił 58,7 ± 14,6 lat, a 39,2% pochodziło od mężczyzn.Spośród wszystkich zdjęć 30,8% pochodziło od rasy kaukaskiej, 32,6% od rasy czarnej, 30,8% od Latynosów, 4% od Azjatów i 1,7% od osób innych ras (Tabela 1).).Rozkład wieku pacjentów poddanych OCTA różnił się istotnie w zależności od jakości obrazu (p < 0,001).Odsetek obrazów wysokiej jakości u młodszych pacjentów w wieku 18–45 lat wyniósł 33,8% w porównaniu do 12,2% obrazów niskiej jakości (tab. 1).Rozkład statusu retinopatii cukrzycowej różnił się także istotnie pod względem jakości obrazu (p < 0,017).Wśród wszystkich obrazów wysokiej jakości odsetek pacjentów z PDR wyniósł 18,8% w porównaniu do 38,8% wszystkich obrazów o niskiej jakości (tab. 1).
Indywidualne oceny wszystkich obrazów wykazały umiarkowaną do silnej wiarygodność ocen między osobami czytającymi obrazy (ważona kappa Cohena = 0,79, 95% CI: 0,76-0,82) i nie było punktów obrazu, w których oceny różniły się o więcej niż 1 (ryc. 2A)..Intensywność sygnału korelowała istotnie z punktacją ręczną (korelacja momentu produktu Pearsona = 0,58, 95% CI 0,51–0,65, p<0,001), ale zidentyfikowano wiele obrazów jako charakteryzujących się dużą intensywnością sygnału, ale niską punktacją ręczną (ryc. 2B).
Podczas uczenia architektur ResNet152 i AlexNet utrata entropii krzyżowej podczas walidacji i uczenia spada na przestrzeni 50 epok (rysunek 3B, C).Dokładność walidacji w końcowej fazie szkolenia wynosi ponad 90% zarówno w przypadku zastosowań o wysokiej, jak i niskiej jakości.
Krzywe wydajności odbiornika pokazują, że model ResNet152 znacznie przewyższa moc sygnału zgłaszaną przez maszynę zarówno w przypadkach użycia o niskiej, jak i wysokiej jakości (p < 0,001).Model ResNet152 również znacząco przewyższa architekturę AlexNet (odpowiednio p = 0,005 i p = 0,014 dla przypadków niskiej i wysokiej jakości).Powstałe modele dla każdego z tych zadań były w stanie osiągnąć wartości AUC odpowiednio 0,99 i 0,97, co jest znacznie lepsze niż odpowiadające im wartości AUC wynoszące 0,82 i 0,78 dla wskaźnika siły sygnału maszynowego lub 0,97 i 0,94 dla AlexNet ..(ryc. 3).Różnica między ResNet i AUC w sile sygnału jest większa w przypadku rozpoznawania obrazów o wysokiej jakości, co wskazuje na dodatkowe korzyści wynikające z wykorzystania ResNet do tego zadania.
Wykresy pokazują zdolność każdego niezależnego oceniającego do oceny i porównania siły sygnału zgłaszanej przez urządzenie.(A) Suma punktów podlegających ocenie służy do obliczenia całkowitej liczby punktów podlegających ocenie.Obrazom o ogólnym wyniku skalowalności wynoszącym 4 przypisywana jest wysoka jakość, natomiast obrazom o ogólnym wyniku skalowalności wynoszącym 1 lub mniej – niska jakość.(B) Intensywność sygnału koreluje z szacunkami ręcznymi, ale obrazy o dużej intensywności sygnału mogą być gorszej jakości.Czerwona przerywana linia wskazuje zalecany przez producenta próg jakości w oparciu o siłę sygnału (siła sygnału \(\ge\)6).
Uczenie się transferu ResNet zapewnia znaczną poprawę identyfikacji jakości obrazu zarówno w przypadku zastosowań o niskiej, jak i wysokiej jakości, w porównaniu z poziomami sygnału zgłaszanymi przez maszynę.(A) Uproszczone diagramy architektury wstępnie wytrenowanych architektur (i) ResNet152 i (ii) AlexNet.(B) Historia treningów i krzywe wydajności odbiornika dla ResNet152 w porównaniu z siłą sygnału raportowaną przez maszynę i kryteriami niskiej jakości AlexNet.(C) Historia treningu odbiornika ResNet152 i krzywe wydajności w porównaniu z siłą sygnału zgłaszaną przez maszynę i kryteriami wysokiej jakości AlexNet.
Po skorygowaniu progu granicy decyzyjnej maksymalna dokładność predykcji modelu ResNet152 wynosi 95,3% dla przypadku o niskiej jakości i 93,5% dla przypadku o wysokiej jakości (tabela 2).Maksymalna dokładność predykcji modelu AlexNet wynosi 91,0% dla przypadku o niskiej jakości i 90,1% dla przypadku o wysokiej jakości (tabela 2).Dokładność przewidywania maksymalnej siły sygnału wynosi 76,1% w przypadku użycia o niskiej jakości i 77,8% w przypadku użycia o wysokiej jakości.Według kappa Cohena (\(\kappa\)) zgodność pomiędzy modelem ResNet152 a estymatorami wynosi 0,90 dla przypadku niskiej jakości i 0,81 dla przypadku wysokiej jakości.Kappa AlexNet Cohena wynosi odpowiednio 0,82 i 0,71 dla przypadków użycia o niskiej i wysokiej jakości.Siła sygnału Cohena kappa wynosi odpowiednio 0,52 i 0,27 dla przypadków użycia o niskiej i wysokiej jakości.
Walidacja modeli rozpoznawania o wysokiej i niskiej jakości na obrazach 6\(\x\) płaskiej płytki o grubości 6 mm pokazuje zdolność wytrenowanego modelu do określania jakości obrazu w oparciu o różne parametry obrazowania.W przypadku stosowania płytkich płytek o grubości 6\(\x\) 6 mm do celów obrazowania, model niskiej jakości miał AUC wynoszący 0,83 (95% CI: 0,69–0,98), a model wysokiej jakości miał AUC wynoszące 0,85.(95% CI: 0,55–1,00) (Tabela 2).
Wizualna kontrola map aktywacji klas warstwy wejściowej wykazała, że ​​wszystkie wytrenowane sieci neuronowe wykorzystywały cechy obrazu podczas klasyfikacji obrazu (ryc. 4A, B).W przypadku obrazów 8 \(\times \) 8 mm i 6 \(\times \) 6 mm obrazy aktywacji ResNet ściśle podążają za układem naczyniowym siatkówki.Mapy aktywacyjne AlexNet również podążają za naczyniami siatkówki, ale z mniejszą rozdzielczością.
Mapy aktywacji klas dla modeli ResNet152 i AlexNet podkreślają funkcje związane z jakością obrazu.(A) Mapa aktywacji klas pokazująca spójną aktywację po powierzchniowym unaczynieniu siatkówki na obrazach walidacyjnych 8 \(\times \) 8 mm i (B) zasięg na mniejszych obrazach walidacyjnych 6 \(\times \) 6 mm.Model LQ wytrenowany na podstawie kryteriów niskiej jakości, model HQ przeszkolony na podstawie kryteriów wysokiej jakości.
Wcześniej wykazano, że jakość obrazu może znacząco wpłynąć na ocenę ilościową obrazów OCTA.Ponadto obecność retinopatii zwiększa częstość występowania artefaktów obrazu7,26.Faktycznie, w naszych danych, zgodnych z wcześniejszymi badaniami, stwierdziliśmy istotny związek pomiędzy wiekiem i stopniem ciężkości choroby siatkówki a pogorszeniem jakości obrazu (p < 0,001, p = 0,017 odpowiednio dla wieku i statusu DR; tabela 1) 27 Dlatego też niezwykle istotna jest ocena jakości obrazu przed wykonaniem jakiejkolwiek analizy ilościowej obrazów OCTA.W większości badań analizujących obrazy OCTA wykorzystuje się progi natężenia sygnału zgłaszane maszynowo, aby wykluczyć obrazy o niskiej jakości.Chociaż wykazano, że intensywność sygnału wpływa na ilościową ocenę parametrów OCTA, sama wysoka intensywność sygnału może nie wystarczyć, aby wykluczyć obrazy zawierające artefakty2,3,28,29.Dlatego konieczne jest opracowanie bardziej niezawodnej metody kontroli jakości obrazu.W tym celu oceniamy skuteczność nadzorowanych metod głębokiego uczenia się w porównaniu z siłą sygnału zgłaszaną przez maszynę.
Opracowaliśmy kilka modeli oceny jakości obrazu, ponieważ różne przypadki użycia OCTA mogą mieć różne wymagania dotyczące jakości obrazu.Na przykład obrazy powinny być wyższej jakości.Ponadto ważne są również konkretne parametry ilościowe będące przedmiotem zainteresowania.Na przykład obszar dołkowej strefy beznaczyniowej nie zależy od zmętnienia ośrodka niecentralnego, ale wpływa na gęstość naczyń.Chociaż nasze badania w dalszym ciągu skupiają się na ogólnym podejściu do jakości obrazu, niezwiązanym z wymaganiami żadnego konkretnego testu, ale mającym na celu bezpośrednie zastąpienie siły sygnału zgłaszanej przez urządzenie, mamy nadzieję zapewnić użytkownikom większy stopień kontroli, aby mogli może wybrać konkretny wskaźnik interesujący użytkownika.wybierz model odpowiadający maksymalnemu stopniowi artefaktów obrazu uznawanych za akceptowalny.
W przypadku scen o niskiej i wysokiej jakości wykazujemy doskonałą wydajność głębokich splotowych sieci neuronowych z brakującymi połączeniami, z AUC odpowiednio 0,97 i 0,99 oraz modelami o niskiej jakości.Wykazujemy również doskonałą wydajność naszego podejścia do głębokiego uczenia się w porównaniu z poziomami sygnału zgłaszanymi tylko przez maszyny.Połączenia pomijane umożliwiają sieciom neuronowym uczenie się funkcji na wielu poziomach szczegółowości, przechwytywanie drobniejszych aspektów obrazów (np. kontrastu), a także cech ogólnych (np. centrowanie obrazu30,31).Ponieważ artefakty obrazu wpływające na jakość obrazu prawdopodobnie najlepiej identyfikuje się w szerokim zakresie, architektury sieci neuronowych z brakującymi połączeniami mogą wykazywać lepszą wydajność niż te, które nie mają zadań określania jakości obrazu.
Testując nasz model na obrazach OCTA 6\(\×6mm) zauważyliśmy spadek wydajności klasyfikacji zarówno dla modeli o wysokiej, jak i niskiej jakości (ryc. 2), w przeciwieństwie do rozmiaru modelu przeszkolonego do klasyfikacji.W porównaniu z modelem ResNet, model AlexNet charakteryzuje się większym spadkiem.Stosunkowo lepsza wydajność ResNet może wynikać ze zdolności pozostałych połączeń do przesyłania informacji w wielu skalach, co czyni model bardziej niezawodnym w przypadku klasyfikacji obrazów zarejestrowanych w różnych skalach i/lub powiększeniach.
Pewne różnice między obrazami 8 \(\×\) 8 mm i 6 \(\×\) 6 mm mogą prowadzić do złej klasyfikacji, w tym stosunkowo wysokiego odsetka obrazów zawierających dołkowe obszary beznaczyniowe, zmiany w widoczności, arkady naczyniowe i brak nerwu wzrokowego na obrazie 6×6 mm.Mimo to nasz wysokiej jakości model ResNet był w stanie osiągnąć AUC na poziomie 85% dla obrazów 6 \(\x\) 6 mm, co stanowi konfigurację, dla której model nie został przeszkolony, co sugeruje, że informacja o jakości obrazu zakodowana w sieci neuronowej jest odpowiedni.dla jednego rozmiaru obrazu lub konfiguracji maszyny poza jej szkoleniem (Tabela 2).Co uspokajające, mapy aktywacji podobne do ResNet i AlexNet, zawierające obrazy 8 \(\times \) 8 mm i 6 \(\times \) 6 mm, były w stanie uwidocznić naczynia siatkówki w obu przypadkach, co sugeruje, że model zawiera ważne informacje.mają zastosowanie do klasyfikacji obu typów obrazów OCTA (ryc. 4).
Lauerman i in.Ocenę jakości obrazu na obrazach OCTA przeprowadzono w podobny sposób przy użyciu architektury Inception, kolejnej splotowej sieci neuronowej z pominięciem połączenia6,32, wykorzystującej techniki głębokiego uczenia się.Ograniczyli także badanie do obrazów powierzchownego splotu włośniczkowego, ale wykorzystując jedynie mniejsze obrazy 3×3 mm z Optovue AngioVue, chociaż włączono także pacjentów z różnymi chorobami naczyniówki i siatkówki.Nasza praca opiera się na ich podstawach, w tym na wielu modelach, które uwzględniają różne progi jakości obrazu i sprawdzają wyniki dla obrazów o różnych rozmiarach.Podajemy również metrykę AUC modeli uczenia maszynowego i zwiększamy ich i tak już imponującą dokładność (90%)6 zarówno w przypadku modeli o niskiej jakości (96%), jak i wysokiej jakości (95,7%)6.
To szkolenie ma kilka ograniczeń.Po pierwsze, obrazy uzyskano za pomocą tylko jednego urządzenia OCTA, włączając tylko obrazy powierzchownego splotu włośniczkowego w odległościach 8\(\times\)8 mm i 6\(\times\)6 mm.Powodem wykluczenia obrazów z głębszych warstw jest to, że artefakty projekcji mogą utrudniać ręczną ocenę obrazów i być może mniej spójną.Co więcej, obrazy uzyskano jedynie u pacjentów z cukrzycą, dla których OCTA staje się ważnym narzędziem diagnostycznym i prognostycznym33,34.Chociaż byliśmy w stanie przetestować nasz model na obrazach o różnych rozmiarach, aby upewnić się, że wyniki są solidne, nie byliśmy w stanie zidentyfikować odpowiednich zbiorów danych z różnych ośrodków, co ograniczyło naszą ocenę możliwości uogólnienia modelu.Chociaż obrazy uzyskano tylko z jednego ośrodka, uzyskano je od pacjentów o różnym pochodzeniu etnicznym i rasowym, co stanowi wyjątkową siłę naszego badania.Mamy nadzieję, że włączając różnorodność do naszego procesu szkoleniowego, nasze wyniki zostaną uogólnione w szerszym znaczeniu i że unikniemy kodowania uprzedzeń rasowych w szkolonych modelach.
Nasze badanie pokazuje, że sieci neuronowe z pominięciem połączeń można wytrenować, aby osiągały wysoką wydajność w określaniu jakości obrazu OCTA.Modele te udostępniamy jako narzędzia do dalszych badań.Ponieważ różne metryki mogą mieć różne wymagania dotyczące jakości obrazu, dla każdej metryki można opracować indywidualny model kontroli jakości, korzystając z ustalonej tutaj struktury.
Przyszłe badania powinny obejmować obrazy o różnych rozmiarach z różnych głębokości i różnych maszyn OCTA, aby uzyskać proces oceny jakości obrazu oparty na głębokim uczeniu się, który można uogólnić na platformy OCTA i protokoły obrazowania.Obecne badania opierają się również na podejściach do nadzorowanego głębokiego uczenia się, które wymagają oceny człowieka i oceny obrazu, co może być pracochłonne i czasochłonne w przypadku dużych zbiorów danych.Czas pokaże, czy metody głębokiego uczenia się bez nadzoru będą w stanie odpowiednio rozróżnić obrazy o niskiej jakości od obrazów o wysokiej jakości.
W miarę ciągłego rozwoju technologii OCTA i wzrostu prędkości skanowania, częstość występowania artefaktów obrazu i obrazów o niskiej jakości może się zmniejszać.Ulepszenia oprogramowania, takie jak niedawno wprowadzona funkcja usuwania artefaktów projekcji, mogą również złagodzić te ograniczenia.Jednakże pozostaje wiele problemów, ponieważ obrazowanie pacjentów ze słabą fiksacją lub znacznym zmętnieniem nośnika niezmiennie skutkuje artefaktami obrazu.Ponieważ OCTA staje się coraz szerzej stosowana w badaniach klinicznych, należy dokładnie rozważyć ustalenie jasnych wytycznych dotyczących akceptowalnych poziomów artefaktów obrazowych na potrzeby analizy obrazu.Zastosowanie metod głębokiego uczenia się do obrazów OCTA jest bardzo obiecujące i potrzebne są dalsze badania w tej dziedzinie, aby opracować solidne podejście do kontroli jakości obrazu.
Kod wykorzystany w bieżących badaniach jest dostępny w repozytorium octa-qc, https://github.com/rahuldhodapkar/octa-qc.Zbiory danych wygenerowane i/lub przeanalizowane podczas bieżącego badania są dostępne u odpowiednich autorów na uzasadnione żądanie.
Spaide, RF, Fujimoto, JG i Waheed, NK Artefakty obrazu w optycznej angiografii koherentnej.Siatkówka 35, 2163–2180 (2015).
Fenner, BJ i in.Identyfikacja cech obrazowania decydujących o jakości i powtarzalności pomiarów gęstości splotu włośniczkowego siatkówki w angiografii OCT.BR.J. Oftalmol.102, 509–514 (2018).
Lauerman, JL i in.Wpływ technologii eye-trackingu na jakość obrazu angiografii OCT w zwyrodnieniu plamki żółtej związanym z wiekiem.Łuk grobowy.kliniczny.Do potęgi.okulistyka.255, 1535–1542 (2017).
Babyuch AS i in.Pomiary gęstości perfuzji naczyń włosowatych metodą OCTA służą do wykrywania i oceny niedokrwienia plamki żółtej.chirurgia okulistyczna.Obrazowanie laserowe siatkówki 51, S30 – S36 (2020).
He, K., Zhang, X., Ren, S. i Sun, J. Deep Residual Learning for Image Recognition.W 2016 roku na konferencji IEEE on Computer Vision and Pattern Recognition (2016).
Lauerman, JL i in.Zautomatyzowana ocena jakości obrazu angiograficznego OCT przy użyciu algorytmów głębokiego uczenia się.Łuk grobowy.kliniczny.Do potęgi.okulistyka.257, 1641–1648 (2019).
Lauermann, J. i in.Częstość występowania błędów segmentacji i artefaktów ruchowych w angiografii OCT zależy od choroby siatkówki.Łuk grobowy.kliniczny.Do potęgi.okulistyka.256, 1807–1816 (2018).
Pask, Adam i in.Pytorch: imperatywna, wysokowydajna biblioteka głębokiego uczenia się.Zaawansowane przetwarzanie informacji neuronowej.system.32, 8026–8037 (2019).
Deng, J. i in.ImageNet: wielkoskalowa, hierarchiczna baza danych obrazów.Konferencja IEEE 2009 na temat widzenia komputerowego i rozpoznawania wzorców.248–255.(2009).
Krizhevsky A., Suckever I. i Hinton GE Klasyfikacja Imagenet z wykorzystaniem głębokich splotowych sieci neuronowych.Zaawansowane przetwarzanie informacji neuronowej.system.25, 1 (2012).


Czas publikacji: 30 maja 2023 r
  • wechat
  • wechat