Tilbake til søkeresultatene

HELSEVEL-Gode og effektive helse-, omsorgs- og velferdstjenester

Use of deep learning and Big Data in the Norwegian Breast Cancer Screening Program

Alternativ tittel: Bruk av maskinlesing i Mammografiprogrammet

Tildelt: kr 8,0 mill.

Brystkreft er den hyppigste kreftformen blant kvinner i Norge og i verden. Selv om enkelte risikofaktorer for sykdommen er kjent, er sykdommen vanskelig å forebygge. Tidlig oppdagelse gjennom screening er derfor ansett som et effektivt verktøy for å redusere dødelighet av sykdommen. En standard screeningundersøkelse i det norske screeningprogrammet, Mammografiprogrammet, består av mammografibilder fra to ulike vinkler av hvert bryst. Vurdering av bildene gjøres uavhengig av to røntgenleger. Alle tilfeller hvor en eller begge legene finner suspekte funn på mammografibildene blir diskutert på et konsensusmøte hvor det blir besluttet om kvinnen skal kalles inn for tilleggsundersøkelser eller ikke. Om lag 7% av screeningundersøkelsene diskuteres på et slikt konsensusmøte, om lag halvparten av disse blir kalt inn til etterundersøkelse. Dette betyr at røntgenlegene som jobber i Mammografiprogrammet bruker betydelig tid på å vurdere mammografibilder fra kvinner med normale funn, det vil si der det ikke er tegn til brystkreft. Med nyere fremskritt innen kunstig intelligens, mer spesifikt maskinlæring, er det et potensiale for å forbedre Mammografiprogrammet. Hovedmålsettingen til dette prosjektet var å utvikle en modell som kan brukes til å vurdere mammografibilder som tas i screeningen. Maskinlæring ble brukt til å utvikle automatiske systemer som plukker ut bilder som med høy sannsynlighet ikke har tegn til brystkreft. Dette kan blant annet bidra til at flere brystkrefttilfeller oppdages i et tidlig stadium, færre får diagnostisert brystkreft mellom to screeningrunder, og at røntgenlegene kan bruke mer tid på kvinner som har tegn til brystkreft. Prosjektet mottok et «pilotdatasett» med mammografibilder og screeningopplysninger fra Universitetssykehuset i Nord-Norge i 2018. I 2020 ble mammografibilder og screeningopplysninger fra St. Olavs hospital HF og Helse Møre og Romsdal HF overført til prosjektet, mens vi mottok data fra Universitetssykehuset i Nord-Norge HF og fra fire helseforetak i Helse Sør-Øst i 2021. Prosesser knyttet til forberedelse for datainnsamling, og selve innsamlingen, har tatt betydelig mer tid enn forventet på grunn av juridiske avklaringer, samt prosedyrer som enkelte regionale helseforetak har for slike uttrekk. Tidligere i prosjektet var datagrunnlaget for lite til å utvikle og trene egne modeller, og vi har derfor benyttet en forhåndstrent modell til testing og utvikling. Med de nye dataene som prosjektet har mottatt i 2020 og 2021 har Norsk Regnesentral hatt mulighet til å utvikle og trene opp en ny modell fra bunnen, basert på norske data. Modellen har blitt testet på et datasett som ikke ble benyttet til utviklingen av algoritmen. Resultatene er lovende og viser at det er et stort potensial for å øke sensitiviteten i mammografiscreening ved å oppdage mer brystkreft som følge av funn på screeningmammogrammene, færre intervallkrefttilfeller, og redusere arbeidsbelastningen til røntgenleger, ved å implementere maskinlæring i mammografiscreeningen. Vi forventer også at kunstig intelligens kan redusere byrden av falske positive screeningresultater, overdiagnostisering med påfølgende overbehandling, og på sikt redusere brystkreftdødelighet. Prosjektet har også jobbet med planer for hvordan kunstig intelligens kan tas i bruk i mammografiscreeningen i Mammografiprogrammet. Vi har særlig fokusert på å beskrive egenskaper og krav til metodene og til screeningtjenesten som vil påvirke valgene som tas. I dette prosjektet har vi tatt bidratt med å fylle store kunnskapshull knyttet til kunstig intelligens i radiologien og i screening. Vi vurderer de foreløpige resultatene som svært lovende og ser frem til videre studier og dermed et solid kunnskapsgrunnlag for å implementere maskinlæring i Mammografiprogrammet.

The machine learning (ML) model developed in this project was based on deep convolutional neural networks trained on more than 1,5 million images from more than 300 000 mammographic exams from the Norwegian Breast Cancer Screening Program (NBCSP). Due to the time-consuming process of accessing images, about 1 million more are now available and will be included in future development of the model. While most models in this field are trained from pixel-level annotations, which are time-consuming to produce, the present ones were trained from image-level diagnosis only. The architecture of the model used a two-stage process, where the first stage was a relatively standard convolutional network (resnet101) trained to classify down-sampled versions of the images as positive (having cancer) or negative. When this Holistic model was fully trained, a method from explainable AI known as ‘layered gradcam’ was used to identify the part of the image that contributed the most to a higher output score. This was defined as the Holistic model’s region of interest (ROI). A separate resnet101 model, called Attention, was trained to classify the ROIs as positive or negative utilizing the full image resolution without down-sampling. The model was tested on a subset of data not used in training and evaluated by the area under the curve (AUC) metric. An ensemble model consisting of the Holistic model and three parallel Attention models reached an AUC = 0.960 for screen-detected cancer and an AUC = 0.917 for all cancers (screen-detected and interval cancers). These results showed far better results than those from a pre-trained external model and the results were comparable to values derived from the double radiologist reading scores with an AUC of 0.984 for screen-detected cancers and 0.893 for all cancers. The results showed that there is a great potential for increasing the quality of the NBCSP by increasing the sensitivity by detecting more interval cancers, and reducing the workload of the radiologists, by implementing ML in screening. We also expect ML to reduce the burden of false positive screening results, overdiagnosis and the adherent overtreatment, and in the long run, reduce breast cancer mortality. The use of ML can also lead to a larger capacity to do screening. Today NBCSP targets women aged 50-69. The European Commission Initiative on breast cancer just stated conditional evidence for screening women aged 45-49 and 70-74. If the target group will be expanded, increased capacity is needed. Demand is also expected to rise for population-based screenings for more cancer forms. Hence, increasing capacity using ML can save lives and give new opportunities for improved health services.

Breast cancer is the most common cancer among women in Norway and worldwide. Since the cause of breast cancer is not known, mammographic screening is offered as a secondary prevention, aimed at reducing the mortality from the disease. About 500 000 women have participated in the Norwegian Breast Cancer Screening every second year since the program was made nationwide in 2005. The radiologists spend a substantial time interpreting screening mammograms of healthy women, as about 7% of the exams are discussed at consensus, 3-4% are recalled for further assessment and 20% of those recalled, 0.6% of the attending women, are diagnosed with breast cancer and additional 0.17% are diagnosed before the next screening. By exploiting machine learning in the process the aim is to reduce the recall rate, the rate of missed screen-detected and interval breast cancer and obtain knowledge which can help us reducing overdiagnosis and overtreatment, which again will reduce the disease specific mortality. By achieving this goal, we will be able to reduce the human and financial burden of mammographic screening. A realistic ambition is that 100 women will get a breast cancer diagnosis 1-4 years earlier. An on-the-fly control of the image quality may reduce the number of recalls of 1 200 women annually and also improve the image quality in the further assessment. The project take advantage of three main factors: There has been a revolution in machine learning, also on medical images where machine learning together with experts is better than only human expertise. Our database with mammograms is at least 20 times larger than any published study. This is critical for machine learning. We will focus on questions that are relevant for the Norwegian Breast Cancer Screening Program. The project will build world leading competence which is also valuable for other screening programs and other medical applications.

Publikasjoner hentet fra Cristin

Ingen publikasjoner funnet

Ingen publikasjoner funnet

Budsjettformål:

HELSEVEL-Gode og effektive helse-, omsorgs- og velferdstjenester