Когато COVID-19 пламна по света в началото на 2020 г., болниците изпаднаха в здравна криза. „Лекарите наистина нямаха представа как да управляват тези пациенти”, казва Лор Уайнс, епидемиолог от университета в Маастрихт, Холандия, който изучава инструменти за прогнозиране.
Но имаше данни от Китай – страна с 4 месеца преднина в надпреварата за побеждаване на пандемията. Ако алгоритмите за машинно обучение биха могли да бъдат обучени с тези данни, за да помогнат на лекарите да разберат какво виждат и да вземат решения, това може да спасява човешки животи, нали?
„Мислех си, че ако има време, когато изкуственият разум може да докаже своята полезност, това е сегашният момент”, казва Уайнънтс в публикация на MIT Technology Review. Но това така и не се случи. И то не поради липса на усилия.
Изследователски екипи по целия свят се включиха, за да помогнат. Общността на разработчиците на изкуствен интелект се втурна да създава софтуер, който според мнозина би позволил на болниците да диагностицират или сортират пациентите по-бързо, което да помогне на лекарите от „първа линия”, на теория.
В крайна сметка бяха разработени стотици инструменти за прогнозиране. Но никой от тях не донесе очаквания резултат. А някои бяха потенциално вредни.
Това е ужасното заключение от множество проучвания, публикувани през последните няколко месеца. През юни Институтът Тюринг, националният център на Обединеното кралство за наука за данни и изкуствен интелект излязоха с доклад, обобщаващ дискусиите в поредица от семинари, проведени в края на 2020 г. Ясният консенсус е, че инструментите на база AI са оказали малко въздействие, ако изобщо са имали въздействие, в борбата с COVID-19.
Не е подходящ за клинична употреба
Изводът отразява резултатите от две големи проучвания, оценили стотици инструменти за прогнозиране, разработени миналата година. Уайнънтс е водещият автор на един от тях. Това е преглед в British Medical Journal, който все още се актуализира с пускането на нови инструменти и тестването на съществуващите. Тя и нейните колеги са разгледали 232 алгоритъма за диагностициране на пациенти или прогнозиране колко заразени как ще преболедуват болестта.
Учените са открили, че никой от алгоритмите не е годен за клинична употреба. Само два са посочени като „достатъчно обещаващи за бъдещи изпитания”. „Това е шокиращо”, казва Уинанс. „Захванах се с някои притеснения, но установеното надхвърли страховете ми”.
Проучването на Уайнънтс е подкрепено от друг голям обзор, извършен от Дерек Дригс, изследовател в сферата на машинното обучение в университета в Кеймбридж, и неговите колеги и публикуван в Nature Machine Intelligence. Този екип се вгледал в моделите за дълбоко обучение за диагностициране на COVID-19 и прогнозиране на риска за пациента от медицински изображения като рентгенови снимки на гръдния кош и компютърна томография на гръдния кош (CT). Те разгледали 415 публикувани инструмента и подобно на Уайнънтс и нейните колеги стигнали до заключението, че нито един не е годен за клинична употреба.
„Тази пандемия беше голямо изпитание за изкуствения интелект и медицината”, казва Дригс, който сам работи върху инструмент за машинно обучение, за да помогне на лекарите по време на пандемията. Изглежда AI не е издържал текущия изпит, заключава той.
И двата екипа са установили, че изследователите повтарят едни и същи основни грешки в начина, по който обучават или тестват инструментите си. Неправилните предположения за данните често означават, че обучените модели не работят така, както се твърди.
Уайнънтс и Дригс все пак вярват, че AI има потенциала да помогне. Но те са загрижени, че прилагането му би могло да се окаже вредно, ако моделите са изградени по грешен начин. Тогава може да се стигне до погрешна диагноза или подценяване на риска за уязвимите пациенти. „Има много шум около моделите за машинно обучение и какво могат да направят днес”, казва Дригс.
Нереалистичните очаквания насърчават използването на AI инструменти, преди да са готови, предупреждават учените. Уинантс и Дригс казват, че някои от алгоритмите, които са разгледали, вече използвани в болници, а някои се продават от частни разработчици. „Страхувам се, че те може да са навредили на пациентите”, казва Уайнънтс.
Какво се обърка?
Много от проблемите, разкрити от учените, са свързани с лошото качество на данните, използвани при за разработването на AI инструментите. Информация за пациенти с COVID-19 е събрана и споделена по време на глобална пандемия, често от лекарите, които се борят да лекуват пациентите. Изследователите искаха да помогнат бързо и взеха единствените налични набори от данни, обясняват учените. Но това всъщност означава, че много инструменти са създадени с неправилно обозначени данни или данни от неизвестни източници.
Дригс подчертава проблем, който той нарича „Франкенщайнски набори от данни” – набори, скалъпени от множество източници, където може да има дублирания. В други случаи произходът на данните е „зацапан”. Това може да означава, че изследователите пропускат важни характеристики, които изкривяват обучението на техните модели.
Групата на Дригс е тренирала свой собствен модел, използвайки набор от данни, който съдържа комбинация от рентгенови снимки, направени на пациентите в легнало и изправено положение. Тъй като пациентите, сканирани в легнало положение, е по-вероятно да са тежко болни, AI се е научил погрешно да предвижда сериозен риск от COVID-19 заради позицията на човека при снимката.
В други случаи е установено, че някои AI улавят текстовия шрифт, който болниците използват за етикетиране на снимките. В резултат на това шрифтовете от болниците с по-сериозно натоварване са се превърнали в „предсказатели” за риска от COVID-19.
Грешки като тези изглеждат очевидни, разгледани отстрани. Те могат да бъдат поправени чрез коригиране на моделите, ако изследователите са наясно с проблема. Но повечето инструменти са разработени или от AI изследователи, които нямат медицински опит, за да открият недостатъци на данните, или от медицински изследователи, които пък нямат математически умения, за да компенсират тези недостатъци.
Още по-фин проблем, който Дригс подчертава, е изкривяването при включване или изкривяването, въведено в момента, в който е обозначен наборът от данни. Например, много рентгенови снимки са етикетирани според това дали рентгенолозите, които са ги направили, са казали, че „показват COVID-19”. Но това на практика вгражда или включва всички виждания на конкретния лекар в основата на набора от данни. Би било много по-добре да обозначите рентгеновата с резултата от PCR теста, а не с мнението на който и да е лекар, казва Дригс. Но не винаги има време за подобни операции в натоварените болници.
Всички тези проблеми не са попречили който и да било от въпросните AI инструменти да бъде внедрен в клиничната практика. Уайнънс казва, че не е ясно кои от тях се използват или как. Болниците понякога твърдят, че използват инструментите „само за изследователски цели”. А това затруднява преценката колко от лекарите реално разчитат на тях.
Уайнънс е помолила една компания, продаваща алгоритми за дълбоко обучение, да сподели информация за подхода си. Така и не получила отговор. По-късно обаче открила няколко публикувани модела от изследователи, свързани с тази компания, всички с висок риск от изкривявания. „Всъщност не знаем какво е приложила компанията”, казва Уайнънс.
Според нея, някои болници дори подписват споразумения за неразкриване на информация с доставчиците на приложенията с изкуствен интелект. Питайки лекари какви алгоритми или софтуер използват, тя неведнъж чула, че „не им е позволено да кажат”.
А сега накъде?
Нужни са по-добри данни за решаване на проблема. Но точно по време на криза това е голяма трудност. По-важно е да се възползваме максимално от наборите от данни, които вече са налични.
Най-простият ход би бил екипите по AI да си сътрудничат повече с медиците, казва Дригс. Изследователите също така е добре да споделят своите модели и да разкрият как са били обучени, така че другите учени да могат да ги тестват и надграждат. „Това са две неща, които можем да направим още днес”, казва той. „И те биха решили може би 50% от проблемите, които идентифицирахме”.
Добиването на данни също би било по-лесно, ако форматите бяха стандартизирани, казва Билал Матен – лекар, който ръководи екипа по клинични технологии в Wellcome Trust, глобална благотворителна организация за здравни изследвания със седалище в Лондон.
Друг проблем, който Уайнънс, Дригс и Матен идентифицират, е, че повечето изследователи се втурват да разработват всеки сам свои собствени модели, вместо да работят заедно или да подобряват съществуващите. Резултатът е, че колективните усилия на изследователите по целия свят са произвели стотици посредствени инструменти. А можеше да са по-малко на брой и да са правилно обучени.
„Моделите са толкова сходни – почти всички използват едни и същи техники с малки „пипвания”, едни и същи входящи компоненти, и всички правят едни и същи грешки”, казва Уайнънтс. „Ако всички тези тестваха съществуващите модели, които вече са налични, може би щяхме да имаме нещо, което наистина би могло да помогне в лечението”.
В известен смисъл това е стар проблем с изследванията. Академичните изследователи имат малко кариерни стимули да споделят работата си с колеги или да потвърждават съществуващите резултати на други учени. За изследователите няма и никаква награда за преминаване през „последната миля” – преминаването на технологиите от лабораторната маса към реалното пациентско легло, казва Матен.
За да подпомогне за разрешаването на този проблем, Световната здравна организация обмисля спешен договор за споделяне на данни, който да влиза в сила по време на международни здравни кризи. Това би позволило на изследователите да прехвърлят по-лесно данни през границите, казва Матин. Преди срещата на върха на Г-7 в Обединеното кралство през юни водещите научни групи от участващите държави също призоваха за „готовност за [взаимен обмен на] данни” в подготовка за бъдещите извънредни ситуации в здравеопазването.
Подобни инициативи звучат малко мъгляво. Призивите за промяна винаги имат привкус на пожелание. Но Матин е „наивно оптимистичен”. Казва, че пандемията е променила разбиранията на учените и сега идеята изглежда много по-реалистична и приложима.