Žinoma, prižiūrimas mašininis mokymasis nėra panacėja numatymo užduotims. Net tobulą modelį riboja duomenų rinkinio, iš kurio jis parengtas, signalo kokybė ir dydis. Tai svarbi mintis – net ir esant tobulam algoritmui, modelis gali būti tik toks geras, kokia yra atitinkama duomenų rinkinio informacija. Pavyzdžiui, naudojant maždaug 250 kintamųjų, atspindinčių demografinius rodiklius, socialinę ir ekonominę būklę, ligos istoriją, klinikinius simptomus, gyvybinius požymius, laboratorines vertes, Frizzell ir kt. nustatė, kad mašininio mokymosi algoritmai negalėjo numatyti 30 dienų regresijos geriau nei logistinė regresija. Tiesą sakant, visi modeliai veikė tik šiek tiek geriau nei atsitiktinis klasifikatorius. Nors šie tyrėjai įtraukė kintamuosius socialinei ir ekonominei būklei apibūdinti, vis dar sunku užkoduoti ir kiekybiškai įvertinti socialinius sveikatos veiksnius, kurie, atrodo, yra labai svarbūs priimant pacientą į ligoninę. Šis apribojimas taikomas tiek klasikiniam statistiniam modeliavimui, tiek mašininio mokymosi metodams.
Dichotomija
Gydytojai kardiologai paprastai dirba su dichotominiais rezultatais (pvz., „Ar kardiologas turėtų skirti šiam pacientui statiną ar ne?“). Tačiau kai kuriais atvejais toks klinikinių ir mokslinių klausimų formulavimas yra netikslus ir vadinamas „netinkamu dichotomizavimu“. Tai iliustruoja du atvejai. Pirma, apsvarstykite gydymo paradigmą, pvz., JAV prevencinių tarnybų darbo grupės pirminės prevencijos statinų rekomendacijų gaires, kuriose 10% širdies ir kraujagyslių ligų rizikos riba yra 10 metų kaip vienas iš 3 kriterijų vertinant įrodymus, ar pacientams patartina vartoti statinus. pirminei širdies ir kraujagyslių ligų profilaktikai. Nustačius griežtas nuolatinių rezultatų ribines vertes (pvz., 10 metų širdies ir kraujagyslių ligų rizika), kyla problemų asmenims, atitinkantiems klasifikavimo taisyklės ribas. Tęsiant ankstesnį pavyzdį, gali būti tik nedideli skirtumai tarp pacientų, kurių numatoma rizika yra 9,5 %, ir pacientų, kurių numatoma rizika yra 10,5 %, tačiau hipotetinė dvilypė klinikinių rekomendacijų mašina, naudojanti 10 % slenkstį kaip pagrindą, gali lemti skirtingus planus šiems „vidutinės rizikos“ ir „didelės rizikos“ pacientams. Vietoj to rekomenduojame gydyti pacientus pagal jų individualizuotą 10 metų riziką, kaip jau intuityviai daro daugelis gydytojų, užuot laikę juos atskirų pacientų, kuriems gresia skirtinga rizika pagal dichotomizuotą kategoriją, dalimi.
Dichotomijos problemos kompiuteriniame kardiologijos modeliavime
Netinkamas dichotomizavimas sumažina nuspėjamųjų modelių tikslumą. Apsvarstykite klinikinio širdies ligos biomarkerio su normaliai pasiskirstančiomis vertėmis pavyzdį. Gydymas keičia biomarkerio reikšmes ir išmatuojamas biomarkerio pokyčio dydis. Be to, tyrėjai nusprendžia dichotomuoti tuos pacientus, kurių biomarkerio lygis pasikeitė viršutinėje pokyčio pusėje, kaip „reaguojančius“, o apatinėje – „neatsakančius“. Šis sprendimas sumažina biomarkerio tyrimo tikslumą iki 64 % vertės, kurią galima pasiekti naudojant neapdorotus, nedichotomizuotus skaičius. Ši problema taip plačiai paplitusi biomedicinos leidiniuose, kad statistikai ją kartais įkyriai vadina „dichotomanija“. Iš esmės nepertraukiamų duomenų dichotomizavimas praranda naudingą informaciją apie santykių stiprumą ir dėl to prarandama galią. Vietoj to, geriau numatyti individualias paciento tikimybes, o ne daryti dvejetaines klasifikacijas. Tačiau tikimybės yra naudingos tik tada, kai jos yra tikslios – apsvarstykite modelius, patvirtintus Kolek ir kt. numatyti prieširdžių virpėjimą iš elektroninių sveikatos įrašų. Nors modeliai vidutiniškai gerai suskirstė pacientus į mažos arba didelės rizikos grupes, numatomos tikimybės kiekvienoje grupėje buvo atitinkamai per mažos arba per didelės. Tai vadinama prastu modelio kalibravimu, kuris dažnai įvyksta, kai retiems įvykiams modeliuoti naudojami standartiniai regresijos metodai. Geriau sukalibruotas rezultatų tikimybių numatymas yra sritis, kurioje mašininio mokymosi algoritmai galėtų suteikti klinikinės naudos.