Etusivu > Kaikki artikkelit > Menetelmien maailma | Ensikurkistus

Menetelmien maailma | Ensikurkistus

12.5.2021

Tämä teksti avaa Terveyttä datasta-blogin vierailevan blogikirjoitussarjan nimeltään Menetelmien maailma. Blogisarja toimii tietotieteilijän näkökantana Real-World Evidence (RWE)-tutkimuksiin sekä Real-World dataan (RWD). Blogin pääsarjan tapaan, myös tämä vieraileva blogikirjoitussarja pitäytyy yleisellä tasolla ja kansankielisenä – vaikka konteksti voisikin olla toisinaan haastava. Näiden asioiden kansantajuistaminen myös haastaa tämän blogisarjan kirjoittajia, joiden taustat ovat vahvasti teknologiassa, koodauksen ja tilastotieteiden maailmassa. Toimikoon tämä jonkin sortin varoituksena. Sisältöä näihin vieraileviin kirjoituksiin tuottaa pääasiassa Medaffconin analytiikkatiimin jäsenet. Tässä avauksessa ajatuksiaan avaa Medaffconin Data Analysis Lead, Iiro Toppila.

Menetelmien maailma | Terveyttä datasta - World of Methodologies | Health from Data

Hyvään RWE-tutkimukseen tarvitaan mielekäs tutkimuskysymys, laadukas tosielämän aineisto ja erinomaiset tekijät. Aineistosta puristetaan tietoa ja vastauksia kysymyksiin tarkoin valituilla menetelmillä. Nyt näiden vierailevien blogikirjoitusten tavoitteena on siis esitellä lukijoille data-analyysin menetelmien kirjoa.

Useimpien RWE-tutkimusten menetelmät perustuvat pääasiassa perinteiseen tilastotieteeseen. Kuitenkaan kaikkiin kysymyksenasetteluihin ja tarpeisiin tästä työkalupakista ei löydy sopivia menetelmiä.

Yksi viime aikoina paljon puhetta kirvoittanut kokonaisuus on koneoppiminen ja tekoäly (kts. ”koneoppiminen RWE-sanastosta, kts. ”tekoäly” RWE-sanastosta). Vaikka nämä saattavat kuulostaa pelottavilta termeiltä, ovat ne matematiikkaa siinä missä muutkin tilastotieteen menetelmät ja toisinaan oikein sopivia työkaluja myös RWE-tutkimuksissa.

Termistöstä

Jos ollaan tarkkoja, koneoppiminen ja tekoäly ovat eri asioita. Itseasiassa koneoppiminen on tekoälyn alakategoria, mutta ei kuitenkaan mennä nyt yksityiskohtiin. Erityisesti puhekielessä ja markkinoinnissa näitä termejä käytetään kuitenkin ristiin. Sisällöltään tekoäly ja sen määritelmät lähestyvät filosofiaa koneoppimisen ollessa raakaa matematiikkaa.

Koneoppiminen sopii kontekstiin, jossa puhutaan ”järjestelmistä” jotka voivat oppia ja kehittyä kokemuksistaan ilman että niitä on ohjelmoitu erikseen haluttuun tehtävään. Tekoäly taas on kone, joka tekee älykkäänä pidettäviä toimintoja – vaikka ne olisivat nimenomaan tarkkaan esiohjelmoitu. Esimerkki tällaisesta etukäteen ohjelmoidusta toiminnosta on vanhemmat shakkiohjelmat.

Koneoppimisen ja tekoälyn sijaan keskitymme blogisarjassamme ennemminkin koneoppimisen menetelmien kokonaisuuteen. Kuitenkin termin ”koneoppiminen” voisi vaihtaa melko kivuitta suoraan ”tekoälyyn” tekstin kaikissa vaiheissa, erityisesti näin puhekielisesti keskusteltaessa.

Historiasta tähän päivään

Koneoppimisen teoria on vanhaa. Sen matematiikka on muinaiselta ajalta ennen tietokoneita. Siirryttäessä 2010-luvulle, koneoppiminen on kokenut murroksen ja ottanut aimo harppauksia, osittain tietokoneiden laskentakapasiteetin jatkuvasti kasvaessa.

Suurimmat edistysaskeleet koneoppimisessa on saavutettu terveysalan ulkopuolella, aloilla, joissa dataa on paljon ja se on helposti saatavilla. Kovin hype tekoälyn ympärillä alkaa olla jo pikkuhiljaa tasoittumassa. Tekoäly on enää harvemmin mediaseksikäs itseisarvo.

Koneoppiminen ja tekoäly ovat kuitenkin kovassa nousussa terveysalalla. Osittain, koska koneoppiminen alana on kypsynyt pisteeseen, jossa tunnetaan menetelmien mahdollisuudet ja rajoitteet ainakin riittävässä määrin. Erityisesti nykyisin ymmärretään paremmin minkälaisiin terveysalan kysymyksiin vastauksia kannattaa edes yrittää lähteä selvittämään koneoppimisen keinoja käyttäen.

Koneoppiminen ja RWE

Mutta miten tämä sitten liittyy RWE-tutkimukseen? Ehkäpä tärkeimpänä tässä on lähes kaikkia koneoppimismenetelmiä yhdistävä piirre: ne tarvitsevat dataa ja esimerkkejä verrattain paljon (ainakin perinteiseen tilastotieteeseen verrattuna). Mitä hankalampi kysymys on kyseessä, sitä enemmän dataa tarvitaan.

Terveysdatan tuottaminen on kuitenkin hidasta ja kallista. Näin on esimerkiksi kehitettäessä tekoälyä nivelrikon tunnistamiseen. Tällöin polven magneettikuvia täytyy kerätä tuhansia. Tämä on hidasta ja kallista verrattuna esimerkiksi kasvojentunnistustekoälyyn, jossa vastaavat tuhannet selfiet olisivat napsittavissa nopeasti ja ilman kalliita kuvantamislaitteita. Tässä valossa asetelma koneoppimisen käyttämiseksi terveysalalla ei siis tunnu optimaaliselta.

Terveydenhuollon tuottama tosielämän terveysdata tarjoaa toisiokäytöllään tähän ratkaisun (kts. ”toisiokäyttö” RWE-sanastosta). Dataa ei tarvitse erikseen tuottaa, sillä se on jo olemassa. Ja mikä parasta – sitä tulee jatkuvasti lisää.

Toinen tosielämän datan käyttöä terveysalalla puoltava seikka on sen sopivuus silloin kuin pyritään ratkomaan tosielämän ongelmia. Kone voi oppia vain asioita, joita sille esitellyssä datassa on.

Mikäli data olisi peräisin kliinisistä lääketutkimuksista (joissa potilaat on tarkoin rajattu osajoukko tosielämän potilasryhmästä) eivät koneen oppimat ennusteet välttämättä toimisi kliinisessä käytössä ja tosielämässä laisinkaan. Tosielämän data ei valikoi ja esittää asiat kaunistelematta, juuri sellaisena kuin ne olivat.

Lopuksi

Koneoppiminen ja tekoäly luovat paljon mahdollisuuksia terveysalalla – ainakin periaatteessa. RWE-tutkimuksissa tämä edistyneemmän analytiikan potentiaali jää kuitenkin usein hyödyntämättä.

Tulevissa vierailevissa blogikirjoituksissa paneudumme tarkemmin ja kansankielisesti tiettyihin menetelmäperheisiin (myös perinteisen tilastotieteen saralta) sekä datan erityispiirteisiin. Pyrimme aina käyttämään käytännön esimerkkejä siitä, kuinka menetelmiä voidaan hyödyntää RWD:n työstämisessä.

Seuraavaa ”Menetelmien maailma”-blogia odotellessa malttamattomimmat voivat tutustua vaikkapa koneoppimisen perusteisiin Reaktorin tarjoamalla ilmaisella ”Elements of AI” -verkkokurssilla.

Iiro Toppila

Biostatistician

Data Analysis Lead