• Miten aineistosta syntyy tieteellistä tietoa?
  • Millainen on hyvä kuvaaja?
  • Miten arvioin tutkimustulosten ja tiedeuutisten luotettavuutta?
icon

Tutkimusaineiston visualisointi

Numerotiedon esittäminen ymmärrettävästi ja havainnollisesti on tärkeää. Määrällistä eli kvantitatiivista tietoa kerätään esimerkiksi yritysten ja yhteisöjen taloudesta, ympäristön tilasta, urheilusta, yhteiskunnan toiminnasta, poliittisista kannoista ja teknisten laitteiden ominaisuuksista. Verkkovaikuttajat tarkkailevat seuraaja- ja katsojalukuja, ja auton kojelauta kertoo nopeudesta, moottorin lämpötilasta ja polttoaineen määrästä.

Lukujen muodossa oleva tieto on täsmällistä, mutta epäonnistuneesti näytettynä se voi johtaa sekaannuksiin tai väärinkäsityksiin. Hyvin tehty kuva puolestaan paljastaa jo nopealla silmäyksellä määrällisen tiedon oleellisen sisällön.

Samalla tavalla kuin tekstiä muokataan, tiivistetään ja selkiytetään, myös numeerisen tiedon esitysmuotoa pitäisi hioa niin kauan, että asian ydin tulee selvästi näkyviin. Yleisimpien digitaalisten työkalujen oletusarvoiset kuvalliset esitykset ovat yllättävän kehnoja, joten muidenkin kuin ammattigraafikoiden kannattaa opetella tärkeimmät perustemput.

Yllä olevan tapaiset korkean tason periaatejulistukset jäävät helposti leijumaan käsitteen tasolle. Siksi esittelen niitä kahden kouriintuntuvan esimerkin kautta. Ensimmäisessä laitan Suomen eduskuntavaalien 1991 ja 1995 tulokset pylväsdiagrammin muotoon. Toisessa puolestaan vertailen 1970-luvun talvia viime vuosiin.

Yleensä käytän tällaisen infografiikan tekemiseen Matlabia, joka on matemaatikoiden ja tilastotieteilijöiden ammattiohjelmisto. Koska se on kallis tuote, johon kaikilla ei ole pääsyä, toteutan alla olevat esimerkit Microsoftin PowerPointilla ja Excelillä. Verkossa on tarjolla myös ilmaisia työkaluja, kuten Google Charts, LibreOffice Calc (tai Charts) ja monia muita. Samaan lopputulokseen on mahdollista päästä millä tahansa näistä työkaluista. Pääasia on itse pohtia, miten tieto olisi selkeimmin esitetty, ja sitten jumpata softan kanssa niin kauan, että se onnistuu.

Eduskuntavaalien tulokset 1991 ja 1995

Katsotaan ensin vuoden 1991 vaaleja. Tilastokeskuksen avoimesti saatavilla olevaan aineistoon viittaavan Wikipedian eduskuntavaaliartikkelin mukaan vaaleissa äänet jakautuivat prosentteina näin:

Puolue Osuus äänistä
Suomen keskusta 24,8
Suomen sosialidemokraattinen puolue 22,1
Kansallinen kokoomus 19,3
Vasemmistoliitto 10,1
Vihreä liitto 6,8
Ruotsalainen kansanpuolue 5,5
Suomen maaseudun puolue 4,9
Suomen kristillinen liitto 3,1
Liberaalinen kansanpuolue 0,8
Muut 2,6

Jos esitettäviä lukuja on vain muutama, taulukko on usein tehokkain ja selkein tapa näyttää ne. Esimerkissämme lukuja on kymmenen, jolloin voi olla jo ihan perustelua siirtyä kuvalliseen esitysmuotoon. Valitsen työkaluksi PowerPointin, joka tarjoaa yhtenä valmiina vaihtoehtona tätä:

Tämä esitysmuoto kaipaa kohennusta. Pahin ongelma on se, että keinotekoinen ja tarpeeton kolmiulotteisuuteen pyrkiminen tekee vaikeaksi arvioida tarkasti, mikä kunkin puolueen prosenttiosuus on. Pylväiden yläosissa on viivahässäkkää, joka hankaloittaa tarkan lukuarvon tulkintaa. Lisäksi pystyakselin numerointi vasemmassa laidassa on muka-kolmiulotteisuuden takia alempana kuin vaakasuorat viivat, joihin niiden on tarkoitus viitata. Edelleen: puolueiden nimet on kirjoitettu tilanpuutteen vuoksi hankalasti vinoon, ja kirjasinkoko on liian pieni. Diagrammin alla leijuu käsittämätön ”Column 2” -teksti, joka ei auta lukijaa.

Vaihdan taulukkotyypin kaksiulotteiseksi ja laitan pylväät yksivärisiksi. Nyt data on paremmin esillä, ja lukujen suuruuden voi lukea tarkasti.

Puolueiden kannatusten vertailu onnistuu luotettavasti. Suurensin myös kirjasinkokoa teksteissä. Kehitettävää on silti vielä: puolueiden nimet ovat edelleen vinossa.

Kääntämällä pylväät vaakasuoriksi saan puolueiden virallisetkin nimet mahtumaan mukaan, ihan vaakasuoraan kirjoitettuina. Näin syntyy jo varsin selkeä esitys vuoden 1991 vaaleista.

Entä jos haluamme vertailla kaksia vaaleja toisiinsa, esimerkiksi vuosien 1991 ja 1995? Silloin taulukko on hiukan kömpelö. Tosin joskus sekin voi olla paras vaihtoehto: näkövammaisen lukijan näkökulmasta taulukon saavutettavuus on paljon parempi kuin kuvallisen kaavion.

Puolue Osuus äänistä, vuonna 1991 Osuus äänistä, vuonna 1995
Suomen keskusta 24,8 19,9
Suomen sosialidemokraattinen puolue 22,1 28,3
Kansallinen kokoomus 19,3 17,9
Vasemmistoliitto 10,1 11,2
Vihreä liitto 6,8 6,5
Ruotsalainen kansanpuolue 5,5 5,1
Suomen maaseudun puolue 4,9 1,3
Suomen kristillinen liitto 3,1 3
Liberaalinen kansanpuolue 0,8 0,6
Nuorsuomalainen puolue - 2,8
Muut 2,6 3,4

Yksi paljon käytetty esitysmuoto sadan prosentin jakautumiselle on piirakkakaavio. Joskus niitä näkee laitettuna rinnakkain, kuten tässä:

Useamman piirakan yhdistelmä on huono keino numerotiedon esittämiseen. Yritä vaikka selvittää piirakoista katsomalla, oliko RKP:n prosenttiosuus äänistä suurempi vuonna 1991 vai 1995? Tai edes se, kuka voitti ja millä erotuksella vuonna 1991?

Palataan pylväskaavioon, joka palveli meitä hyvin yksien vaalien tapauksessa. PowerPoint mahdollistaa useiden datasarjojen laittamisen mukaan, mutta jälleen kannattaa katsoa minkä oletusarvon valitsee.

Tässä keinotekoinen kolmiulotteisuus on taas haittaamassa tiedon esiin saamista. Kaupan päälle PowerPoint tarjoilee turhanaikaista läpinäkyvyyttä sekä pudottaa pylväiden päälle prosenttiluvut valkoisin kirjaimin, jolloin niitä on mahdotonta lukea.

Korjasin kertaheitolla esitysmuodon paremmaksi. Tässä saamme jälleen helpon vertailtavuuden ja prosenttiosuuksien selkeän esityksen. Värikartan poimin ColorBrewer 2.0 -sivustolta, jossa valitsin karttatyypiksi erottelevan (diverging). Varmistin myös, että värisokeat erottavat värit toisistaan valitsemalla colorblind safe. Lisäksi valitsin tulostuksen kannalta turvallisen print friendly-asetuksen. Värikartan ääripään vihreä ja violetti ovat oivalliset värit tuplapylväisiin. Varmistin asian vielä syöttämällä kuvan Coblis-värisokeussimulaattoriin. Sen mukaan harvinaista akromatopsiaa lukuun ottamatta kaikista värisokeuden muodoista kärsivät erottavat pylväiden värit.

Olivatko talvet ennen kylmempiä?

1970-luvun lapsena pitkästytän tavan takaa ystäviäni ja työtovereitani jankuttamalla, että kyllä sentään olivat talvet talvia vielä aikoinaan! Nyt kun Ilmatieteen laitoksella on oivallinen avoimen datan palvelu, voimme helposti tarkistaa väitteeni paikkansapitävyyden.

Nämä kuvaajat esittävät lämpötilan vaihtelua tammikuun mittaan Helsingin keskustassa neljänä viimeisimpänä vuonna sekä 1970-luvun alussa.

Tästä spagetista ei saa mitään tolkkua ilman huolellista puuhastelua, eikä oikein sittenkään. Miten voisimme selkeyttää kuvaa? Ja ennen kaikkea: pystymmekö samalla kuvalla näyttämään kaiken tämän numerotiedon ja silti arvioimaan selkeästi talvien mahdollista muuttumista viiden vuosikymmenen aikana?

Käytän ColorBrewer 2.0 -työkalua apuna ja poimin kahteen kategoriaan erottelevat värisävyt valitsemalla värikarttatyypin diverging color scheme. Varmistan värien erottuvuuden värisokeillekin katsojille napauttamalla valintaa colorblind safe. Värisävyt tulevat näkyviin koodeina, esimerkiksi HEX- tai RGB-muodossa, jolloin voin syöttää ne PowerPointin käyrän väreiksi. Tämä vaatii pikkutarkkaa puuhastelua, mutta on se sen arvoista!

Violetin sävyiset käyrät edustavat 1970-luvun mittauksia, kun taas vihreät käppyrät näyttävät uudemmat säätiedot.

Suurennan myös kirjasinkokoa ja lisään vaaka- ja pystyakseleille yksikkötiedot eli päivän ja celsiusasteet.

Vaikka kuva selkiytyi värivalinnoilla ja muilla muokkauksilla, vanhojen ja uusien talvien vertailu on edelleen työlästä. Miten voisin helpottaa katsojan osaa edelleen?

Yksi tehokkaimmista tavoista visuaalisessa numerotiedon esityksessä on samojen rakenteiden sijoittaminen vierekkäin niin, että datassa on huolella valittuja eroja. Laitan 1970-luvun säätiedot omaan pikkukuvaansa vasemmalle ja uudet tiedot omaansa oikealle. Tärkeä yksityiskohta on se, että kaaviot ovat täsmälleen samankokoiset ja että vaaka- ja pystyakselit ovat samalla asteikolla. Tämä mahdollistaa vertailun, jossa lukujen erot nousevat pääosaan.

Ehkä nuo vihreät käppyrät tosiaan ovat pikkuisen korkeammalla kuin violetit, mutta voiko tuosta tosiaan päätellä talvien lämmenneen? Autetaanpa silmiämme lisäämällä kumpaankin kuvaan keskiarvoa osoittava vaakasuora sininen viiva.

1970-luvun neljän ensimmäisen tammikuun lämpötilojen keskiarvo on -5,2 astetta. Neljän viimeisimmän tammikuun keskiarvo on -1,6 astetta.

Yksi kuvani koekatselijoista huomautti, että nopealla silmäyksellä hän kuvitteli sinisen viivan tarkoittavan nollan asteen lämpötilaa. Tulin siis syyllistyneeksi alussa mainitsemaani virheeseen, että kätkin kuvan rakennepuolta liikaakin datan alle. Korjaan asian piirtämällä nollatason mustalla vaakaviivalla selkeästi näkyviin, niin että kuvien asteikkojen vastaavuus näkyy selvästi. Vaihdan keskiarvoviivat samalla katkoviivoiksi. Nyt olen tyytyväinen, vaikka epäilemättä kuvaa voisi vieläkin parantaa. Mutta joskus pitää osata myös lopettaa.

Tämän kuvaparin perusteella voisi siis olettaa, että talvet ovat nykyään aika lailla lämpimämpiä kuin 50 vuotta sitten. Mutta kuten numerotietoa esittäessä usein käy, asia ei ole niin yksinkertainen. Jos olisin valinnut vasempaan kuvaan vuodet 1972–1975, lämpötilojen keskiarvo olisi ollut -2,5 astetta. Ja jos oikeaan kuvaan olisi tullut vuosien 2010–2013 lämpötilat, keskiarvoksi saisimme -5,8. Silloin näyttäisi siltä, että talvet ne vain kylmenevät.

Saamme asiaan selvyyden piirtämällä kuvaajan neljän vuoden liukuvasta keskiarvosta.

Tässä kuvassa kohdassa 1973 merkitty arvo siis tarkoittaa vuosien 1970–1973 tammikuiden keskilämpötilaa ja kohdassa 2021 vuosien 2018–2021 tammikuiden keskilämpötilaa. Joka vuoden kohdalla on siis sen ja kolmen aikaisemman vuoden tiedot keskiarvoistettuna; tätä tarkoittaa liukuva keskiarvo. Huomaa, että vuoden 1975 kohdalla on huippu ja 2013 kohdalla laakso. Niistä poimin tuon viilentymiseen viittaavan esimerkin yllä.

Ja nyt saamme vastauksen alkuperäiseen kysymykseeni. Sovitan tuohon heiluvaiseen siniseen käyrään lineaarisen trendin, jonka piirrän punaisella. Se tavoittaa lämpötilan pääasiallisen käytöksen tarkasteluaikana. Toden totta: talvet ovat keskimäärin lämmenneet, vaikka vuotuinen (ja jopa nelivuotuinen) sään vaihtelu on Suomessa voimakasta.

Olet päässyt luvun loppuun!

Seuraava luku: