- Formidle tall

Når resultater fra et forskningsprosjekt formidles i en vitenskapelig artikkel har forfatterne begrenset plass. Forfatterne må prioritere hvilke data de vil presentere. Denne prosessen kan føre til skjevfremstilling av resultater og mangelfull rapportering av detaljer. I grafiske fremstillinger kan samme resultat tydeliggjøres og usynliggjøres ved å justere figurens layout. Tilsvarende kan oppfatningen av resultatene i en studie avhenge av hvilke tall (resultater) som trekkes frem og måten tallene presenteres på. Nedenfor viser vi to eksempler på hvordan tall kan presenteres.

Formidle forskjeller i gjennomsnitt
I forskningsartikler benyttes ofte figurer for å visualisere studiens resultater. Bruk av figurer fremmer lesbarheten. Samtidig kan dette påvirke leserens forståelse av resultatene i en retning som taler til studiens fordel. I figur 1 er resultatene som ser på effekter av massasje for hvordan nakkeproblemer påvirker hverdagsaktivitet, fremstilt grafisk. For å demonstrere at enkle layoutmessige virkemidler kan påvirke leserens tolkning av resultatet har vi valgt å vise resultatene på to måter. Det eneste som skiller de to framstillinger er at de mest interessante delene av figurene er forstørret i figuren til høyre, samtidig som standardavvik (vertikale linjer) er byttet ut med tilhørende standardfeil. Ville du blitt lurt av våre virkemidler?

Figur 1 Samme datasett, to ulike grafiske framstillinger


Formidle forskjeller i frekvens
I modulen om analyse av tall så vi at resultatet kan presenteres på ulike måter selv når utfallet er todelt (ja/nei). De ulike effektstørrelser (for eksempel relativ riskio og odds ratio) baserer seg på det samme tallmaterialet, men har ulike styrker og svakheter. Hvilke effektestimat som presenteres i en artikkel kan ha stor betydning for hvordan leseren oppfatter resultatene. I tabell 1 illustrerer vi dette ved å se på to ulike studier, og for hver av studiene har vi beregnet fire ulike effektestimat (OR, RR, ARR og NNT):

Tabell 1 Resultat presentert ved hjelp av ulike effektstørrelser

Effektstørrelse Artikkel 1¶ Artikkel 2¶¶
Odds Ratio [95% CI] 0,38 [0,22 til 0,67] 0,16 [0,06 til 0,48]
Risk Ratio [95% CI] 0,39 [0,22 til 0,68] 0,69 [0,55 til 0,86]
ARR [95% CI] 0,6 % [0,3 til 0,7] 28 % [13 til 41]
NNT [95% CI] 172 [143 til 333] 3,5 [2,4 til 7,7]

¶ Bosch et al (2002) BMJ 324:699-702 ¶¶ Brent et al (1995) Arch Pediatr Adolesc Med 149: 788-803

En av de viktigste forskjellene på de to artiklene er hyppigheten av utfallet de måler (henholdsvis 9 per 1000 og 912 per 1000). Dette har betydning for hvordan de ulike effektstørrelsene forholder seg til hverandre. Ved lav forekomst ligger relative effektstørrelser (OR og RR) nært i verdi, mens ved høy forekomst vil OR gi mer ekstreme verdier enn RR. Det kan gi rom for misforståelser idet mange lesere tolker OR på samme måte som RR. Absolutte effektstørrelser (ARR og NNT) vil i mye større grad enn relative størrelser (OR og RR) reflektere forekomsten av utfallet som måles. Når man skal vurdere resultater kan det derfor være nyttig å sammenligne flere ulike effektestimat.

Statistisk forskjell er ingen forskjell før den utgjør en forskjell for pasienten
Av og til kan studier påvise små effektforskjeller mellom to tiltak. Det vil si at effekten av tiltaket som studeres ganske sikkert (> 95 %) er større enn null, men at effekten er for liten til å utgjøre en praktisk forskjell for pasientene (tabell 2).

Tabell 2 Ikke alle statistisk signifikante forskjeller er klinisk viktig

Utfallsmål Skala Endring Statistisk signifikant Klinisk signifikant
Neck disability index 0 til 50 2,1 Ja Tvilsomt
Symptombelastning 0 til 10 1,6 Ja Sannsynlig

I studien som undersøkte effekten av massasje hos pasienter med kroniske nakkesmerter, følte 8,5 ganger flere av pasientene i massasjegruppen seg bedre fire uker etter behandling, og tiltaket kan sies å være virkningsfullt både fra et statistisk (p<0,003) og et klinisk ståsted. Den samme studien så på hvordan nakkeproblemer begrenser hverdagsaktiviteter.
Gjennomsnittsforskjellen mellom gruppene ved fire uker er statistisk signifikant (p=0,047), men en forskjell på 2.1 poeng på en skala fra 0-50 betyr antageligvis lite for pasienten. Forskjellen i symptombelastning ved fire uker er også statistisk signifikant (p= 0,006), nærmere bestemt 1,6 poeng. Symptombelastningsskalaen som er brukt går fra 0-10 poeng, så her kan man tenke seg at forskjellen betyr noe for pasienten i hverdagen. Det viser at statistisk signifikans ikke nødvendigvis tilsier at et tiltak skal iverksettes. Helsepersonell og pasient må i fellesskap vurdere om gjennomsnittlig behandlingseffekt vil gjøre påvirke praksis. Potensiell effekt må også vurderes opp mot risiko for bivirkninger og opp mot totale behandlingskostnader (helseøkonomiske analyser).

BlyantKjetil G. Brurberg, Kunnskapssenteret, forteller om utfordringer knyttet til formidling og forståelse av tall. Kjetil underviser i statistikk og kunnskapsbasert praksis, og han skriver kunnskapsoppsummeringer med mer.