Onderstaande opdrachten maken gebruik van het cursuspakket. Download nu het cursuspakket en plaats de data bestanden in de working directory. Voorzie elke vraag van commentaar en een conclusie.

Voorbeeld vraag 1. importeer het bestand mortaliteit.csv.

# Uitleg onderstaande functie
mydata <- read.csv("mortaliteit.csv",        # commentaar (waarom de functie read.csv?)
                   header=TRUE,              # commentaar (waarom header=TRUE?)
                   sep=",")                  # commentaar (waarom de sep=,?)

# Conclusie / interpretatie van de vraag.

Opdracht 1

Data import:

  1. importeer het bestand medicijn.csv.
  • Gebruik de functie read.csv()
    • Arguments:
      • Kies de juiste parameter voor sep=" "
      • Kies de juiste parameter voor header=

Data cleanup:

  1. Voorzie de variabelen in het bestand van een de correcte class en labels. Voorzie de variabelen volgens het volgende schema (codeboek):
  • bij drug: 1=drug a, 2=drug b, 3=drug c, 4=drug x, 5=drug y en missing=9
  • bij cholesterol: 1= hoog, 2=normaal en 9=missing
  • bij bp: 1=hoog, 2=normaal, 3=laag en 9=missing
  • bij sex: 1=vrouw, 2=man, 9=missing
  • bij age, na en k: 999=missing

    • Gebruik de functie names() voor de labels
    • Gebruik de functie as.factor() en ordered voor het classificeren van categoriale variabelen
    • Gebruik de functie class en levels om de bovenstaande bewerkingen te controleren
      • Indien er sprake is van technisch incorrecte levels recodeer deze met revalue uit de package plyr.

Descriptieve statistiek:

  1. Bepaal de karakteristieken (gemiddelde, modus, mediaan, minimum, maximum, kurtosis, skewness, standaarddeviatie en de kwartielen) van alle variabelen.
  2. Maak een tabel waaruit blijkt wat de gemiddelde leeftijd van de pati?nten is per voorgeschreven medicijn. Wat valt op?

Grafieken:

  1. Maak voor elk van de variabelen in het bestand een geschikte grafiek. Beargumenteer je keuze voor het type grafiek.
  2. Maak een scatterplot van NA en K en splits de plot op het voorgeschreven medicijn. Wat valt op?

Data Manipulatie:

  1. Bij nader inzien is de gekozen value-labeling bij cholesterol en bp wat ongelukkig. Het was beter geweest dit te doen volgens het volgende schema:
  • bij cholesterol: 1=normaal, 2=hoog en 9=missing
  • bij bp: 1=laag, 2=normaal, 3=hoog en 9=missing

    • Gebruik de functie revalue() uit de package plyr voor het recoderen
    • Gebruik de functie class() en levels() om de bovenstaande bewerkingen te controleren
  1. Maak een nieuwe variabele met de leeftijd in categori?n. Gebruik de volgende leeftijdsklassen:
  • 1 = jonger dan 30
  • 2 = 30 t/m 50
  • 3 = 51 en ouder

    Label de nieuwe variabele met names(), maak een frequentietabel en een geschikte grafiek.

  1. Maak een nieuwe variabele ‘NAK’ die het quotient is van na en k.
    Maak een histogram om de verdeling van deze nieuwe variabele te visualiseren.

Inferenti?le Statistiek:

  1. Onderzoek of de leeftijdsverdeling voor mannen en vrouwen significant verschillend is.
  2. Het voorgeschreven medicijn zou afhankelijk kunnen zijn van andere variabelen in het bestand. Onderzoek met geschikte toetsen of er significante verbanden bestaan tussen het voorgeschreven medicijn en de andere variabelen in het bestand.
  3. Groepeer de nieuwe variabele NAK op basis van kwartielen in 4 groepen en maak hierna een kruistabel met het voorgeschreven medicijn. Wat valt op? Kan hieruit een conclusie worden getrokken? Kies een statistische test om dit te analyseren.

Samenvatten:

  1. Maak een beknopt data management script met daarin de data import, cleanup en manipulatie.
  2. Maak een beknopt data analyse script met daarin de descriptieve statistiek, de grafieken en de statistische analyse.
  3. voorzie het script uit vraag 13 en 14 met commentaar met daarin de interpretatie van de bevindingen van de vragen 1 t/m 12.

Opdracht 2

Data import:

  1. Open het bestand MORTALITEIT.csv.

Descriptieve statistiek:

  1. Beschrijf elke variabele in het bestand in termen van frequentietabellen, centrummaten en spreidingsmaten.

Grafieken:

  1. Maak voor elk van de variabelen in het bestand een geschikte grafiek.

Data manipulatie:

  1. Maak een nieuwe variabele LOS (Length Of Stay) die aangeeft hoelang de patient in het ziekenhuis heeft gelegen. Beschrijf deze variabele met geschikte karakteristieken.
  2. Bepaal van elke patient de leeftijd. Beschrijf deze variabele met geschikte karakteristieken.
  3. Maak een nieuwe variabele DOOD1 die aangeeft of de patient wel of niet binnen 1 jaar na opname is overleden.

Inferenti?le statistiek:

  1. Onderzoek of pati?nten die een delier hebben gehad een significant hoger overlijdensrisico hebben.
  2. Onderzoek of de gegeven medicatie (Haldol of Placebo) significant verband houdt met het krijgen van een delier.
  3. Onderzoek of de gemiddelde leeftijd per risicogroep (zie RGROEP) significant verschillend is.

Samenvatten:

  1. Maak een beknopt data management script met daarin de data import, cleanup en manipulatie.
  2. Maak een beknopt data analyse script met daarin de descriptieve statistiek, de grafieken en de statistische analyse.
  3. Voorzie het script uit vraag 10 en 11 met commentaar met daarin de interpretatie van de bevindingen van de vragen 1 t/m 9.

Advanced vragen:

  1. Het percentage pati?nten met een delier is 11,9% op basis van 596 patienten. Wat is nu de marge die bij het 95% betrouwbaarheidsinterval hoort?

  2. Stel dat vooraf het percentage delier was ingeschat op 10%. Hoe groot had dan de steekproef moeten zijn om uitspraken te kunnen doen met een betrouwbaarheid van 95% met daarbij een marge van 5%?


Opdracht 3

Data import:

  1. Open het bestand MORTALITEIT.sav.

Data manipulatie:

  1. Klassificeer de variabele RTOTAAL (Totaalrisico) in twee groepen (<=1 -> 0 en >=2 -> 1), noem de nieuwe variabele TEST en maak vervolgens een frequentietabel van deze nieuwe variabele TEST.

Descriptieve statistiek:

  1. De variabele TEST wordt nu gebruikt als testvariabele om het verkrijgen van een delier te voorspellen. Maak een kruistabel voor de variabelen TEST en DELIER met de aantallen, de rijpercentages en de kolompercentages.

Inferenti?le statistiek:

  1. Met behulp van de begrippen sensitiviteit en specificiteit kan de kwaliteit van de testvariabele als voorspeller voor het verkrijgen van delier worden onderzocht. Bepaal aan de hand van de kruistabel de sensitiviteit, de specificiteit, de prevalentie van delier, de positief-voorspellende-waarde en de negatief-voorspellende-waarde van de test. Geef vervolgens een commentaar op de bruikbaarheid van deze test als indicator voor het verkrijgen van een delier.

Samenvatten:

  1. Maak een beknopt data management script met daarin de data import, cleanup en manipulatie.
  2. Maak een beknopt data analyse script met daarin de descriptieve statistiek, de grafieken en de statistische analyse.
  3. Voorzie het script uit vraag 5 en 6 met commentaar met daarin de interpretatie van de bevindingen van de vragen 1 t/m 4.

Advanced vragen:

  1. Bij de constructie van de variabele TEST is gekozen voor de classificatie <=1 en >=2 van de variabele RTOTAAL. De keuze van deze “cut-off” is gemaakt m.b.v. een ROC-curve. Zie onderstaande output van R en geef een commentaar bij deze output.

Creative Commons-Licentie Dit werk valt onder een Creative Commons Naamsvermelding - Gelijk Delen 3.0 Internationaal-licentie .