Data cleaning per la ricerca clinica
Partecipando al corso, sarai quindi in grado di individuare e affrontare le principali caratteristiche e problematiche legate al data cleaning, in particolare nell’ambito della ricerca clinica. Verrai inoltre a conoscenza delle principali funzionalità rilevanti, per il data cleaning, tra quelle offerte dai pacchetti : {dplyr}, {janitor}, {readr}, {readxl} {stringr}, {tidyr}, e {unheadr}.
Agenda del corso:
- Introduzione, motivazione, presentazione caso studio
- Importazione dati dall'estero e primi accorgimenti
- Manipolazione di stringe: le espressioni regolari
- Problemi nelle intestazioni
- Problemi nei valori
- Sotto-intestazioni (raggruppamenti) tra i valori
- Riempimento, separazione, espansione e contrazione
- Numeri e finalizzazione
- Domande, dubbi, curiosità
"Il corso mi è molto servito per scoprire nuove funzioni di R utili in Ricerca clinica"
- Marco Dicanio
"Il corso mi è servito ad avere un'idea, da profana di programmazione, su come si svolge il data cleaning"
- Patrizia Secreti
"Seguire il corso mi è servito ad arricchire le mie conoscenze di base sulla gestione e l'acquisizione di dati da elaborare"
- Giuseppe
"Grazie a questo corso ho compreso meglio le modalità con cui utilizzare i dati, ma soprattutto che sarebbe meglio riportarli in un format più leggibile e consultabile, inoltre il taglio pratico e con esempi calzanti ha permesso una efficace fruizione del corso. "
- Francesco
Il tuo trainer
Corrado Lanera è un appassionato di R e data scientist dal 2014, seguace del Tidyverse fin dal suo esordio. Attualmente, è un post-doc presso UBEP (Unità di Biostatistica, Epidemiologia e Salute Pubblica) dell’Università di Padova. Lì, la sua attività di ricerca è principalmente diretta nell’area del machine learning e delle tecniche di phenomapping applicate a contesti clinici, con particolare attenzione alle analisi di dati di testo in linguaggio naturale e dati non strutturati per la classificazione automatica di:
- outcome clinici
- articoli scientifici per revisioni sistematiche
- segnali cinetici di dispositivi indossabili
Per la sua unità, gestisce i server RStudio Server Pro e Shiny Server per lo sviluppo e la distribuzione dei risultati, dei servizi e delle applicazioni che offrono come unità.
Ama promuovere, insegnare ed essere un esempio di come creare codice (R, ma non solo) leggibile, riproducibile e soprattutto robusto. Recentemente è stato certificato come un RStudio Trainer per il Tidyverse.