La normalizzazione è un processo fondamentale nell’analisi RNA-seq, in quanto consente di confrontare in modo accurato l’espressione genica tra campioni diversi. DESeq2 implementa un metodo di normalizzazione robusto ed efficace che tiene conto delle differenze nella dimensione della libreria e della composizione del trascrittoma.

Perché è necessaria la normalizzazione?

Le librerie di sequenziamento RNA possono variare in termini di dimensione, ovvero il numero totale di reads sequenziate. Queste differenze possono essere dovute a variazioni tecniche nel processo di preparazione delle librerie o a differenze biologiche nella quantità di RNA di partenza. Senza normalizzazione, le differenze nella dimensione della libreria potrebbero essere erroneamente interpretate come differenze nell’espressione genica.

Il metodo di normalizzazione di DESeq2

DESeq2 utilizza un metodo di normalizzazione basato sui fattori di dimensione (size factors). Questo metodo assume che la maggior parte dei geni non sia differenzialmente espressa tra le condizioni sperimentali.

Ecco come funziona:

  1. Calcolo della mediana del rapporto: Per ogni gene, viene calcolato il rapporto tra il suo conteggio in un campione e la mediana dei suoi conteggi in tutti i campioni.

  2. Stima dei fattori di dimensione: Per ogni campione, il fattore di dimensione è la mediana dei rapporti calcolati al punto 1. Questo fattore rappresenta un fattore di scala che viene utilizzato per normalizzare i conteggi grezzi.

  3. Normalizzazione dei conteggi: I conteggi grezzi di ciascun gene vengono divisi per il fattore di dimensione del corrispondente campione.

Vantaggi del metodo di DESeq2:

Mostra il codice R
dds_esf <- estimateSizeFactors(dds)

colData(dds)
#> DataFrame with 22 rows and 10 columns
#>                      title geo_accession     organism         age
#>                <character>   <character>  <character> <character>
#> GSM2545336 CNS_RNA-seq_10C    GSM2545336 Mus musculus     8 weeks
#> GSM2545337 CNS_RNA-seq_11C    GSM2545337 Mus musculus     8 weeks
#> GSM2545338 CNS_RNA-seq_12C    GSM2545338 Mus musculus     8 weeks
#> GSM2545339 CNS_RNA-seq_13C    GSM2545339 Mus musculus     8 weeks
#> GSM2545340 CNS_RNA-seq_14C    GSM2545340 Mus musculus     8 weeks
#> ...                    ...           ...          ...         ...
#> GSM2545353  CNS_RNA-seq_3C    GSM2545353 Mus musculus     8 weeks
#> GSM2545354  CNS_RNA-seq_4C    GSM2545354 Mus musculus     8 weeks
#> GSM2545362  CNS_RNA-seq_5C    GSM2545362 Mus musculus     8 weeks
#> GSM2545363  CNS_RNA-seq_6C    GSM2545363 Mus musculus     8 weeks
#> GSM2545380  CNS_RNA-seq_9C    GSM2545380 Mus musculus     8 weeks
#>                    sex   infection      strain        time      tissue
#>            <character>    <factor> <character> <character> <character>
#> GSM2545336      Female InfluenzaA      C57BL/6        Day8  Cerebellum
#> GSM2545337      Female NonInfected     C57BL/6        Day0  Cerebellum
#> GSM2545338      Female NonInfected     C57BL/6        Day0  Cerebellum
#> GSM2545339      Female InfluenzaA      C57BL/6        Day4  Cerebellum
#> GSM2545340        Male InfluenzaA      C57BL/6        Day4  Cerebellum
#> ...                ...         ...         ...         ...         ...
#> GSM2545353      Female NonInfected     C57BL/6        Day0  Cerebellum
#> GSM2545354        Male NonInfected     C57BL/6        Day0  Cerebellum
#> GSM2545362      Female InfluenzaA      C57BL/6        Day4  Cerebellum
#> GSM2545363        Male InfluenzaA      C57BL/6        Day4  Cerebellum
#> GSM2545380      Female InfluenzaA      C57BL/6        Day8  Cerebellum
#>                mouse
#>            <integer>
#> GSM2545336        14
#> GSM2545337         9
#> GSM2545338        10
#> GSM2545339        15
#> GSM2545340        18
#> ...              ...
#> GSM2545353         4
#> GSM2545354         2
#> GSM2545362        20
#> GSM2545363        12
#> GSM2545380        19
colData(dds_esf)
#> DataFrame with 22 rows and 11 columns
#>                      title geo_accession     organism         age
#>                <character>   <character>  <character> <character>
#> GSM2545336 CNS_RNA-seq_10C    GSM2545336 Mus musculus     8 weeks
#> GSM2545337 CNS_RNA-seq_11C    GSM2545337 Mus musculus     8 weeks
#> GSM2545338 CNS_RNA-seq_12C    GSM2545338 Mus musculus     8 weeks
#> GSM2545339 CNS_RNA-seq_13C    GSM2545339 Mus musculus     8 weeks
#> GSM2545340 CNS_RNA-seq_14C    GSM2545340 Mus musculus     8 weeks
#> ...                    ...           ...          ...         ...
#> GSM2545353  CNS_RNA-seq_3C    GSM2545353 Mus musculus     8 weeks
#> GSM2545354  CNS_RNA-seq_4C    GSM2545354 Mus musculus     8 weeks
#> GSM2545362  CNS_RNA-seq_5C    GSM2545362 Mus musculus     8 weeks
#> GSM2545363  CNS_RNA-seq_6C    GSM2545363 Mus musculus     8 weeks
#> GSM2545380  CNS_RNA-seq_9C    GSM2545380 Mus musculus     8 weeks
#>                    sex   infection      strain        time      tissue
#>            <character>    <factor> <character> <character> <character>
#> GSM2545336      Female InfluenzaA      C57BL/6        Day8  Cerebellum
#> GSM2545337      Female NonInfected     C57BL/6        Day0  Cerebellum
#> GSM2545338      Female NonInfected     C57BL/6        Day0  Cerebellum
#> GSM2545339      Female InfluenzaA      C57BL/6        Day4  Cerebellum
#> GSM2545340        Male InfluenzaA      C57BL/6        Day4  Cerebellum
#> ...                ...         ...         ...         ...         ...
#> GSM2545353      Female NonInfected     C57BL/6        Day0  Cerebellum
#> GSM2545354        Male NonInfected     C57BL/6        Day0  Cerebellum
#> GSM2545362      Female InfluenzaA      C57BL/6        Day4  Cerebellum
#> GSM2545363        Male InfluenzaA      C57BL/6        Day4  Cerebellum
#> GSM2545380      Female InfluenzaA      C57BL/6        Day8  Cerebellum
#>                mouse sizeFactor
#>            <integer>  <numeric>
#> GSM2545336        14   1.134369
#> GSM2545337         9   0.909434
#> GSM2545338        10   0.856613
#> GSM2545339        15   0.914962
#> GSM2545340        18   0.929113
#> ...              ...        ...
#> GSM2545353         4    1.10654
#> GSM2545354         2    0.97923
#> GSM2545362        20    1.08336
#> GSM2545363        12    1.00029
#> GSM2545380        19    1.13368