La normalizzazione è un processo fondamentale nell’analisi RNA-seq, in quanto consente di confrontare in modo accurato l’espressione genica tra campioni diversi. DESeq2 implementa un metodo di normalizzazione robusto ed efficace che tiene conto delle differenze nella dimensione della libreria e della composizione del trascrittoma.
Perché è necessaria la normalizzazione?
Le librerie di sequenziamento RNA possono variare in termini di dimensione, ovvero il numero totale di reads sequenziate. Queste differenze possono essere dovute a variazioni tecniche nel processo di preparazione delle librerie o a differenze biologiche nella quantità di RNA di partenza. Senza normalizzazione, le differenze nella dimensione della libreria potrebbero essere erroneamente interpretate come differenze nell’espressione genica.
Il metodo di normalizzazione di DESeq2
DESeq2 utilizza un metodo di normalizzazione basato sui fattori di dimensione (size factors). Questo metodo assume che la maggior parte dei geni non sia differenzialmente espressa tra le condizioni sperimentali.
Ecco come funziona:
Calcolo della mediana del rapporto: Per ogni gene, viene calcolato il rapporto tra il suo conteggio in un campione e la mediana dei suoi conteggi in tutti i campioni.
Stima dei fattori di dimensione: Per ogni campione, il fattore di dimensione è la mediana dei rapporti calcolati al punto 1. Questo fattore rappresenta un fattore di scala che viene utilizzato per normalizzare i conteggi grezzi.
Normalizzazione dei conteggi: I conteggi grezzi di ciascun gene vengono divisi per il fattore di dimensione del corrispondente campione.
Vantaggi del metodo di DESeq2:
Robustezza: Il metodo è robusto agli outlier, ovvero a geni con conteggi estremi che potrebbero influenzare altri metodi di normalizzazione.
Efficacia: Il metodo è efficace nel correggere le differenze nella dimensione della libreria e nella composizione del trascrittoma.
Semplicità: Il metodo è relativamente semplice da comprendere e implementare.
---params: mycondition: infection mynum: InfluenzaA mydenom: NonInfected mypval: 0.01 myfc: 0.8 mypadj: fdr---```{r}#| echo: false#| message: false#| warning: falsesource("_common.R")library(tidyverse)library(DESeq2) # BioClibrary(RColorBrewer)library(pheatmap)library(ggrepel)library(cowplot)library(DT)library(scales)library(vsn) # BioClibrary(apeglm) # BioClibrary(rmarkdown)library(gt)readcounts <-readRDS("data/readcounts.rds")coldata <-readRDS("data/coldata.rds")dds <-readRDS("data/dds_fitered.rds")vst <-readRDS("data/vst.rds")```# Normalizzazione {#sec-deg-norm}::: {.content-hidden when-meta="features.advanced_analysis"}La normalizzazione è un processo fondamentale nell'analisi RNA-seq, in quanto consente di confrontare in modo accurato l'espressione genica tra campioni diversi. DESeq2 implementa un metodo di normalizzazione robusto ed efficace che tiene conto delle differenze nella dimensione della libreria e della composizione del trascrittoma.**Perché è necessaria la normalizzazione?**Le librerie di sequenziamento RNA possono variare in termini di dimensione, ovvero il numero totale di reads sequenziate. Queste differenze possono essere dovute a variazioni tecniche nel processo di preparazione delle librerie o a differenze biologiche nella quantità di RNA di partenza. Senza normalizzazione, le differenze nella dimensione della libreria potrebbero essere erroneamente interpretate come differenze nell'espressione genica.**Il metodo di normalizzazione di DESeq2**DESeq2 utilizza un metodo di normalizzazione basato sui **fattori di dimensione** (size factors). Questo metodo assume che la maggior parte dei geni non sia differenzialmente espressa tra le condizioni sperimentali.**Ecco come funziona:**1. **Calcolo della mediana del rapporto:** Per ogni gene, viene calcolato il rapporto tra il suo conteggio in un campione e la mediana dei suoi conteggi in tutti i campioni.2. **Stima dei fattori di dimensione:** Per ogni campione, il fattore di dimensione è la mediana dei rapporti calcolati al punto 1. Questo fattore rappresenta un fattore di scala che viene utilizzato per normalizzare i conteggi grezzi.3. **Normalizzazione dei conteggi:** I conteggi grezzi di ciascun gene vengono divisi per il fattore di dimensione del corrispondente campione.**Vantaggi del metodo di DESeq2:**- **Robustezza:** Il metodo è robusto agli outlier, ovvero a geni con conteggi estremi che potrebbero influenzare altri metodi di normalizzazione.- **Efficacia:** Il metodo è efficace nel correggere le differenze nella dimensione della libreria e nella composizione del trascrittoma.- **Semplicità:** Il metodo è relativamente semplice da comprendere e implementare.:::::: {.content-hidden unless-meta="features.advanced_analysis"}La normalizzazione rappresenta una fase cruciale nell'analisi RNA-seq, in quanto permette di confrontare accuratamente l'espressione genica tra differenti campioni. A tal fine, DESeq2 implementa un metodo robusto ed efficace che considera le variazioni nella dimensione della libreria e la composizione del trascrittoma.:::```{r}dds_esf <-estimateSizeFactors(dds)colData(dds)colData(dds_esf)``````{r}#| echo: falsesaveRDS(dds_esf, "data/dss_esf.rds")```