Le righe (cioè i geni) del dataset originale che hanno meno di 5 conteggi di lettura sono state filtrate: questo è un modo standard per rimuovere i geni non espressi e rendere la tabella dei dati più leggera, poiché molti geni sono per lo più non espressi. In casi particolari può essere utilizzato un numero diverso (più alto), al fine di essere più stringenti.

Nella tabella sottostante un sotto insieme dei campioni: 25 osservazioni (geni) e 4 variabili (individui).

Mostra il codice R
# create DESeq objects (Dataset)
dds <- DESeqDataSetFromMatrix(
  countData = readcounts,
  colData = coldata,
  design = ~infection
)
#> Warning in DESeqDataSet(se, design = design, ignoreRank): some variables in
#> design formula are characters, converting to factors

# remove genes with less than 5 counts
dds <- dds[rowSums(counts(dds)) > 5, ]

datatable(counts(dds)[1:25, 1:4],
  options = list(
    pageLength = 5,
    autoWidth = TRUE,
    dom = "Bfrtip",
    filter = "top"
  ), rownames = TRUE
)
Mostra il codice R

saveRDS(dds, "data/dds_fitered.rds")