Περίληψη:
Η ανάλυση διαφορικής γονιδιακής έκφρασης είναι αναπόσπαστο μέρος των transcriptomics, τόσο
σε bulk όσο και σε single – cell ροές εργασίας, καθώς τα σημαντικά διαφοροποιημένα γονίδια
συμβάλλουν στην εμφάνιση ή τη θεραπεία μιας ασθένειας και αποτελούν κρίσιμη βιολογική
γνώση. Τα τελευταία χρόνια – με την έλευση των τεχνολογιών αλληλουχίας επόμενης γενιάς, είναι
διαθέσιμα περισσότερα δεδομένα και σε λιγότερο χρόνο, και πλέον οι τεχνολογίες scRNA
επιτρέπουν την ανακάλυψη διαφορικά εκφραζόμενων γονιδίων με κυτταρική ετερογένεια. Η
πλειοψηφία των αναλύσεων πραγματοποιείται στη γλώσσα προγραμματισμού R, καθώς τα
περισσότερα εργαλεία έχουν αναπτυχθεί εκεί και διατηρούνται και ενημερώνονται τακτικά, με
πλήρη τεκμηρίωση και αναρίθμητες δημοσιεύσεις. Ωστόσο, υπάρχει ζήτηση από μια μεγάλη
ερευνητική κοινότητα να δημιουργηθούν τέτοιες αντίστοιχες τυπικές διαδικασίες στην Python,
καθώς υποστηρίζεται ο καλύτερος χειρισμό μεγάλων δεδομένων. Έτσι, σε αυτή τη διπλωματική
εργασία, εξετάζονται και συγκρίνονται 6 διαφορετικά εργαλεία για ανάλυση διαφορικής
γονιδιακής έκφρασης που αναπτύχθηκαν στην Python και εφαρμόζονται σε δεδομένα single – cell.
Η σύγκριση λαμβάνει υπόψη σημαντικά γνωρίσματα μεθόδων, όπως η διαθεσιμότητα
τεκμηρίωσης ή δημοσιεύσεων, η απόδοση της ανάλυσης (χρόνος εκτέλεσης και οι απαιτούμενοι
πόροι - υπολογιστική ισχύς) και η συνολική εμπειρία χρήστη. Ο κώδικας εκτελείται
χρησιμοποιώντας Google Colab που είναι συνδεδεμένος στο Docker Desktop, ο οποίος
εκμεταλλεύεται τους τοπικούς πόρους του συστήματος, γεγονός που βελτιώνει τη συνολική
απόδοση. Τα αποτελέσματα επαληθεύουν μία πρόσφατη διαπίστωση, ότι η εκτέλεση bulk
μεθόδων σε δεδομένα scRNA είναι λειτουργική, το Scanpy κατέχει το σημείο αναφοράς για
σχεδόν κάθε άλλη μέθοδο και ένα εργαλείο που αναπτύχθηκε πρόσφατα, το Scarf, είναι πολλά
υποσχόμενο όσον αφορά τον χειρισμό μεγάλων δεδομένων scRNA-seq και στην διαχείριση των
υπολογιστικών πόρων.