Genomic Data Integration; στοχεύοντας στην εφαρμογή αλγορίθμων εξόρυξης δεδομένων σε σύνθετα δεδομένα

Η Βιοπληροφορική αποτελεί πλέον ένα αναπόσπαστο τμήμα των Επιστημών Ζωής, καθώς καλείται να αναλύσει έναν ολοένα αυξανόμενο όγκο δεδομένων. Παρόλα αυτά, και πέρα από τη δυνατότητα ανάλυσης μεμονωμένων πειραμάτων, οι περισσότερες προσεγγίσεις σήμερα στοχεύουν στη μελέτη μιας μόνο προοπτικής ενός προβλήματος. Υπάρχουν πολλά παραδείγματα όπου ένας συγκεκριμένος οργανισμός (πχ το σιτάρι) μελετήθηκε με πολλαπλές διαφορετικές τεχνικές από ανεξάρτητους φορείς η κάθε μία, χωρίς όμως να γίνει ποτέ μια προσπάθεια εξαγωγής συμπερασμάτων από τη συνολική εικόνα που δίνουν τα δεδομένα.
Στόχος της διπλωματικής εργασίας είναι η ανάπτυξη ενός αλγορίθμου συνένωσης και συγκέντρωσης δεδομένων (data integration) τα οποία προέρχονται από διαφορετικές μεν πηγές αλλά αποτελούν διαφορετικές οπτικές γωνίες του ίδιου προβλήματος. Το σύστημα που θα αναπτυχθεί θα βασίζεται σε δεδομένα δημόσια διαθέσιμα στην πλατφόρμα ArrayExpress (https://www.ebi.ac.uk/arrayexpress/) και θα κατασκευάζει με ενιαίο τρόπο ένα συνολικό πίνακα τιμών με κοινό άξονα τα γονίδια που αναφέρονται. Ο πίνακας αυτός θα περιέχει πληροφορίες από πολλαπλά πειράματα (με διαφορετικές ποικιλίες του ίδιου οργανισμού – διαφορετικοί φαινότυποι), και θα αποτελέσει τη βάση για εφαρμογή ενός συνόλου αλγορίθμων εξόρυξης δεδομένων.

Κωδικός:Fall18-mitkas-1

Προαπαιτούμενα

  • Καλή γνώση προγραμματισμού σε R ή/και python
  • Δομές Δεδομένων
  • Εμπειρία σε χρήση unix/shell θα είναι χρήσιμη
  • Φαντασία και όρεξη για δουλειά

Εμπλεκόμενες Τεχνολογίες – Γνώσεις που θα αποκτηθούν

  • State-of-the-art τεχνικές βιοπληροφορικής
  • Μέθοδοι συνένωσης δεδομένων μεγάλης κλίμακας
  • Αλγόριθμοι και τεχνικές ανάλυσης δεδομένων
  • Τεχνικές εξαγωγής πληροφοριών από το διαδίκτυο

Εκτιμώμενος Χρόνος Περάτωσης

6 – 9 Μήνες

Συνεργαζόμενοι Ερευνητές

Μαρία Κωτούζα (maria[dot]kotouza [at] issel[dot]ee[dot]auth[dot]gr)
Φώτης Ψωμόπουλος (fpsom [at] issel[dot]ee[dot]auth[dot]gr)