Προηγμένες μέθοδοι εξόρυξης δεδομένων για την εξαγωγή γνώσης από βιολογικές βάσεις δεδομένων
Ακρωνύμιο | ΗΡΑΚΛΕΙΤΟΣ |
---|---|
Τίτλος | Προηγμένες μέθοδοι εξόρυξης δεδομένων για την εξαγωγή γνώσης από βιολογικές βάσεις δεδομένων |
Πηγή | ΓΓΕΤ |
Διάρκεια | 9/2003-12/2005 |
Προϋπολογισμός | €32.100 |
Ρόλος | ΕΥ |
Περιγραφή
Ο “ΗΡΑΚΛΕΙΤΟΣ” είναι μία εθνική υποτροφία που παρέχεται από το Υπουργείο Παιδείας για την ολοκλήρωηση της διδακτορικοής διατριβής του Σωτήρη Διπλάρη. Παρακάτω εξηγείται το πλαίσιο στο οποίο τοποθετείται το έργο, καθώς και οι στόχοι του.
Πλαίσιο Εργασίας
Τα τελευταία χρόνια οι βάσεις βιολογικών δεδομένων έχουν αυξηθεί σημαντικά και αποτελούν πλέον καθημερινό εργαλείο των βιολόγων. Υπάρχουν πολλοί λόγοι αναζήτησης πληροφοριών σε βάσεις δεδομένων, π.χ.:
- Όταν αποκωδικοποιείται μια ακολουθία DNA πρέπει να γνωρίζουμε αν έχει ήδη αποκωδικοποιηθεί ολόκληρη ή κάποιο τμήμα της και αν περιέχει ομόλογες ακολουθίες (ακολουθίες που προέρχονται απ’ τον ίδιο πρόγονο).
- Κάποιες απ’ τις βάσεις δεδομένων περιέχουν κωδικούς και σχόλια που αναφέρονται σε συγκεκριμένες ακολουθίες. Η γνώση του κωδικού για την ακολουθία που αναζητάμε ή τις ομόλογες ακολουθίες της μπορεί να διευκολύνει την έρευνα.
- Εύρεση όμοιων μη – κωδικοποιήσιμων ακολουθιών DNA.
- Αναζήτηση ομόλογων πρωτεϊνών.
Η ανάπτυξη προηγμένων τεχνικών εξόρυξης δεδομένων σε τέτοιες βάσεις θα αποτελέσει ισχυρό εργαλείο για τους βιολόγους-χρήστες των βάσεων.
Στόχος
Σκοπός της υποτροφίας “ΗΡΑΚΛΕΙΤΟΣ” είναι η εξόρυξη χρήσιμης για τους Βιολόγους γνώσης, σε ό,τι αφορά βάσεις δεδομένων DNA, πρωτεϊνών και βάσεις οντολογιών και βιολογικών δημοσιεύσεων.
Τα συστήματα βιοπληροφορικής μπορούν να επωφεληθούν από τις στρατηγικές εξόρυξης δεδομένων για τον εντοπισμό ενδιαφερόντων σχέσεων μέσα σε μεγάλη μάζα βιολογικών δεδομένων. Π.χ., οι μέθοδοι εξόρυξης δεδομένων μπορούν να συνοψίσουν ένα σύνολο γονιδίων που αντιστοιχούν σε μία συγκεκριμένη συμπεριφορά που αναπτύσσεται μέσα σε ένα οργανισμό.
Για την ανάπτυξη τέτοιων συστημάτων χρησιμοποιούνται γραφικά μοντέλα, όπως HMMs, Bayesian δίκτυα και σχεσιακοί αλγόριθμοι, όπως επαγωγικές μέθοδοι λογικού προγραμματισμού για την εξόρυξη τέτοιων συνόλων γονιδίων και για τη μοντελοποίηση ενός δικτύου έκφρασής τους. Στα βιολογικά δεδομένα εφαρμόζονται και μέθοδοι εξόρυξης δεδομένων βασισμένοι σε κανόνες, μέθοδοι ομαδοποίησης, μέθοδοι ταξινόμησης και νευρωνικά δίκτυα.
Τεχνικές εξόρυξης δεδομένων δεν εφαρμόζονται μόνο σε βάσεις γονιδίων-DNA, αλλά και σε βάσεις πρωτεϊνών. Αλγόριθμοι ταξινόμησης (classification) που αναπτύσσονται μπορούν να δώσουν χρήσιμα αποτελέσματα σε διάφορα προβλήματα των βιολόγων, π.χ. στην τάξινόμηση πρωτεϊνών ή στον εντοπισμό πρωτεϊνών υπεύθυνων για καρκινογένεση.Τέλος, εφαρμόζονται μέθοδοι εξόρυξης και σε βιολογικές οντολογίες. Με μεθόδους εξόρυξης δεδομένων σε σημασιολογικά δένδρα, βασισμένες σε κανόνες, ή στατιστικές, είναι δυνατός ο καθορισμός της συσχέτισης μεταξύ δύο γονιδίων ή πρωτεϊνών, διευκολύνοντας έτσι τη διαδικασία επιλογής χαρακτηριστικών στην εφαρμογή των τεχνικών εξαγωγής γνώσης.