Εφαρμογή τεχνικών εξόρυξης δεδομένων σε συστήματα ερωταπαντήσεων με εφαρμογή στο διαγωνισμό MSR Mining Challenge 2019

Η δημιουργία αποθηκών ανοικτού λογισμικού (π.χ. Sourceforge, GitHub) και κοινοτήτων ερωταπαντήσεων (π.χ. Stack Overflow) τα τελευταία χρόνια προσφέρει πολλές δυνατότητες μελέτης για την απάντηση πληθώρας ερευνητικών ερωτημάτων σε μεγάλη κλίμακα.

Στο πλαίσιο του διαγωνισμού MSR Mining Challenge 2019 δίνεται ένα σύνολο δεδομένων από 32 εκατομμύρια αναρτήσεις στο Stack Overflow από περισσότερους από 8 εκατομμύρια χρήστες. Τα δεδομένα περιέχουν πληροφορία κειμένου, κώδικα, μετα-πληροφορίες (π.χ. users, score), καθώς και το ιστορικό αλλαγών των αναρτήσεων. Τα δεδομένα αυτά μπορούν να χρησιμοποιηθούν για την απάντηση πληθώρας ερωτημάτων όπως το ποια τμήματα κώδικα προτιμώνται από τους χρήστες, τι χαρακτηριστικά έχουν αυτά τα τμήματα, πως εξελίσσονται οι λύσεις που προτιμώνται από την κοινότητα, κ.α.

Στόχος της διπλωματικής είναι να αναζητήσει σε ερευνητικό επίπεδο τα ερωτήματα που ενδιαφέρουν τόσο θεωρητικά όσο και πρακτικά την κοινότητα των προγραμματιστών και να προσδιορίσει τις απαντήσεις σε αυτά με βάση τα δεδομένα αναρτήσεων που δίνονται. Τα δεδομένα που βρίσκονται σε μια βάση δεδομένων μεγάλης κλίμακας (Google BigQuery) προσπελαύνονται με χρήση της γλώσσας ερωτημάτων SQL.

Κωδικός:Fall18-softeng-6

Εμπλεκόμενες Τεχνολογίες

  • Εξόρυξη Δεδομένων
  • Τεχνολογία Λογισμικού
  • Βάσεις Δεδομένων

Γνώσεις που θα αποκτηθούν

  • Ερευνητική εμπειρία στην Τεχνολογία Λογισμικού
  • Εφαρμογή Αλγορίθμων σε Βάσεις Δεδομένων
  • Βασικές διαδικασίες Ανάκτησης Πληροφοριών και Αλγορίθμων

Εκτιμώμενος Χρόνος Περάτωσης

6 μήνες

Συνεργαζόμενοι Ερευνητές

Αναπληρωτής καθηγητής Ανδρέας Λ. Συμεωνίδης (asymeon [at] issel [dot] ee [dot] auth [dot] gr)
Μεταδιδακτορικός Ερευνητής Θεμιστοκλής Διαμαντόπουλος (thdiaman [at] issel [dot] ee [dot] auth [dot] gr)