Εφαρμογή τεχνικών εξόρυξης δεδομένων σε αποθήκες λογισμικού με εφαρμογή στο διαγωνισμό MSR Mining Challenge 2020

Η δημιουργία αποθηκών ανοικτού λογισμικού (Sourceforge, GitHub, Gitlab, κτλ.) τα τελευταία χρόνια προσφέρει πολλές δυνατότητες μελέτης για την απάντηση πληθώρας ερευνητικών ερωτημάτων σε μεγάλη κλίμακα.

Στο πλαίσιο του διαγωνισμού MSR Mining Challenge 2020 δίνεται ένα σύνολο δεδομένων από 5 δισεκατομμύρια αρχεία κώδικα προερχόμενα από 80 εκατομμύρια έργα λογισμικού που βρίσκονται σε πήγες όπως το GitHub και το Gitlab. Τα δεδομένα περιέχουν πληροφορία για το περιεχόμενο του κώδικα καθώς επίσης και για το ιστορικό του (commits), τα σχετικά releases (εκδόσεις) του λογισμικού κ.α. Τα δεδομένα αυτά μπορούν να χρησιμοποιηθούν για την απάντηση πληθώρας ερωτημάτων όπως ποια τμήματα κώδικα προτιμώνται από τους χρήστες, τι χαρακτηριστικά έχουν αυτά τα τμήματα, πως εξελίσσονται οι λύσεις που προτιμώνται από την κοινότητα, κ.α.

Στόχος της διπλωματικής είναι να απαντήσει συγκεκριμένα ερωτήματα που ενδιαφέρουν την κοινότητα κυρίως σε σχέση με την ποιότητα του κώδικα (συντηρισιμότητα, ασφάλεια, χρηστικότητα κλπ). Τα δεδομένα που βρίσκονται σε μια βάση δεδομένων (Postgres) προσπελαύνονται με χρήση της γλώσσας ερωτημάτων SQL.

Παρατήρηση: Μπορεί να είναι περισσότερα του ενός θέματα διπλωματικών

Σχετικοί σύνδεσμοι:

Κωδικός: Autumn19-Softeng-6

Εμπλεκόμενες Τεχνολογίες – Γνώσεις που θα αποκτηθούν

  • Τεχνολογία Λογισμικού
  • Ανάλυση δεδομένων/Μηχανική Μάθηση
  • Βάσεις δεδομένων
  • Τεχνολογίες/Γλώσσες προγραμματισμού: scikit-learn ή αντίστοιχη βιβλιοθήκη εξόρυξης κειμένου/Python ή Java)

Εκτιμώμενος Χρόνος Περάτωσης

6 – 9 Μήνες

Συνεργαζόμενοι Ερευνητές

Μεταδιδακτορικός Ερευνητής: Θεμιστοκλής Διαμαντόπουλος (thdiaman [at] issel [dot] ee [dot] auth [dot] gr) Υποψήφιος Δρ: Θωμάς Καρανικιώτης (thomas.karanikiotis [at] issel [dot] ee [dot] auth [dot] gr)