Course Description

Περιγραφή Μαθήματος

 

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ
Διδάσκων: Φ.ΑΦΡΑΤΗ, Καθηγήτρια
Εξάμηνο: Εαρινό
Ώρες Διδασκαλίας Εβδομαδιαίως: 3
Περιοχή: ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ

Εισαγωγή στην Εξόρυξη Δεδομένων, Το πρόβλημα Market-Basket, Κανόνες Συσχέτισης και συχνά απαντώμενα σύνολα αντικειμένων, Ο A-Priori αλγόριθμος. Χαμηλή/ υψηλή συσχέτιση (Min Hashing Algorithm, LSH Algorithm, k­Min Hashing Algorithm, Hamming LSH Algorithm).
Query Flocks (ορισμός Query Flocks, στρατηγικές εκτέλεσης, Optimal Query Flock). Αναζήτηση στο Web (Page Rank, προβληματα με πραγματικο Web γραφο), Εύρεση ενδιαφερόντων συνόλων από στοιχεία (λέξεις ) σε ένα τεράστιο χώρο από πιθανούς κανόνες. Εξαγωγή δεδομένων ως δομημένη πληροφορία από το Web. Μέθοδοι για την ανεύρεση συχνών επεισοδίων μέσα σε ακολουθίες απο γεγονότα που βρίσκονται σε μεγάλα log file, clustering (Το μέτρο της απόστασης, Ο αλγόριθμος k-Means, Ο αλγόριθμος BFR, Ο αλγόριθμος FastMap, Ο αλγόριθμος GRGPF, O CURE αλγόριθμος).

 

Overview : What is Data Mining, Applications, The Data-Mining Communities, Association-Rule Mining : Association Rules and Frequent Itemsets , Market­Basket Mining, The A­Priori Algorithm, PCY Algorithm, Low-Support/High Correlation : Min Hashing Algorithm, LSH Algorithm, k­Min Hashing Algorithm, Hamming LSH Algorithm, Query Flocks: Query Flock Notation, Execution Strategies, Optimal Query Flock, Searching the Web : Page Rank, Problems With Real Web Graphs, Hubs and Authorities, Google Solution to Dead Ends and Spider Traps, Google Anti­Spam Devices, Web Mining :The DICE Engine, Books and Authors, What is Pattern, Finding Data Occurrences Given Data,, Finding Data Occurrences Given Patterns, Clustering : Distance Measure, The Curse of Dimensionality, Approaches to Clustering, The k-Means Algorithm, The BFR Algorithm Fastmap in Clustering Algorithms, Hierarchical Clustering, The GRGPF Algorithm, CURE Algorithm, Matching Sequences : Fourier Transforms as Indexes for Sequences, Matching Queries to Sequences of the Same Length, Queries That are Shorter than the Sequences, Trails, Matching Queries of Arbitrary Length, Mining Event Sequences : Episode Mining, Monotonicity of Episodes and the A­Priori Algorithm, Checking Parallel Episodes, Checking Serial Episodes, Counting Composite Events.