Icon

Credit Card Fraud Classification

DATA READINGDataset available on the following link: https://www.kaggle.com/mlg-ulb/creditcardfraud DATA PARTITIONING Il dataset viene suddiviso in due sottoinsiemi disgiunti: laPartizione A verrà usata per l'apprendimento dei modelli ele fasi di Feature Selection e ottimizzazione degliiperparametri (venendo suddivisa a sua volta in TrainingSet e Validation Set), mentre la Partizione B verrà usataper testare le performance dei modelli su dati mai utilizzatiin precedenza, per evitare l'overfitting DATA EXPLORATION & PREPROCESSING CLASS IMBALANCE PROBLEMModello di benchmark: Random Forest(RandomForest (3.7) - Weka)Procedura: Holdout PROCEDURE ASSESMENTModello di benchmark:Random Forest(RandomForest (3.7) -Weka)Procedura: Holdout FEATURE SELECTIONStrategia: Wrapper - Backward feature selectionMetodo selezionato: Cost sensitive classifierModelli stimati: J48, Random Forest, Naive Bayes,Logistic Regression, Support Vector Machine, MultiLayerPerceptron, K-Nearest Neighbour PERFORMANCE EVALUATIONProcedura: K-fold cross validation Modelli stimati: J48, Random Forest, Naive Bayes, LogisticRegression, Support Vector Machine, MultiLayer Perceptron,K-Nearest NeighbourAttributi utilizzati: Per ciascun classificatore gli attributirilevanti ottenuti dalla feature selectionTarget: Massimo valore di recall con valore accettabile diprecision. Costo più basso possibile OTTIMIZZAZIONE DEGLI IPERPARAMETRIModelli stimati: J48, Random Forest, LogisticRegression, Support Vector Machine, MultiLayerPerceptron, K-Nearest NeighbourTarget: Minimizzare il costoSearch strategy: Brute force RISULTATIPOST-FEATURE SELECTION RISULTATIPOST-OTTIMIZZAZIONE DEGLI IPERPARAMETRI Credit cardfraud datasetPartizione A (67%)Partizione B (33%)Unbalanced classCreo dati"sintetici"Cost sensitve classifierPartizione A: attributo ClassPartizione B: attributo ClassUndersamplingOversamplingCross ValidationHoldoutRecallPrecision CSV Reader Partitioning Procedura Holdout Equal Size Sampling SMOTE Procedura Holdout Bar Chart Bar Chart Procedura Holdout Procedura Holdout Feature selection Cost Matrix Cross validation Ottimizzazione degliiperparametri Data exploration& preprocessing Concatenate InteractiveTable (local) InteractiveTable (local) InteractiveTable (local) Box Plot (local) Box Plot (local) DATA READINGDataset available on the following link: https://www.kaggle.com/mlg-ulb/creditcardfraud DATA PARTITIONING Il dataset viene suddiviso in due sottoinsiemi disgiunti: laPartizione A verrà usata per l'apprendimento dei modelli ele fasi di Feature Selection e ottimizzazione degliiperparametri (venendo suddivisa a sua volta in TrainingSet e Validation Set), mentre la Partizione B verrà usataper testare le performance dei modelli su dati mai utilizzatiin precedenza, per evitare l'overfitting DATA EXPLORATION & PREPROCESSING CLASS IMBALANCE PROBLEMModello di benchmark: Random Forest(RandomForest (3.7) - Weka)Procedura: Holdout PROCEDURE ASSESMENTModello di benchmark:Random Forest(RandomForest (3.7) -Weka)Procedura: Holdout FEATURE SELECTIONStrategia: Wrapper - Backward feature selectionMetodo selezionato: Cost sensitive classifierModelli stimati: J48, Random Forest, Naive Bayes,Logistic Regression, Support Vector Machine, MultiLayerPerceptron, K-Nearest Neighbour PERFORMANCE EVALUATIONProcedura: K-fold cross validation Modelli stimati: J48, Random Forest, Naive Bayes, LogisticRegression, Support Vector Machine, MultiLayer Perceptron,K-Nearest NeighbourAttributi utilizzati: Per ciascun classificatore gli attributirilevanti ottenuti dalla feature selectionTarget: Massimo valore di recall con valore accettabile diprecision. Costo più basso possibile OTTIMIZZAZIONE DEGLI IPERPARAMETRIModelli stimati: J48, Random Forest, LogisticRegression, Support Vector Machine, MultiLayerPerceptron, K-Nearest NeighbourTarget: Minimizzare il costoSearch strategy: Brute force RISULTATIPOST-FEATURE SELECTION RISULTATIPOST-OTTIMIZZAZIONE DEGLI IPERPARAMETRI Credit cardfraud datasetPartizione A (67%)Partizione B (33%)Unbalanced classCreo dati"sintetici"Cost sensitve classifierPartizione A: attributo ClassPartizione B: attributo ClassUndersamplingOversamplingCross ValidationHoldoutRecallPrecision CSV Reader Partitioning Procedura Holdout Equal Size Sampling SMOTE Procedura Holdout Bar Chart Bar Chart Procedura Holdout Procedura Holdout Feature selection Cost Matrix Cross validation Ottimizzazione degliiperparametri Data exploration& preprocessing Concatenate InteractiveTable (local) InteractiveTable (local) InteractiveTable (local) Box Plot (local) Box Plot (local)

Nodes

Extensions

Links