Icon

2_​Data_​Preparation

DATA PREPARATION 1)Filtriamo la tabella AirLine per ORD,perché vogliamo vedere solo i voli chepartono da ORD e per i voli che non sonostati cancellati. 2)Creiamo la target departed delay per ivoli che partono dopo 15 minuti di ritardo:delay/no delay.3)Converiamo la colonna date in formatodata per entrambe le tabelle.4)Uniamo le tabelle con la colonna DATA DIMENSIONALITY REDUCTION GESTIONE DEI VALORI MANCANTI:-Missing value column filter: Eliminiamo le colonne che all'interno hanno una presenza di valori mancanti >80%- Row Filter:Eliminiamo i valori mancanti di DepDelay perché è la variabile che vogliamo analizzare-Missing value:Sostuiamo i valori mancanti nelle altre colonne con: Le variabili numeriche:la moda, le variabili stringhe:"Unknow", levariabili date: rimozione della riga.GESTIONE DEI VALORI RIDONDANTI-Constant value column filter:Eliminiamo le colonne duplicateGESTIONE DEI VALORI ANOMALINumeric outlier: rileviamo gli outlier e li eliminiamo (alternativa è la sostituzione del valore con il valore estremo piùvicino) {Un'osservazione è contrassegnata come outlier se si trova al di fuori dell'intervallo R = [Q1 - k (IQR), Q3 + k (IQR)] con IQR =Q3 - Q1 e k> = 0} NORMALIZATION &PARTITIONING RIPARTIZIONE IN TRAINING E TEST DATASET:-Normalizer: Normaliziamo i valori numeri tra 0 e1-Partizionamo il dataset in training set dove i volipartono prima del 15/01/2007 e in test set dove ivoli partono tra il 16/01/2007 e il 31/01/2007 x PAOLONumeric outliers -> fare remove o replace?variance filter -> viene utilizzato per filtrarele immaginicorrelation filter -> lasciare settings a 1? ReadAirlineNew Column: DepartedDelayReadGHCNJoin DateFilter column missing value>80%Filter missing value DepDelayMissing value string: Unknow DistanceBin Eliminate constant columnNormalizer MinMax01-20/01/200720-31/01/2007TrainingTestConvert in Data Format:GHNCk=6(k=1.5 i valori più vicini agli estremi dei quartili Q1-Q3)Filter out correlated columnsTable Reader Rule Engine Excel Reader (XLS) Joiner Missing ValueColumn Filter Row Filter Missing Value Numeric Binner Constant ValueColumn Filter Normalizer Date&Time-basedRow Filter Date&Time-basedRow Filter Table Writer Table Writer String to Date&Time Numeric Outliers Low Variance Filter Correlation Filter PCA Linear Correlation DATA PREPARATION 1)Filtriamo la tabella AirLine per ORD,perché vogliamo vedere solo i voli chepartono da ORD e per i voli che non sonostati cancellati. 2)Creiamo la target departed delay per ivoli che partono dopo 15 minuti di ritardo:delay/no delay.3)Converiamo la colonna date in formatodata per entrambe le tabelle.4)Uniamo le tabelle con la colonna DATA DIMENSIONALITY REDUCTION GESTIONE DEI VALORI MANCANTI:-Missing value column filter: Eliminiamo le colonne che all'interno hanno una presenza di valori mancanti >80%- Row Filter:Eliminiamo i valori mancanti di DepDelay perché è la variabile che vogliamo analizzare-Missing value:Sostuiamo i valori mancanti nelle altre colonne con: Le variabili numeriche:la moda, le variabili stringhe:"Unknow", levariabili date: rimozione della riga.GESTIONE DEI VALORI RIDONDANTI-Constant value column filter:Eliminiamo le colonne duplicateGESTIONE DEI VALORI ANOMALINumeric outlier: rileviamo gli outlier e li eliminiamo (alternativa è la sostituzione del valore con il valore estremo piùvicino) {Un'osservazione è contrassegnata come outlier se si trova al di fuori dell'intervallo R = [Q1 - k (IQR), Q3 + k (IQR)] con IQR =Q3 - Q1 e k> = 0} NORMALIZATION &PARTITIONING RIPARTIZIONE IN TRAINING E TEST DATASET:-Normalizer: Normaliziamo i valori numeri tra 0 e1-Partizionamo il dataset in training set dove i volipartono prima del 15/01/2007 e in test set dove ivoli partono tra il 16/01/2007 e il 31/01/2007 x PAOLONumeric outliers -> fare remove o replace?variance filter -> viene utilizzato per filtrarele immaginicorrelation filter -> lasciare settings a 1? ReadAirlineNew Column: DepartedDelayReadGHCNJoin DateFilter column missing value>80%Filter missing value DepDelayMissing value string: Unknow DistanceBin Eliminate constant columnNormalizer MinMax01-20/01/200720-31/01/2007TrainingTestConvert in Data Format:GHNCk=6(k=1.5 i valori più vicini agli estremi dei quartili Q1-Q3)Filter out correlated columnsTable Reader Rule Engine Excel Reader (XLS) Joiner Missing ValueColumn Filter Row Filter Missing Value Numeric Binner Constant ValueColumn Filter Normalizer Date&Time-basedRow Filter Date&Time-basedRow Filter Table Writer Table Writer String to Date&Time Numeric Outliers Low Variance Filter Correlation Filter PCA Linear Correlation

Nodes

Extensions

Links