Icon

ProyectoFinal_​Analisis de Datos_​MariaJosePalacios

Datos crudos

DataGov: Department of Transportation - The Bureau of Transportation Statistics (BTS)

Procesamiento y limpieza

ETL - Extract, Transform, Load

Creación de variables

Agrupamiento de categorías de alta cardinalidad: se recodificaron DEST en regiones y AIRLINE_NAME en tipos de aerolínea para facilitar el análisis exploratorio y modelado predictivo.

EDA - Exploratory Data Analysis

Gráficos Univariados

Gráficos Bivariados

Análisis de Causas de Retrasos en vuelos que salen de MIA

Predicciones

Regresión logística - predecir si un vuelo saldrá con retraso de MIA

Preprocesamiento de la data / Entrenamiento / Data Visualizing

Árbol de Deicisión - predecir si un vuelo saldrá con retraso de MIA

Preprocesamiento de la data / Entrenamiento / Data Visualizing

Objetivo General

Cubrir las distintas etapas del análisis estadístico, desde la obtención y limpieza de los datos hasta el modelado predictivo, con el fin de predecir si un vuelo doméstico que sale del aeropuerto de MIA se retrasará 15 minutos o más.

Pregunta de Investigación

  • ¿Se puede predecir si un vuelo que sale del aeropuerto de MIA hacia destinos dentro de USA se retrasará 15 minutos o más?

Hipótesis

Los vuelos domésticos que salen de MIA durante el mes de diciembre tienen una probabilidad significativa de que se retrasen 15 minutos o más (≥15 minutos).

Decisiones de Negocio

  • Planificación de operaciones y recursos

    -Ajustar personal de tierra, puertas de embarque y transporte de equipaje según horas pico o vuelos con mayor probabilidad de retraso.

    -Priorizar mantenimiento preventivo de aeronaves que tienen historial de retrasos.

  • Optimización de horarios de vuelo

    -Reprogramar vuelos en franjas horarias menos congestionadas para reducir retrasos.

    -Evitar asignar vuelos sensibles (conexiones cortas) en horas pico.

Statistics View
Scorer
Imputación - MNAR (valor fijo)
Missing Value
Column Filter
Table View
DEST_Region
Rule Engine
DEST
Value Counter
CSV Writer
Dataset para EDA
Column Filter
Variable objetivo a string
Number to String
70/30
Table Partitioner
Logistic Regression Predictor
Variables categóricas a dummies (binarias)
One to Many
Logistic Regression Learner
Distribución por dest_region
Bar Chart
Day of week vs Airline group
Crosstab
Column Filter
Distancia
Box Plot
Distribución de vuelos por tipo
Pie Chart
Día de la semana vs franja horaria de congestión
Crosstab
Bar Chart
Bar Chart
Dataset Prediction
Column Filter
Franja horaria de congestión vs Tipo de Vuelo
Crosstab
CSV Writer
Sorter
Bar Chart
Bar Chart
Scorer
Pasar de formato hora a minutos de variables CSR
Column Expressions (legacy)
Table Transposer
Table View
Causas de retrasos (si=1, no=0)
Math Formula (Multi Column)
Normalizer Apply (PMML)
Causas de retrasos y sus frecuencias
GroupBy
Normalizer (PMML)
Dec 2024
CSV Reader
Dec 2023
CSV Reader
Dec 2022
CSV Reader
Bar Chart
Dec 2021
CSV Reader
ROC Curve
Desbalance de retraso=1 vs =0, 24%
SMOTE
Column Name Replacer
Distribución por grupo de aerolíneas
Pie Chart
RowID
Causas de retrasos y sus frecuencias
Bar Chart
Total minutos de retraso por causa por grupo de aerolíneas
GroupBy
Total delay por grupo de aerolíneas
Math Formula
Distribución de vuelos por año en diciembre
Bar Chart
Airline_Group
Rule Engine
Validar horas programas de salida en formato militar HH:mm
Statistics View
Creación de Flight_Type (corto, medio, largo) a partir de Distance
Rule Engine
Franja horaria con congestión de vuelos (congestion_slot)
Rule Engine
Table View
Total delay por aerolínea
Pie Chart
Variables para análisis
Column Filter
Total de vuelos con retraso por grupo de aerolíneas
GroupBy
Concatenate
MIA Origin
Row Filter
Column Filter
Bar Chart
Codificación numerico a variablescategoricas
Auto-Binner (deprecated)
Filtrar registros inconsistentes (vuelo cancelado no debe tener registro de salida)
Rule-based Row Filter
Entrenamiento
Decision Tree Learner
Statistics View
70/30
Table Partitioner
Decision Tree View (JavaScript) (legacy)
Airline_Name
Excel Reader
CSV Writer
Predicciones
Decision Tree Predictor
Joiner

Nodes

Extensions

Links