Icon

Tarea 3

Separamos los "duplicate'' y ''chosen'' para hacer un an análisis más preciso

Se toman por duplicados los resultados que coincidan con el DNI, ya que este debería ser un identificador único (atributo principal). Tener más resultados significaría que una persona tenía más de 1 cuenta entre los bancos.

Debido a que los tres bancos se van a unir, las variables numéricas se tratarán de acuerdo a su caso de uso.

Por otro lado las variables cualitativas, se contatenarán en caso de que existan diferencias en los registros.

Hacer aclaración de por que se utilizó cada medida para cada métrica.

Los credit scores está en la misma escala.

Debido a que tenemos celdas que contienen más de un valor, separamos estos valores en diferentes columnas. Para así poder tratarlo en Tableau.

Este fue el mejor método que se encontró para hacer una especie de One-hot encoding. Para así tener las catergorías unificadas de diferentes bancos y no perderlas al tener una base de datos consolidada. Al mismo tiempo esto nos permitirá generar gráficos de mejor manera en Tableue

Base de datos Bankdig
CSV Reader
Base de datos banktrad
CSV Reader
Base de datos Dbank
CSV Reader
Adding an identifier for the bank
Constant Value Column Appender
Adding an identifier for the bank
Constant Value Column Appender
Adding an identifier for the bank
Constant Value Column Appender
Column Filter
Create Bit Vector
Unir las 3 base de datos en una
Concatenate
Agrupar por DNI, concatenando resultados por DNI
GroupBy
Expand Bit Vector
Encontrando DNIs duplicados
Duplicate Row Filter
Uniendo resultados no duplicados con datos consolidados
Concatenate
Create Bit Vector
Row Splitter
Expand Bit Vector
Ordenando por DNI para analisar valores
Sorter
Create Bit Vector
Cell Splitter
Cell Splitter
Quitando variables innecesarias
Column Filter
Expand Bit Vector
Cell Splitter
CSV final
CSV Writer

Nodes

Extensions

Links