Icon

Project_​TMDB_​Hamza

Nettoyage des données

Import des données TMDB

Analyse exploratoire des films (EDA)

Transformation & création de variables

Import du fichier TMDB
CSV Reader
Vue d’ensemble des variables : type, valeurs manquantes et statistiques descriptives de base.
Statistics View
Regroupe la note moyenne en quatre niveaux de satisfaction : mal noté, correct, bien noté, excellent.
Rule Engine
Sélection des colonnes utiles pour l’analyse des films (date, durée, budget, revenu, popularité, votes…).
Column Filter
Vérification des doublons sur la clé id.
Duplicate Row Filter
Imputation des valeurs manquantes sur les durées des films (runtime) avec la médiane. Les autres colonnes sont conservées en l’état.
Missing Value
Histogramme de la durée des films (runtime)
Histogram
Histogramme du budget ajusté des films
Histogram
Crée une variable catégorielle basée sur l’indicateur de popularité : peu populaire, populaire ou très populaire.
Rule Engine
Filtrage des colonnes pour ne garder que les variables utiles à l’analyse finale.
Column Filter
Bar chart du nombre de films par catégorie de rentabilité (ROI).
Bar Chart
Bar chart du ROI moyen par catégorie de films.
Bar Chart
Agrégation des films par catégorie de ROI (roi_cat) : nombre de films et moyennes du budget ajusté, revenu ajusté, ROI, note moyenne et popularité.
GroupBy
Column Renamer
Export du jeu de données final (films TMDB) avec les variables nettoyées et les nouvelles features (ROI, catégories de budget, note, popularité) au format CSV pour des analyses externes (Excel / Power BI).
CSV Writer
Box plot du budget et des revenus ajustés pour visualiser la dispersion et repérer les films avec des valeurs extrêmes (blockbusters).
Box Plot
Histogramme du revenu ajusté des films (revenue_adj) pour visualiser la distribution des recettes et repérer les blockbusters.
Histogram
Heatmap des corrélations linéaires entre les principales variables.
Heatmap
Histogramme des notes moyennes (vote_average) pour voir la répartition des évaluations.
Histogram
Diagramme en barres du nombre de films par année de sortie (release_year).
Bar Chart
Linear Correlation
Création d’une variable catégorielle qui classe les films en petit, moyen ou gros budget selon le montant du budget ajusté.
Rule Engine
Transforme le ROI numérique en étiquette qualitative : flop, rentable, succès ou blockbuster selon le niveau de rentabilité.
Rule Engine
Column Filter
Calcule le retour sur investissement du film en comparant le revenu ajusté au budget ajusté.
Math Formula

Nodes

Extensions

Links