Icon

TMDB Movies

Importation

Nettoyage/Structuration/Transformation

EDA

Voir à quel point l’engagement (popularité, nombre de votes) est lié au succès financier.

Remplacement des valeurs manquantes dans les colonnes texte (genres, production_companies, cast, director) par la valeur ‘unknown’, afin de conserver tous les films dans les analyses par catégorie
Missing Value
Statistics View
Sélection des colonnes id et genres_transformed afin d’isoler uniquement les informations nécessaires à la création d’une table relationnelle film-genre.
Column Filter
Sélection des colonnes id et director_transformed afin de préparer une table dédiée aux réalisateurs pour chaque film.
Column Filter
Découpage de la liste de réalisateurs (séparateur |) en collection afin de séparer les réalisateurs multiples éventuels.
Cell Splitter
Découpage de la colonne genres_transformed (liste de genres séparés par |) en une collection.
Cell Splitter
Transformation de chaque collection en plusieurs lignes, chaque ligne correspondant à un couple (id, genre). Objectif : obtenir une table normalisée “une ligne = un film et un genre”
Ungroup
Découpage de la liste d’acteurs (séparateur |) en collection pour séparer chaque acteur associé à un film
Cell Splitter
Transformation de chaque collection d’acteurs en plusieurs lignes, une par couple (id, acteur), afin d’obtenir une table normalisée exploitable pour les analyses par acteur
Ungroup
Création d’une ligne par couple (id, réalisateur) afin d’obtenir une table normalisée film–réalisateur, exploitable pour des analyses par réalisateur.
Ungroup
Sélection des colonnes id et cast_transformed afin d’isoler les informations nécessaires à la création d’une table relationnelle film–acteur
Column Filter
Conservation uniquement des colonnes id et cast
Column Renamer
Conservation uniquement des colonnes id et genre
Column Renamer
Conservation uniquement des colonnes id et réalisateur
Column Renamer
Conservation uniquement des colonnes id et production_company
Column Renamer
Découpage de la liste des sociétés de production (séparée par “|”) en une collection, pour séparer chaque société productrice associée à un film
Cell Splitter
Transformation de chaque collection en plusieurs lignes, une par couple (id, société de production), afin d’obtenir une table normalisée film–société
Ungroup
Sélection des colonnes id et production_companies_transformed afin de préparer une table dédiée aux sociétés de production associées à chaque film
Column Filter
Catégorie préférée
Bar Chart
Calcul des statistiques descriptives pour l'ensemble des variables numériques du dataset final (minimum, maximum, moyenne, médiane, écart-type, quartiles)
Statistics
Construction d’un histogramme des notes (vote_average) pour visualiser la distribution des évaluations des films et repérer la concentration autour des notes moyennes.
Histogram
Importation du fichier tmdb_movies_data.csv
CSV Reader
Exploration initiale des données (types, valeurs manquantes, nombre de valeurs distinctes) afin d’identifier les colonnes clés et les premières anomalies.
Statistics View
Déduplication des films sur la clé id : suppression des lignes en double pour un même film. On conserve une seule ligne par film (10866 → 10865 lignes).
Duplicate Row Filter
Suppression des colonnes non nécessaires pour un futur projet d’IA (imdb_id, homepage, tagline, overview, keywords), car elles sont redondantes, très textuelles ou trop incomplètes.
Column Filter
Vérification des doublons de titre : regroupement par original_title et comptage du nombre de films par titre afin d’identifier les titres non uniques.
GroupBy
Création d’un boxplot de la durée (runtime) par catégorie runtime_flag afin de comparer la distribution des durées entre short_movie, feature_movie, very_long_movie, etc., et d’identifier les valeurs extrêmes.
Box Plot
Création de variables budget_millions
Math Formula
Export de la table au format CSV
CSV Writer
Relation budget vs revenueVoir si les films avec gros budget rapportent vraiment plus, repérer les gros flops et gros succès.
Scatter Plot
vote_count vs revenue
Scatter Plot
Relation popularité vs vote average
Scatter Plot
Création de variables revenue_millions
Math Formula
Popularité vs revenue
Scatter Plot
Jointure de la table genres et de la table principale des films par la colonne id, afin d’associer à chaque film/genre la note moyenne correspondante pour exploitation ultérieure.
Joiner
Export de la table au format CSV
CSV Writer
Filtrage des films dont le titre apparaît plusieurs fois : ce nœud isole uniquement les enregistrements associés aux original_title non uniques, afin d’analyser leurs autres attributs (date de sortie, casting, réalisateur, budget, revenue)
Reference Row Filter
Export de la table au format CSV
CSV Writer
Agrégation : calcul de la moyenne de la note (vote_average) pour chaque genre. Cela permet d'obtenir, pour chaque catégorie de film, une note moyenne unique à comparer visuellement
GroupBy
Suppression d’un petit bloc d’enregistrements dont original_title est illisible (problème d’encodage), afin d’obtenir un jeu de données final plus propre.
Row Sampler
Uniformisation du type numérique pour les variables financières (budget, revenue, budget_adj, revenue_adj) afin de les représenter toutes en nombre décimal (float) et de faciliter les calculs et comparaisons.
Number Format Manager
filtrage des résultats du GroupBy pour ne garder que les original_title apparaissant plusieurs fois (Count(id) > 1).
Row Filter
Suppression des films avec runtime = 0, considérés comme enregistrements incomplets.
Row Filter
Filtrage temporaire des films avec budget = 0 et revenue = 0 afin de quantifier l’ampleur du problème de données financières manquantes (4701 lignes, soit une part importante du dataset)
Row Filter
Export de la table au format CSV
CSV Writer
Création d’un indicateur de qualité du budget (budget_flag) : marque comme missing les films dont le budget est nul ou non renseigné, comme suspicious les budgets très faibles (< 1 000), et comme ok les budgets réalistes
Rule Engine
Export de la table au format CSV
CSV Writer
Conversion de release_date au format Date (String to Date&Time) pour avoir un type de date uniforme et exploitable dans l’EDA
String to Date&Time
Création d'une table simple et centrale qui regroupe les caractéristiques essentielles de chaque film, facilitant l’analyse descriptive et les jointures avec les tables relationnelles
Column Filter
Catégorisation de la durée des films (runtime_flag) : courts métrages (< 30 min), très longs documentaires (≥ 300 min avec genre Documentary), très longs films (≥ 180 min), sinon longs métrages “classiques”
Rule Engine
Uniformisation des colonnes texte (titres,genres, cast, director, production_companies, ) : passage en minuscules et suppression des espaces superflus via pour réduire les variations d’écriture et préparer les analyses par catégorie.
String Manipulation (Multi Column)

Nodes

Extensions

Links