Icon

Projet_​Final

Un dataset de 21 colonnes et de 10866 lignes : 6 int , 4 float , 4 liste et 7 string

Soupçon d'outliers dans les colonnes popularité , budget , revenue , budget_adj, revenue_adj
Le runtime de certains films = 0 incohérence


  • Suppression des doublons

  • Suppression des lignes dont les colonnes comptaient moins de 5% de valeurs null

  • Suppression de la colonne Homepage qui contenait 73% de valeurs NULL

  • On garde les valeurs NUll des colonnes Revenu Budgets et leurs ajustés.

  • Remplacement des null des colonnes tagline , keywords et production_compagnie par de nouvelle classe No tagline etc

  • Convertir la colonne release_date en Date Time

  • sur les string Enlever les caractères spéciaux, les sauts de lignes, les espaces multiples et les tabulations, mettre en minuscule les caractères et remplacer les séparateurs ( | ) des colonnes liste sous format string par des virgules ( , )

  • Les 0 des colonnes comme budget et revenue sont considéré comme des manques d'information car un film sans budget est impossible donc on les gardes ainsi.

  • Filtrer les colonnes id, popularity, original_title, tagline, runtime,overview, realase_date, release_year, vote_count et vote_average pour créer le dataset Movies Info general.

  • Filtrer les colonnes id, budget, revenue, budget_adj et revenue_adj pour créer le dataset Movies Finances. Ensuite on utilise des Row Splitter pour créer les dataset Movies Finances Clean (Les films avec budget et revenues renseignés) et Movies Finances Missing (les films sans budget ni revenues renseignés)

  • Filtrer les colonnes id, keywords , cast et genres pour créer le dataset Movies Content. Ensuite on utilise des Cell Splitter pour mettre en format liste les colonnes keywords , cast et genres. Puis on utilise successivement un Ungroup (pour éclater les colonnes en format liste) et un column Renamer pour renommer les cellules éclater. Et enfin on utilise encore des Column Filter pour créer trois dataset Movies Acteurs (id , cast) , Movies Mots clés (id, keywords) et Movies Genres (id , genres). Ces trois dataset vont passer par des Duplication Row Filter et des Missing Values d'être des dataset Cleans et exploitables.

  • Filtrer les colonnes id, director et production_companies pour créer le dataset Movies Production. Ensuite on utilise un Cell Splitter pour mettre en format liste la colonne production_companies. Puis on utilise successivement un Ungroup (pour éclater la colonne en format liste) et un column Renamer pour renommer en production_companies. On utilise encore des Column Filter pour créer les datasets Movies Director (id , director) et Movies Production companies (id, production_companies). Ces datasets seront dédupliquer avant que qu'on utilise un Groupby sur le dataset Movies Production Companies pour créer un dataset regroupant le nombre de film par maisons de production.

  • On va utiliser un Joiner pour associer les dataset Movies Finance Clean et Movies Acteurs Clean et créer ainsi le dataset Movies Cast et Finance pour voir l'impact des acteurs sur les finances d'un film. On applique également un Groupby à notre dataset Movies Cast et Finance ainsi on peut voir le nombre de film, les revenues en moyenne et le budget en moyenne des films par acteurs.

  • la Heatmap de la corrélation des valeurs numériques de notre dataset nous montre : une forte corrélation positive entre le nombre de vote et la popularité (0.80) et entre le nombre de vote et les revenues (0,79) ce qui signifie que plus le nombre vote augmente plus la popularité et les revenues du film augmentent aussi

  • Sur les statistiques descriptives de notre dataset general nous montre les variables budget et revenue contiennent de nombreuse 0 (médiane =0) , on note également des 0 sur les valeurs de la variable runtime qui compte également quelques valeurs aberrantes (un film de 900 min) et sur la variable vote_average on note une distribution normal , centré autours de 6 avec les films très bon (>8) et très mauvais (<3)qui sont assez rare.

  • La heatmap de la corrélation nous montre une corrélation positive presque normal entre le budget el le revenue (0,69) et de très forte corrélation positive entre le budget et le budget_adj et entre le revenue et le revenue_adj.

  • l'histogramme du budget nous montre que plus de 80% des films qui ont un budget renseignés ont leur budget situé entre 0 et 100 M

  • Le box plot des revenues nous montre la présence de plusieurs outliers (valeurs extrêmes positives) ce qui peut être du à des films qui génèrent des revenues extrêmement élevé comme les blockbusters.

  • Sur le nuage de point entre le budget et les revenues on constate que la plupart des films qui génèrent de grosse revenues ont un gros budget

  • Sur les statistiques descriptives de notre dataset Movies Finance , nous montre que la moitié des films ont un budget inférieur à 24M$ et on note également une grande variance des budgets et des revenues : les deux variables varient énormément. La moitié des films ont des revenues de moins de 45M$

Bar Chart du top 10 des acteurs ayant joué dans des films avec le plus de revenue en moyenne:

Ici on note que les acteurs comme Daisy Ridley ont joué dans des films avec les plus gros revenue en moyenne.

Bar Chart du nombre de film par genre : On note que les genre drama et comedy compte le plus de film

Visualisations des 10 maisons de production avec le plus de film: On note que le top 3 universal pictures, warner bros et paramount pictures se décroche du lot avec 13% qui leurs comptent dans leurs maisons de compagnies

Movies Mots Clés
Column Filter
Renommer les columnsEclatés
Column Renamer
Movies Mots Clés Dédupliqués
Duplicate Row Filter
movies production
Column Filter
production_companies Format Liste
Cell Splitter
Movies Genres
Column Filter
Movies Genres Dédupliqués
Duplicate Row Filter
movies director
Column Filter
movies director clean
Duplicate Row Filter
Eclatement de la liste
Ungroup
Renommer la colonneEclatée
Column Renamer
movies productioncompanies clean
Duplicate Row Filter
movies production companies
Column Filter
Statistiques descriptive du dataset Movies finance
Statistics View
Corrélation des variables du dataset finance
Linear Correlation
Téléchargement du Dataset
CSV Reader
Gestion des valeurs manquantes
Missing Value
Supprimer la colonne Homepage
Column Filter
Supprimer les doublons
Duplicate Row Filter
Conversion de la colonne release_date
String to Date&Time
Uniformisation des colonnes string
String Manipulation (Multi Column)
Uniformisation des colonnes string (liste séparé par | )
String Manipulation (Multi Column)
Top 11 maisons de prod
Top k Row Filter
Exclure la catégorie no production comp
Row Filter
Visu du nombre de film par genre
Bar Chart
Nbre de film par maison prod
GroupBy
Movies Mots Clés Clean
Missing Value
Movies Genres Clean
Missing Value
Visu du top 10 des maison de prod
Bar Chart
Movies Acteurs clean
Missing Value
Visu Corrélation
Heatmap
Movies finance & cast
Joiner
Nbre de film , moyenne des revenues et des budget par acteur
GroupBy
Histogramme budget
Histogram
Movies Finance Clean
Row Splitter
Box plot revenues
Box Plot
Top 10 acteurs ayant jouédans les films avec les plus de revenues en moyenne
Top k Row Filter
Bar Chart
Movies Info general
Column Filter
Cast Format liste
Cell Splitter
Linear Correlation
Movies Finance
Column Filter
Keyword Format liste
Cell Splitter
Heatmap
Movies Finance Missing
Row Splitter
Nuages de point revenues et budget
Scatter Plot
Movies Content
Column Filter
Statistics View
Movies Acteurs
Column Filter
Movies Acteurs Dédupliqués
Duplicate Row Filter
Genre Format liste
Cell Splitter
Eclatement des listes
Ungroup

Nodes

Extensions

Links