Icon

Classification and Assosiation Naive Bayes Dataset Netflix SIB6NF

This workflow explains the data mining process using the Netflix dataset, which consists of two main parts: classification and association.



Classification Process
The classification process uses the Naive Bayes algorithm to classify the "Type" column in the Netflix_titles1 dataset into "Movie" or "TV Show".



Association Process
The association method is used to find specific patterns within the Netflix_titles1 dataset, such as:

Finding and calculating the frequency of the most common genres in the "listed_in" column.


Finding and calculating the frequency of countries with the most content in the "country" column.


Finding patterns or the frequency of the most common audience age rating in the "rating" column.




This workflow is submitted as part of the Final Project for SIB-6 Academy Codeless Data Science (ACDS) at NF Academy.



Indonesia



Workflow ini menjelaskan proses data mining menggunakan dataset Netflix yang terdiri dari dua bagian utama: klasifikasi dan asosiasi. untuk proses klasifikasi data menggunakan algoritma Naive Bayes untuk mengklasifikasikan kolom "Type" dalam dataset Netflix_titles1 menjadi "Movie" atau "TV Show".

Sedangkan pada proses metode asosiasi digunakan untuk mencari pola tertentu yang ada di dalam dataset netflix_titles satu seperti, mencari dan menghitung frekuensi kemunculan gendre terbanyak pada kolom "listed_in", mencari dan menghitung frekuensi kemunculan Negara dengan konten terbanyak pada kolom "country", dan mencari pola atau frekuensi kemunculan sebuah batasan umur penonton terbanyak pada kolom "rating".



Menggunakan dataset netflix_titles1



Workflow ini sebagai pemenuhan tugas Final Project SIB-6 Academy Codeless Data Science (ACDS) NF Academy.



Group 4 Kelompok 5

Ketua Kelompok : Naura Nadzifah

Anggota Kelompok : Arly Haryanto Pamungkas, Faizurrahman Alhakim, Malika Nurfikria Rachmah, Sulpan Tanjung.

URL: Link Dataset Netflix https://www.kaggle.com/datasets/lovishbansal123/netflix-dataset

1A. Assosiation Menemukan pola atau item yang sering muncul bersama di dataset ini. Dalam kasus ini, kita akanmenghitung frekuensi kemunculan setiap genre dalam kolom 'listed_in'. dan mengambil TOP 5 genre paling banyak dibuat menurut dataset netflix_titles1 1B. Classification Mengklasifikasikan kolom "Type" yang ada di dataset netflix_titles1 bedasarkan jenisnya, Movie dan TV Show. 1C. Assosiation Menemukan pola atau item yang sering muncul bersama di dataset ini. Dalam kasus ini, kita akanmenghitung frekuensi kemunculan suatu negara dalam kolom 'country'. dan mengambil TOP 30 Negara yang paling banyak menaruh film di platform netflix menurut dataset netflix_titles1 1D. Assosiation Menemukan pola atau item Rating yang paling sering muncul bersama di dataset ini. Dalam kasus ini, kita akan menghitung frekuensikemunculan sebuah batasan umur penonton dalam kolom 'rating'. dan mengambil Rating yang paling banyak kontennya yang ada di platform netflix menurut dataset netflix_titles1 1A. Evaluation 1C. Evaluation 1D. Evaluation Data Preparation 1B. Evaluation 1B. Training and Test data with Algorithm Naive Bayes 1A. Top 5 Genre - most contents in Netflix 1B. Data Preparation 1C. Top 30 Countries - most contents in Netflix 1D. Most Rating contents in Netflix 1A. Data Preparation 1C. Data Preparation 1D. Data Preparation load datanetflix_titles1menghapusmissing valuesyang lainmenghapus kolom yang ada missing valuesmenghitungberapa banyaksatu gendremunculsorter driyg paling banyakdibuatambil top 5learnmengurutkankolomfilter kolomtest dataset 99.947%membagi datasetuntuk learn & testmenghitungberapa banyaknama negaraitu munculsorter driyg paling banyakambil top 30negarayg paling banyakkonten film nyadi platformNetflixmenghitungberapa banyakratingitu munculsorter driyg paling banyakambil top 5ratingyg paling banyakdi platformNetflixNode 115Node 116Node 117CSV Reader Missing Value Missing ValueColumn Filter GroupBy Sorter Top k Row Filter Naive Bayes Learner Column Resorter Column Filter Naive BayesPredictor Scorer Partitioning GroupBy Sorter Top k Row Filter GroupBy Sorter Top k Row Filter Data Preparation Data Preparation Data Preparation VisualisasiAsosiasi 1A VisualisasiAsosiasi 1C VisualisasiAsosiasi 1D 1A. Assosiation Menemukan pola atau item yang sering muncul bersama di dataset ini. Dalam kasus ini, kita akanmenghitung frekuensi kemunculan setiap genre dalam kolom 'listed_in'. dan mengambil TOP 5 genre paling banyak dibuat menurut dataset netflix_titles1 1B. Classification Mengklasifikasikan kolom "Type" yang ada di dataset netflix_titles1 bedasarkan jenisnya, Movie dan TV Show. 1C. Assosiation Menemukan pola atau item yang sering muncul bersama di dataset ini. Dalam kasus ini, kita akanmenghitung frekuensi kemunculan suatu negara dalam kolom 'country'. dan mengambil TOP 30 Negara yang paling banyak menaruh film di platform netflix menurut dataset netflix_titles1 1D. Assosiation Menemukan pola atau item Rating yang paling sering muncul bersama di dataset ini. Dalam kasus ini, kita akan menghitung frekuensikemunculan sebuah batasan umur penonton dalam kolom 'rating'. dan mengambil Rating yang paling banyak kontennya yang ada di platform netflix menurut dataset netflix_titles1 1A. Evaluation 1C. Evaluation 1D. Evaluation Data Preparation 1B. Evaluation 1B. Training and Test data with Algorithm Naive Bayes 1A. Top 5 Genre - most contents in Netflix 1B. Data Preparation 1C. Top 30 Countries - most contents in Netflix 1D. Most Rating contents in Netflix 1A. Data Preparation 1C. Data Preparation 1D. Data Preparation load datanetflix_titles1menghapusmissing valuesyang lainmenghapus kolom yang ada missing valuesmenghitungberapa banyaksatu gendremunculsorter driyg paling banyakdibuatambil top 5learnmengurutkankolomfilter kolomtest dataset 99.947%membagi datasetuntuk learn & testmenghitungberapa banyaknama negaraitu munculsorter driyg paling banyakambil top 30negarayg paling banyakkonten film nyadi platformNetflixmenghitungberapa banyakratingitu munculsorter driyg paling banyakambil top 5ratingyg paling banyakdi platformNetflixNode 115Node 116Node 117CSV Reader Missing Value Missing ValueColumn Filter GroupBy Sorter Top k Row Filter Naive Bayes Learner Column Resorter Column Filter Naive BayesPredictor Scorer Partitioning GroupBy Sorter Top k Row Filter GroupBy Sorter Top k Row Filter Data Preparation Data Preparation Data Preparation VisualisasiAsosiasi 1A VisualisasiAsosiasi 1C VisualisasiAsosiasi 1D

Nodes

Extensions

Links