Icon

Day 2 - Data and Concept of Knime - Part 2

<p><strong>Data: </strong>adalah: fakta yang terekam dan tidak membawa arti. sehingga tidak berwarna. Data itu keluar dari database</p><p><strong>Informasi </strong>di indonesia banyak tetapi tidak paham (tidak ada nilai pengetahuannya)</p><p><strong>Pengetahuan</strong>: pola, rumus, aturan, model yang muncul dari infomasi.</p><p></p><p><strong>AI</strong>: payung besar yang membawahi 2 pengetahuan utama yaitu machine learning dan Deep Learning.</p><p><strong>Machine Learning: </strong>fokus pada pengolahan data terstruktur<strong>, </strong>(kolom dan baris)</p><p><strong>Deep Learning: </strong>fokus pada pengolahan data tidak terstruktur (video, gambar, tulisan di sosmed)</p><p></p><p><strong>5 peran utama machine learning</strong>:</p><ol><li><p><strong>Estimation</strong>: kapan data tsb habisnya/selesainya</p></li><li><p><strong>Prediction/Forcasting</strong>: 3hr kedepan pendapatan kita berapa</p></li><li><p><strong>Classification</strong>: apakah pelanggan loyal/tidak, fraud/genuine</p></li><li><p><strong>Clustering</strong>: kesamaan behaviour pelanggan di berbagai wilayah</p></li><li><p><strong>Association</strong>: saat masuk swalayan, maka kita akan lihat ada sirup marja, kurma, dan sajadah. bisa diukur kemungkinan pembeli beli sirup marjan, kemudian dia akan beli kurma, dan akan ambil sajadah.</p></li></ol><ul><li><p><strong>data Numerik</strong>: type data yang dapat dilakukan perhitungan aritmatika</p></li><li><p><strong>data Nominal</strong>: type data yang tidak dapat dilakukan aritmatika.</p></li></ul><p></p><p><strong>File: Capture04 dan capture08.</strong></p><ul><li><p><strong>Capture04</strong>:</p><ul><li><p><strong><em>Label /Penanda: </em>Heating Oil</strong>.</p></li><li><p><strong><em>Atribut: </em></strong>Insulation, Temperatur, Num_Occupation, Avg_Age, Home_Size</p></li><li><p>akan dibuatkan model-nya</p></li><li><p>karena <strong>Atributnya </strong><em>Numeric </em>dan <strong>Label</strong>-nya <em>Numeric</em></p></li></ul></li><li><p><strong>Capture08</strong>: tidak terdapat kolom Heating Oil.</p><ul><li><p><strong><em>Label</em></strong>: tidak ada sehingga akan didapatkan menggunakan model dari Capture04</p></li><li><p><strong><em>Atribut</em></strong>: Insulation, Temperatur, Num_Occupation, Avg_Age, Home_Size</p></li></ul></li></ul><p></p><p><strong>Proses Workflow Model Capture04</strong></p><ul><li><p><strong>Read Dataset</strong>: data dibaca dari dataset Capture04</p></li><li><p><strong>Tabel Partitioner</strong>: dari 1218 data yang ada, akan diambil <strong>80% </strong>secara <strong>Random </strong>untuk <strong>machine learning (Training)</strong>, sedangkan <strong>20%-</strong>nya <strong>nebak</strong>. Pembagian terbaik:</p><ul><li><p>70:30</p></li><li><p>75:25</p></li><li><p>80:20 --&gt; <strong>80% </strong>ke <strong>Linier Regression</strong>, <strong>20% </strong>ke <strong>Regression Predictor</strong></p></li></ul></li><li><p>Algoritma <strong>Linier Regression Learner</strong>: untuk belajar/training 80%. Pilih Target: Heating Oil</p></li><li><p><strong>Regression Predictor</strong>: untuk evaluasi (tebak) data 20% dari table Partitioner dengan menggunakan hasil training dari <strong>Linier regression Learner</strong>. </p></li><li><p><strong>Numeric Score</strong>: untuk mengukur persentase akurasi prediksi (tebakan dari hasil Linier Regression Learner) yaitu dengan membandingkan data awal dengan hasil prediksi.</p></li><li><p><strong>Column Filter</strong>: filter atribut data asli vs prediction untuk visualisasi</p></li><li><p>Visualization <strong>Line Plot Legacy</strong>: tampilan visualisasi</p></li><li><p><strong>PMML Writer</strong>: menyimpan model.</p></li></ul>

Data: adalah: fakta yang terekam dan tidak membawa arti. sehingga tidak berwarna. Data itu keluar dari database

Informasi di indonesia banyak tetapi tidak paham (tidak ada nilai pengetahuannya)

Pengetahuan: pola, rumus, aturan, model yang muncul dari infomasi.

AI: payung besar yang membawahi 2 pengetahuan utama yaitu machine learning dan Deep Learning.

Machine Learning: fokus pada pengolahan data terstruktur, (kolom dan baris)

Deep Learning: fokus pada pengolahan data tidak terstruktur (video, gambar, tulisan di sosmed)

5 peran utama machine learning:

  1. Estimation: kapan data tsb habisnya/selesainya

  2. Prediction/Forcasting: 3hr kedepan pendapatan kita berapa

  3. Classification: apakah pelanggan loyal/tidak, fraud/genuine

  4. Clustering: kesamaan behaviour pelanggan di berbagai wilayah

  5. Association: saat masuk swalayan, maka kita akan lihat ada sirup marja, kurma, dan sajadah. bisa diukur kemungkinan pembeli beli sirup marjan, kemudian dia akan beli kurma, dan akan ambil sajadah.

  • data Numerik: type data yang dapat dilakukan perhitungan aritmatika

  • data Nominal: type data yang tidak dapat dilakukan aritmatika.

File: Capture04 dan capture08.

  • Capture04:

    • Label /Penanda: Heating Oil.

    • Atribut: Insulation, Temperatur, Num_Occupation, Avg_Age, Home_Size

    • akan dibuatkan model-nya

    • karena Atributnya Numeric dan Label-nya Numeric

  • Capture08: tidak terdapat kolom Heating Oil.

    • Label: tidak ada sehingga akan didapatkan menggunakan model dari Capture04

    • Atribut: Insulation, Temperatur, Num_Occupation, Avg_Age, Home_Size

Proses Workflow Model Capture04

  • Read Dataset: data dibaca dari dataset Capture04

  • Tabel Partitioner: dari 1218 data yang ada, akan diambil 80% secara Random untuk machine learning (Training), sedangkan 20%-nya nebak. Pembagian terbaik:

    • 70:30

    • 75:25

    • 80:20 --> 80% ke Linier Regression, 20% ke Regression Predictor

  • Algoritma Linier Regression Learner: untuk belajar/training 80%. Pilih Target: Heating Oil

  • Regression Predictor: untuk evaluasi (tebak) data 20% dari table Partitioner dengan menggunakan hasil training dari Linier regression Learner.

  • Numeric Score: untuk mengukur persentase akurasi prediksi (tebakan dari hasil Linier Regression Learner) yaitu dengan membandingkan data awal dengan hasil prediksi.

  • Column Filter: filter atribut data asli vs prediction untuk visualisasi

  • Visualization Line Plot Legacy: tampilan visualisasi

  • PMML Writer: menyimpan model.

Read Dataset

Algoritma

Visualization

Capture 04 Dataset
CSV Reader
80/20
Table Partitioner
Estimation Algorithm
Linear Regression Learner
Predictor
Regression Predictor
Build Model
PMML Writer
Heating Oil
Column Filter
Evaluation
Numeric Scorer
Visualization Result
Line Plot (legacy)

Nodes

Extensions

Links