<p><strong>Data: </strong>adalah: fakta yang terekam dan tidak membawa arti. sehingga tidak berwarna. Data itu keluar dari database</p><p><strong>Informasi </strong>di indonesia banyak tetapi tidak paham (tidak ada nilai pengetahuannya)</p><p><strong>Pengetahuan</strong>: pola, rumus, aturan, model yang muncul dari infomasi.</p><p></p><p><strong>AI</strong>: payung besar yang membawahi 2 pengetahuan utama yaitu machine learning dan Deep Learning.</p><p><strong>Machine Learning: </strong>fokus pada pengolahan data terstruktur<strong>, </strong>(kolom dan baris)</p><p><strong>Deep Learning: </strong>fokus pada pengolahan data tidak terstruktur (video, gambar, tulisan di sosmed)</p><p></p><p><strong>5 peran utama machine learning</strong>:</p><ol><li><p><strong>Estimation</strong>: kapan data tsb habisnya/selesainya</p></li><li><p><strong>Prediction/Forcasting</strong>: 3hr kedepan pendapatan kita berapa</p></li><li><p><strong>Classification</strong>: apakah pelanggan loyal/tidak, fraud/genuine</p></li><li><p><strong>Clustering</strong>: kesamaan behaviour pelanggan di berbagai wilayah</p></li><li><p><strong>Association</strong>: saat masuk swalayan, maka kita akan lihat ada sirup marja, kurma, dan sajadah. bisa diukur kemungkinan pembeli beli sirup marjan, kemudian dia akan beli kurma, dan akan ambil sajadah.</p></li></ol><ul><li><p><strong>data Numerik</strong>: type data yang dapat dilakukan perhitungan aritmatika</p></li><li><p><strong>data Nominal</strong>: type data yang tidak dapat dilakukan aritmatika.</p></li></ul><p></p><p><strong>File: Capture04 dan capture08.</strong></p><ul><li><p><strong>Capture04</strong>:</p><ul><li><p><strong><em>Label /Penanda: </em>Heating Oil</strong>.</p></li><li><p><strong><em>Atribut: </em></strong>Insulation, Temperatur, Num_Occupation, Avg_Age, Home_Size</p></li><li><p>akan dibuatkan model-nya</p></li><li><p>karena <strong>Atributnya </strong><em>Numeric </em>dan <strong>Label</strong>-nya <em>Numeric</em></p></li></ul></li><li><p><strong>Capture08</strong>: tidak terdapat kolom Heating Oil.</p><ul><li><p><strong><em>Label</em></strong>: tidak ada sehingga akan didapatkan menggunakan model dari Capture04</p></li><li><p><strong><em>Atribut</em></strong>: Insulation, Temperatur, Num_Occupation, Avg_Age, Home_Size</p></li></ul></li></ul><p></p><p><strong>Proses Workflow Model Capture04</strong></p><ul><li><p><strong>Read Dataset</strong>: data dibaca dari dataset Capture04</p></li><li><p><strong>Tabel Partitioner</strong>: dari 1218 data yang ada, akan diambil <strong>80% </strong>secara <strong>Random </strong>untuk <strong>machine learning (Training)</strong>, sedangkan <strong>20%-</strong>nya <strong>nebak</strong>. Pembagian terbaik:</p><ul><li><p>70:30</p></li><li><p>75:25</p></li><li><p>80:20 --> <strong>80% </strong>ke <strong>Linier Regression</strong>, <strong>20% </strong>ke <strong>Regression Predictor</strong></p></li></ul></li><li><p>Algoritma <strong>Linier Regression Learner</strong>: untuk belajar/training 80%. Pilih Target: Heating Oil</p></li><li><p><strong>Regression Predictor</strong>: untuk evaluasi (tebak) data 20% dari table Partitioner dengan menggunakan hasil training dari <strong>Linier regression Learner</strong>. </p></li><li><p><strong>Numeric Score</strong>: untuk mengukur persentase akurasi prediksi (tebakan dari hasil Linier Regression Learner) yaitu dengan membandingkan data awal dengan hasil prediksi.</p></li><li><p><strong>Column Filter</strong>: filter atribut data asli vs prediction untuk visualisasi</p></li><li><p>Visualization <strong>Line Plot Legacy</strong>: tampilan visualisasi</p></li><li><p><strong>PMML Writer</strong>: menyimpan model.</p></li></ul>
Data: adalah: fakta yang terekam dan tidak membawa arti. sehingga tidak berwarna. Data itu keluar dari database
Informasi di indonesia banyak tetapi tidak paham (tidak ada nilai pengetahuannya)
Pengetahuan: pola, rumus, aturan, model yang muncul dari infomasi.
AI: payung besar yang membawahi 2 pengetahuan utama yaitu machine learning dan Deep Learning.
Machine Learning: fokus pada pengolahan data terstruktur, (kolom dan baris)
Deep Learning: fokus pada pengolahan data tidak terstruktur (video, gambar, tulisan di sosmed)
5 peran utama machine learning:
Estimation: kapan data tsb habisnya/selesainya
Prediction/Forcasting: 3hr kedepan pendapatan kita berapa
Clustering: kesamaan behaviour pelanggan di berbagai wilayah
Association: saat masuk swalayan, maka kita akan lihat ada sirup marja, kurma, dan sajadah. bisa diukur kemungkinan pembeli beli sirup marjan, kemudian dia akan beli kurma, dan akan ambil sajadah.
data Numerik: type data yang dapat dilakukan perhitungan aritmatika
data Nominal: type data yang tidak dapat dilakukan aritmatika.
Tabel Partitioner: dari 1218 data yang ada, akan diambil 80% secara Random untuk machine learning (Training), sedangkan 20%-nya nebak. Pembagian terbaik:
70:30
75:25
80:20 --> 80% ke Linier Regression, 20% ke Regression Predictor
Regression Predictor: untuk evaluasi (tebak) data 20% dari table Partitioner dengan menggunakan hasil training dari Linier regression Learner.
Numeric Score: untuk mengukur persentase akurasi prediksi (tebakan dari hasil Linier Regression Learner) yaitu dengan membandingkan data awal dengan hasil prediksi.
Column Filter: filter atribut data asli vs prediction untuk visualisasi
Visualization Line Plot Legacy: tampilan visualisasi