Ini adalah bagian dari rangkaian tulisan Membuat Solusi Segmentasi Pelanggan dengan Alibaba Cloud. Rangakaian tulisan ini dibuat oleh Bima Putra Pratama, Data Scientist - DANA Indonesia.
Untuk melihat tulisan lain dari rangkaian tulisan ini, kunjungi halaman ini.
Untuk melihat langkah selanjutnya, klik di sini.
Pertama, mari kenali data kita. Kita menggunakan data ritel online dari UCI Machine Learning Repository (Anda dapat mengunduh data ini dari tautan ini ). Data ini terdiri dari data transaksi tahun 2010 dan 2011.
Langkah 1: Pengumpulan Data
Kita akan menggunakan data 2010 untuk tujuan pelatihan model kita dan mengganti nama file menjadi transaction_train.csv. Kemudian data yang digunakan sebagai contoh data harian yang perlu diolah adalah data tahun 2011, dan kita mengganti namanya menjadi transaction_daily.csv. Selanjutnya kita perlu menyimpan data ini di Alibaba Object Storage Service (OSS).
Langkah 2: Data Integrasi
Selanjutnya kita perlu menggunakan MaxCompute dan DataWorks untuk mengatur proses ini. Tujuan dari tahap ini adalah untuk memasukkan data dari OSS ke dalam MaxCompute menggunakan DataWorks.
Pertama kita perlu untuk membuat tabel di MaxCompute untuk menyimpan data. Tabel ini harus memiliki skema yang sama dengan data yang akan di integrasikan. Hal ini bisa dikakukan dengan klik kanan di menu bisnis-flow dan memilih Create Table. Selanjutnya kita bisa membuat skema tabel dengan menuliskan DDL dan mengikuti prosesnya.
Setelah tabel kita siap, kita perlu membuat Data Integration komponen untuk mengambil data dari OSS ke MaxCompute. Pada komponen ini kita harus melakukan pengaturan dari sumber dan tujuan dari integrasi data kita. Selain itu juga harus melakukan pemetaan tiap-tiap kolomnya.
Sehingga kita sudah dapat menjalankan komponen untuk memasukkan data dari OSS ke dalam MaxCompute.
Langkah 3: Pembersihan dan Transformasi Data
Data yang kita miliki perlu di bersihkan dan di transformasi sebelum dapat di gunakan untuk membuat model. Pertama kita akan membersihkan data yang nilainya tidak benar. Kemudian kita akan mengubah bentuk data tersebut untuk mendapatkan perhitungan Recency, Frequency, dan Monetary dari setiap pelanggan.
Di DataWorks kita menggunakan komponen SQL untuk melakukan pembersihan dan transformasi data. Awalnya kita perlu membuat tabel untuk menyimpan hasil proses ini. Selanjutnya kita perlu membuat SQL komponen dan menuliskan perintah DML melakukan hal ini.
Hasil dari tugas ini adalah kita akan memiliki nilai RFM untuk setiap pelanggan.
Kita akan menggunakan langkah persiapan data ini dalam proses Pelatihan Model dan Penyajian Model. Dalam pelatihan model, kita hanya melakukannya sekali sampai kita memiliki model. Namun, persiapan data ini akan berjalan secara rutin setiap hari di proses penyajian Model.
Untuk melanjutkan ke tulisan berikutnya, klik di sini.
Untuk melihat tulisan lainnya, klik di sini.
Cara Membangun Segmentasi Konsument Fase II: Pembuatan Model
99 posts | 15 followers
FollowAlibaba Cloud Indonesia - September 4, 2020
Alibaba Cloud Indonesia - September 4, 2020
Alibaba Cloud Indonesia - September 4, 2020
Alibaba Cloud_Academy - March 14, 2023
Alibaba Cloud Community - December 14, 2023
Regional Content Hub - May 6, 2024
99 posts | 15 followers
FollowConduct large-scale data warehousing with MaxCompute
Learn MoreAn encrypted and secure cloud storage service which stores, processes and accesses massive amounts of data from anywhere in the world
Learn MoreA real-time data warehouse for serving and analytics which is compatible with PostgreSQL.
Learn MoreA premium, serverless, and interactive analytics service
Learn MoreMore Posts by Alibaba Cloud Indonesia