Application Sharing of Reinforcement Learning in Intelligent Interactive Search
Pengantar Penelusuran Interaktif
Pencarian interaktif cerdas adalah jenis baru dari metode pencarian belanja. Pengguna dapat berinteraksi dengan sistem saat mencari. Kami berharap dapat memberikan informasi untuk membantu pengguna membuat keputusan selama interaksi dengan pengguna. Ini kira-kira mencakup dimensi berikut:
Persyaratan perbaikan: Ketika kebutuhan belanja pengguna relatif pasti, sistem akan merekomendasikan dimensi yang membantu menyempurnakan pengambilan keputusan.Misalnya, di bawah kueri "earphone", sistem akan membiarkan pengguna memilih "metode pemakaian" untuk membantu pengguna melakukan transaksi lebih cepat.
Eksplorasi dan penemuan: Pecahkan kebutuhan belanja dan penemuan, dan rekomendasikan beberapa kueri yang berbeda ketika ditemukan bahwa pengguna tidak berniat untuk membeli.
T&J Pengetahuan: memecahkan masalah yang telah dipelajari pengguna tentang pengetahuan berbelanja melalui situs web pihak ketiga sebelumnya, dan kemudian datang ke Taobao untuk langsung mencari produk; memberikan beberapa penjelasan pengetahuan; pada akhirnya berharap dapat memandu pengguna untuk menyelesaikan seluruh proses pembelian dengan lancar , berbagi pembelian dan pasca pembelian di tautan Taobao;
Data Sesi pengguna adalah sebagai berikut:
Kueri awal adalah "sepatu pria tanpa tali sepatu", dan Agen merekomendasikan "klasifikasi warna: merah, putih, hitam, abu-abu" kepada pengguna.
Pengguna memilih "Urutkan berdasarkan Penjualan"
Pengguna memilih "hitam", dan Agen merekomendasikan beberapa pertanyaan yang berbeda kepada pengguna, menemukan: pria dengan sepatu kulit, pria dengan sepatu kets, pria dengan sepatu, pria dengan sepatu putih, pria dengan sepatu kain, pria dengan sepatu kanvas, pria dengan sepatu kasual, pria dengan sepatu peas, t T-shirt man"
Pengguna "membalik halaman"
Pengguna memilih "Little White Shoes Men", dan Agen juga merekomendasikan "gaya kaki: ujung runcing, ujung datar, ujung bulat" kepada pengguna
Pengguna mengklik "runcing"
Pengguna mengklik "kepala bulat"
Definisi Masalah & Pekerjaan Terkait & Pemodelan
definisi masalah
Dalam masalah saat ini, kami ingin mengizinkan pengguna untuk berinteraksi dengan sistem sebanyak mungkin. Lebih banyak interaksi berarti lebih banyak pv, meningkatkan waktu tinggal dan viskositas pengguna, dan peningkatan pv juga akan meningkatkan pendapatan iklan. Dalam hal interaksi suara cerdas, Microsoft telah mengusulkan indikator statistik - CPS, yang merupakan jumlah putaran dialog antara manusia dan "robot obrolan" kecerdasan buatan. Menurut statistik Microsoft, CPS Xiaoice saat ini adalah sekitar 23, sedangkan CPS Siri, Google Now, dan mesin kecerdasan buatan lainnya yang dikembangkan untuk tujuan asisten cerdas seringkali tidak melebihi 3. Dalam makalah ini, kami juga menggunakan Matriks ini sebagai tujuan pengoptimalan.
Tentu saja, kami juga dapat menganggap masalah ini sebagai Sistem Dialog Berorientasi Tugas, yang memungkinkan pengguna menyelesaikan belanja dengan jumlah interaksi paling sedikit.Saat ini, kami menetapkan tujuan seperti yang pertama.
Signifikansi pembelajaran penguatan dalam skenario pencarian interaktif
Skenario kerja pembelajaran penguatan harus memiliki hadiah penundaan yang jelas. Biasanya, dalam permainan catur, menyerahkan bidak saat ini untuk mendapatkan keuntungan keseluruhan, dalam permainan kompetitif seperti dota2, sang pahlawan menyerahkan keuntungan moneter dari pisau terakhir untuk memilih gank dan Roshan.Reinforcement learning bagus dalam memodelkan masalah delay reward dalam pengambilan keputusan berurutan, yaitu menyerahkan keputusan optimal lokal saat ini untuk memperoleh manfaat jangka panjang.
Umpan balik dari sistem pencarian interaktif kepada pengguna adalah proses pengambilan keputusan berurutan yang khas, dan kadang-kadang perlu untuk menyerahkan hasil tertinggi saat ini. Dalam masalah ini, jika sasaran pengoptimalan kami adalah RKT keseluruhan, seperti pada pencarian headset skenario, ada dua dimensi (merek ), (gaya pakai) dapat digunakan untuk pengambilan keputusan dalam konteks. Dengan metode yang diawasi, apa yang telah kami pelajari adalah pilihan optimal dalam konteks saat ini, yaitu gagasan tentang Serakah pada gambar di bawah. Saat ini, yang kami pelajari adalah "tampilan pertama merek" Lebih baik, tetapi pada kenyataannya, jika kami mengubah merek dan urutan metode pemakaian, meskipun keputusan pertama kami tidak optimal saat ini negara, harapan di bawah keputusan urutan optimal.
Dibandingkan dengan bidang permainan, catur, dan kontrol mesin di mana RL lebih berhasil, definisi "penghentian" dalam sistem interaktif dialog relatif kabur. Dalam robot obrolan, ini dapat didefinisikan sebagai keluarnya pengguna. Dalam pencarian interaktif, apakah peralihan niat pengguna didefinisikan sebagai penghentian Terkait dengan tugas, jika kita ingin pengguna meningkatkan PV, kita dapat keluar dari keseluruhan interaksi sebagai penghentian. Jika kita ingin memandu lebih lanjut belanja dalam kategori yang disempurnakan hingga transaksi selesai , penghentian didefinisikan sebagai niat keluar atau beralih.
Gagasan Umum untuk Pembelajaran Penguatan dalam Dialog Berbasis Tugas
Pendekatan klasik DM adalah menganggap masalah sebagai masalah pengisian slot Pada 2007-2013, pendekatan dasarnya adalah mendefinisikan tugas dan membaginya menjadi serangkaian slot, yang diisi selama proses interaksi dialog. Masalah terbesar dengan metode ini adalah: transmisi kesalahan, kesalahan hulu akan ditransmisikan ke hilir dan menyebabkan kesalahan langsung ke hilir, seperti kesalahan pada langkah NLU atau DST tertentu, yang secara langsung akan menyebabkan DM menghasilkan kesalahan. Tindakan, dan hampir tidak mungkin untuk memperbaikinya. Metode end-to-end dapat mencapai tingkat koreksi kesalahan tertentu.Ide dasarnya adalah untuk mengawasi metode pelatihan terlebih dahulu, dan kemudian menggunakan pembelajaran penguatan mendalam untuk menyesuaikan parameter (sampelnya adalah pengguna nyata). Karya yang lebih representatif adalah artikel Bing Liu tentang nips di tahun 2017. Strukturnya adalah sebagai berikut, mengoptimalkan pengisian slot dan tindakan pada saat yang bersamaan.
Pemodelan Kerangka Pembelajaran Penguatan Berbasis Penelusuran Interaktif
Kami menggunakan kerangka pembelajaran penguatan untuk memodelkan skenario pencarian interaktif. Diantaranya, agen adalah proses pelayanan kami. Lingkungan (env) adalah pengguna dan faktor lain dari platform. Khususnya, pengguna pertama kali mengirimkan kueri, seperti "ponsel". Agen memilih atribut kategori, seperti "merek". Halaman tersebut menampilkan nilai spesifik "Merek", seperti , dll. Pengguna dapat memilih/membatalkan nilai atribut tertentu, atau langsung membalik halaman, dan operasi ini akan melompat ke PV berikutnya. Agen dan env berinteraksi terus menerus hingga pengguna keluar dari sesi, membentuk sebuah episode.
Kita ingat bahwa env memberikan status pada waktu t, agen melakukan tindakan, dan env memberi umpan balik kepada agen dan melompat ke status sesuai dengan dinamika endogen. Pembelajaran penguatan bertujuan untuk mencari kebijakan yang memaksimalkan imbalan kumulatif yang diharapkan untuk agen.
Dalam skenario pencarian interaktif, kami mendefinisikan status, tindakan, dan penghargaan sebagai:
1. Desain negara: Dua poin harus dipertimbangkan dalam desain negara. Status saat ini cukup untuk mempelajari Tindakan yang sesuai, dan proses interaksi pengguna-lingkungan perlu diubah secara signifikan untuk mempelajari fungsi Q. Di sini kami mempertimbangkan hal berikut aspek:
Status Pengguna: termasuk jenis kelamin, usia, dan daya beli pengguna.
Riwayat Pengguna, Riwayat Agen: kategori, nomor halaman (pengguna membalik halaman), tag yang diklik oleh pengguna, tag yang direkomendasikan oleh Agen.
Status Kueri: Setelah DST, Kueri Norma digunakan sebagai Penyematan (mengambil nilai rata-rata penyematan setelah segmentasi kata granular semantik. Tentu saja, perhatian diri juga dapat dipertimbangkan di sini untuk mempertimbangkan kontribusi semantik, tetapi kami belum melakukannya di bawah saat ini volume data) sebagai status kueri saat ini.
Tandai skor statis: Skor Tag Kueri, Skor Tag Pengguna, dll. : Termasuk informasi pengguna (jenis kelamin, usia, daya beli, dll.) dan informasi sesi (kategori, nomor halaman, kueri, catatan operasi pengguna, dll.).
2. Tindakan: atribut kategori, seperti "merek", "jenis celana", "bahan", dan seterusnya. Ruang tindakan adalah semua atribut kategoris legal.
3. Hadiah: Jika pengguna tidak pergi, sebaliknya. Ini dirancang karena memaksimalkan hadiah kumulatif setara dengan tujuan bisnis saat ini untuk memaksimalkan jumlah putaran interaksi.
Kesulitan dari masalah ini adalah bahwa jumlah semua atribut kategori adalah sekitar 200K, yaitu ukuran ruang tindakan adalah 200K (kategori * dimensi), yang pasti akan menyebabkan ruang pencarian terlalu besar dan sulit ditemukan. strategi optimal. Sebaliknya, setiap kategori produk memiliki rata-rata sekitar 15 atribut. Meskipun skala ruang tindakan ini dapat diterima, kami memiliki total sekitar 1500 kategori.Jika kami melatih masing-masing 1500 agen, sulit menggunakan metode pembelajaran mesin untuk kategori ekor karena aliran kategori kepala dan kategori ekor adalah sangat tidak seimbang Tujuan dari pelatihan adalah untuk mendapatkan agen dengan kinerja yang cukup baik.
Kami melihat bahwa set atribut yang dimiliki oleh kategori yang berbeda memiliki sejumlah besar persimpangan, misalnya, "baju" dan "celana" keduanya memiliki atribut "bahan". Arti dari atribut yang sama seringkali tidak dapat dibedakan untuk kategori yang berbeda. Misalnya, "merek" adalah atribut yang cenderung akan dipilih oleh pengguna yang menghargai kualitas dan peduli tentang makna tambahan yang diberikan merek pada produk homogen. Berdasarkan hal ini, kami bersama-sama melatih agen (multitugas) untuk berbagai keperluan dengan berbagi parameter model (Riwayat Pengguna, Riwayat Agen, dan penyematan Tindakan). Model spesifiknya adalah sebagai berikut. Keluaran lain dari vektor penilaian berdimensi tinggi seperti itu jelas dihitung secara berlebihan, jadi di sini kami membuat Mask untuk koleksi Ruang Tindakan sesuai dengan kategori, dan hanya menilai Tindakan yang dipertimbangkan di bawah kategori saat ini, dan menghitung final Kami menggunakan Aksi untuk mencetak gol:
sistem
Berdasarkan PAI TF, kami menggunakan algoritma DQN yang diimplementasikan oleh komponen pembelajaran penguatan Ali AI Agent (singkatnya A3gent) untuk menyelesaikan strategi yang optimal.
Lapisan input dari jaringan saraf kami berisi beberapa input, dan status saluran yang berbeda jarang/padat, panjang tetap/panjang variabel, dan tipe datanya termasuk int, float, dan string. A3gent mendukung input status multi-saluran, dan tipe data serta bentuk setiap saluran dapat dikonfigurasi.
Selain menangani banyak input, struktur jaringan saraf kami juga relatif kompleks, termasuk lapisan embedding, lapisan terhubung penuh, lapisan gabungan. Selain itu, mengingat status salah satu jalan adalah set atribut yang direkomendasikan oleh agen dalam episode saat ini dan ruang tindakan kami adalah set atribut, kami membiarkan parameter berbagi lapisan output dengan lapisan embedding. Yaitu, untuk atribut P, vektor embeddingnya akan digunakan sebagai parameter neuron keluaran yang sesuai dengan P:, di mana h mewakili input dari lapisan keluaran.
Karena agen dari berbagai kategori berbagi parameter model, strategi masing-masing kategori agen tidak dapat diteruskan dengan mudah. Karena status berisi saluran sebagai ID dari kategori, yang dicatat sebagai c, pertama-tama kita menanyakan kamus dari kategori ke daftar atribut menurut c, dan menemukan set atribut legal yang sesuai dengan c. Kemudian dengan rakus pilih tindakan sesuai dengan nilai Q:
Logika di atas telah diungkapkan melalui grafik perhitungan di komponen A3gent, dan tidak ada perbedaan antara penerusan biasa untuk pengguna.
Karena pembelajaran penguatan memerlukan pembaruan online selama interaksi antara agen dan env, dan proses layanan berbasis QP tidak dapat mencapai pelatihan model, kami mengadopsi strategi pelatihan kuasi-real-time berdasarkan PAI TF:
Kami pertama kali menggunakan data historis untuk pra-pelatihan, dan hasil pra-pelatihan pada dasarnya dapat mempelajari strategi online sebagai parameter awal model. Dibandingkan dengan baseline (dimensi top5 acak, jadi hasil acaknya lumayan), DRL offline dapat membawa peningkatan 1,9% dalam hal rasio klik-tayang tingkat kueri (kami juga akan menganalisisnya nanti, Reward saat ini sebenarnya tidak dapat meningkatkan CTR secara signifikan), sedangkan versi berbasis ansambel statistik mengalami peningkatan sebesar 6,8%. Pada saat yang sama, dampak dari berbagai strategi pada indikator global dianalisis PV/uv per kapita menurun sebesar 0,5%, dan jumlah rata-rata interaksi dalam sesi besar meningkat sebesar 0,16%. rincian sebagai berikut:
Menanggapi hasil ini, kami percaya bahwa DRL hanya melakukan putaran pelatihan pada sampel yang dihasilkan oleh statistik + acak, dan DRL perlu berinteraksi dengan lingkungan dan menggunakan kebijakan saat ini (on-policy) untuk menghasilkan data pelatihan. versi berdasarkan penggunaan ansambel statistik Ada banyak data pencarian utama, sehingga efeknya akan lebih baik. Berdasarkan analisis saat ini, kami telah mencoba pelatihan quasi-real-time. Untuk bagian pembuatan data, kami telah melakukan analisis real-time dan menghasilkan data real-time (pvlog) di Porsche. Saat ini, kami harus menyusun sebuah menyelesaikan EPISODE untuk pelatihan model, dan kami perlu mendapatkan operasi keluar pengguna, dan kami Jumlah datanya kecil, dan butuh tiga jam untuk menghasilkan sampel yang cukup.Oleh karena itu, untuk memverifikasi efeknya dengan cepat, saat ini kami menggunakan jam -tingkat analisis offline pada langkah ini, lalu gunakan PAI untuk melatih model. Kami juga telah mengembangkan Matrik waktu nyata untuk memantau RKT tingkat jam dan CPS rata-rata tingkat jam (jumlah interaksi rata-rata) secara waktu nyata.
Penyebaran online
DII (platform layanan online algoritme) memiliki fungsi prediksi model Tensorflow bawaan setelah memutakhirkan ke versi 0.33, dan kinerja pengujian kami dapat memenuhi permintaan. Di bagian pembaruan model, layanan DII akan memuat ulang model setelah memindai file model dan mengganti indeks. Saat ini, satu-satunya kelemahan adalah tidak dapat dilakukan secara real time. File model 1.4G yang diukur membutuhkan waktu sekitar setengah jam . Dalam skenario kami, di bawah lalu lintas saat ini, diperlukan waktu berjam-jam untuk mengumpulkan data di Replay Buffer, jadi bagian ini dapat diterima untuk sementara.
ps: Saat ini, jika Anda ingin menerapkan secara real time, Anda hanya dapat mengimplementasikan Inferensi dalam proses DII dengan menulis penambahan DII. Mengingat frekuensi pembaruan kami dan biaya pengembangan setelah peralihan model, kami belum melakukannya untuk saat ini . Saat ini diimplementasikan dalam bentuk penjadwalan waktu.
hasil
Metode evaluasi
Evaluasi offline RL selalu menjadi masalah, karena AUC tradisional didasarkan pada optimisasi terawasi dalam konteks saat ini.Metode evaluasi umumnya adalah:
Simulator: Hasilkan simulator Env berdasarkan data nyata, yang dapat berinteraksi dengan Agen terlatih dan mengevaluasi dengan Hadiah rata-rata. Ini sangat efektif untuk bermain game, seperti berbagai lingkungan di gym. Ada juga banyak proyek simulator di Taobao.Pada langkah selanjutnya, kami juga akan mempertimbangkan algoritma iterasi cepat melalui simulator, seperti simulator sistem dialog.
Pengujian manual: Gunakan metode manual untuk berinteraksi dengan sistem dan hitung rata-rata Hadiah Jumlah umpan balik manual dengan cara ini relatif terbatas.
Tes online: berinteraksi langsung dengan lingkungan nyata, lalu menghitung rata-rata Hadiah dari waktu ke waktu.Metode tes ini membutuhkan banyak interaksi di lingkungan nyata, dan kami juga menggunakan metode evaluasi ini.
efek daring
CPS terlatih meningkat secara signifikan dibandingkan dengan versi ensamble. Dalam sistem interaktif baru, jumlah rata-rata interaksi pengguna meningkat 1,5 kali lipat, meningkat 30%+.
RKT Tag belum meningkat secara signifikan. Di sini kami juga telah menganalisis alasannya. Setelan Hadiah saat ini tidak selalu menunjukkan rasio klik-tayang tertinggi kepada pengguna. Misalnya, kami mungkin membuat Tag yang bukan klik-tayang tertinggi beri peringkat dalam konteks saat ini, tetapi Produk yang diklik pada Tag ini memiliki kepuasan pengguna tertinggi, dan pengguna akan menjelajah lebih banyak, yang juga akan meningkatkan jumlah interaksi dengan sistem.
Ringkasan dan Outlook
Sistem Dialog Berorientasi Tugas berdasarkan pembelajaran penguatan telah mencapai sukses besar di bidang layanan pelanggan dan diagnosis medis. Yang pertama dapat menghemat banyak biaya tenaga kerja dan membantu pengguna menyelesaikan tugas dengan cepat. Yang terakhir diharapkan dapat memecahkan masalah medis berdasarkan data diagnosis medis yang dialami Masalah sumber daya yang tidak merata.
Di bidang panduan belanja komoditas, ketika konsumen menyelesaikan pesanan, pengguna biasanya berkomunikasi dengan layanan pelanggan penjualan, memeriksa informasinya sendiri, dan kemudian memutuskan untuk melakukan pembelian. Dalam data belanja Taobao yang masif, kami berharap dapat gali jalur belanja "pengemudi belanja veteran", dan berikan "penjelasan nilai pengambilan keputusan" kepada pengguna pada waktu yang tepat, untuk memberikan pengalaman panduan belanja yang lebih baik kepada konsumen. Dalam tugas ini, Ruang Tindakan sangat besar. Dibandingkan dengan tugas Dialog Berorientasi Tugas tradisional untuk memesan tiket pesawat, memesan makanan, dan perawatan medis, Ruang Tindakan kami meliputi penentuan tindakan sistem saat ini, seperti: pemilihan atribut produk, penjelasan konten, dll., dikonfirmasi Setelah tindakan, nilai tindakan tertentu harus diurutkan. Jika ada m tindakan di ruang kandidat, dan n di antaranya perlu diurutkan dan ditampilkan, maka ruang tindakan akan menjadi dimensi. Ruang aksi sebesar ini merupakan tantangan besar bagi akademisi dan industri. Sejauh ini kami hanya membuat satu lapisan, dan ruang aksi memiliki jutaan dimensi.
Masalah ini adalah masalah pengambilan keputusan multi-layer yang khas.Apakah mungkin merancang metode HRL yang lebih baik dan mempertimbangkan manfaat global secara lebih global? Selain itu, bagaimana cara berbagi informasi dalam sampel yang terbatas? Bagaimana cara melakukan eksplorasi yang efisien di lingkungan online nyata? Bagaimana memiliki "pengalaman replay" yang masuk akal cukup awal untuk membuat pembelajaran online lebih "stabil, cepat, dan efektif" adalah pertanyaan selanjutnya untuk dipelajari?
Pencarian interaktif cerdas adalah jenis baru dari metode pencarian belanja. Pengguna dapat berinteraksi dengan sistem saat mencari. Kami berharap dapat memberikan informasi untuk membantu pengguna membuat keputusan selama interaksi dengan pengguna. Ini kira-kira mencakup dimensi berikut:
Persyaratan perbaikan: Ketika kebutuhan belanja pengguna relatif pasti, sistem akan merekomendasikan dimensi yang membantu menyempurnakan pengambilan keputusan.Misalnya, di bawah kueri "earphone", sistem akan membiarkan pengguna memilih "metode pemakaian" untuk membantu pengguna melakukan transaksi lebih cepat.
Eksplorasi dan penemuan: Pecahkan kebutuhan belanja dan penemuan, dan rekomendasikan beberapa kueri yang berbeda ketika ditemukan bahwa pengguna tidak berniat untuk membeli.
T&J Pengetahuan: memecahkan masalah yang telah dipelajari pengguna tentang pengetahuan berbelanja melalui situs web pihak ketiga sebelumnya, dan kemudian datang ke Taobao untuk langsung mencari produk; memberikan beberapa penjelasan pengetahuan; pada akhirnya berharap dapat memandu pengguna untuk menyelesaikan seluruh proses pembelian dengan lancar , berbagi pembelian dan pasca pembelian di tautan Taobao;
Data Sesi pengguna adalah sebagai berikut:
Kueri awal adalah "sepatu pria tanpa tali sepatu", dan Agen merekomendasikan "klasifikasi warna: merah, putih, hitam, abu-abu" kepada pengguna.
Pengguna memilih "Urutkan berdasarkan Penjualan"
Pengguna memilih "hitam", dan Agen merekomendasikan beberapa pertanyaan yang berbeda kepada pengguna, menemukan: pria dengan sepatu kulit, pria dengan sepatu kets, pria dengan sepatu, pria dengan sepatu putih, pria dengan sepatu kain, pria dengan sepatu kanvas, pria dengan sepatu kasual, pria dengan sepatu peas, t T-shirt man"
Pengguna "membalik halaman"
Pengguna memilih "Little White Shoes Men", dan Agen juga merekomendasikan "gaya kaki: ujung runcing, ujung datar, ujung bulat" kepada pengguna
Pengguna mengklik "runcing"
Pengguna mengklik "kepala bulat"
Definisi Masalah & Pekerjaan Terkait & Pemodelan
definisi masalah
Dalam masalah saat ini, kami ingin mengizinkan pengguna untuk berinteraksi dengan sistem sebanyak mungkin. Lebih banyak interaksi berarti lebih banyak pv, meningkatkan waktu tinggal dan viskositas pengguna, dan peningkatan pv juga akan meningkatkan pendapatan iklan. Dalam hal interaksi suara cerdas, Microsoft telah mengusulkan indikator statistik - CPS, yang merupakan jumlah putaran dialog antara manusia dan "robot obrolan" kecerdasan buatan. Menurut statistik Microsoft, CPS Xiaoice saat ini adalah sekitar 23, sedangkan CPS Siri, Google Now, dan mesin kecerdasan buatan lainnya yang dikembangkan untuk tujuan asisten cerdas seringkali tidak melebihi 3. Dalam makalah ini, kami juga menggunakan Matriks ini sebagai tujuan pengoptimalan.
Tentu saja, kami juga dapat menganggap masalah ini sebagai Sistem Dialog Berorientasi Tugas, yang memungkinkan pengguna menyelesaikan belanja dengan jumlah interaksi paling sedikit.Saat ini, kami menetapkan tujuan seperti yang pertama.
Signifikansi pembelajaran penguatan dalam skenario pencarian interaktif
Skenario kerja pembelajaran penguatan harus memiliki hadiah penundaan yang jelas. Biasanya, dalam permainan catur, menyerahkan bidak saat ini untuk mendapatkan keuntungan keseluruhan, dalam permainan kompetitif seperti dota2, sang pahlawan menyerahkan keuntungan moneter dari pisau terakhir untuk memilih gank dan Roshan.Reinforcement learning bagus dalam memodelkan masalah delay reward dalam pengambilan keputusan berurutan, yaitu menyerahkan keputusan optimal lokal saat ini untuk memperoleh manfaat jangka panjang.
Umpan balik dari sistem pencarian interaktif kepada pengguna adalah proses pengambilan keputusan berurutan yang khas, dan kadang-kadang perlu untuk menyerahkan hasil tertinggi saat ini. Dalam masalah ini, jika sasaran pengoptimalan kami adalah RKT keseluruhan, seperti pada pencarian headset skenario, ada dua dimensi (merek ), (gaya pakai) dapat digunakan untuk pengambilan keputusan dalam konteks. Dengan metode yang diawasi, apa yang telah kami pelajari adalah pilihan optimal dalam konteks saat ini, yaitu gagasan tentang Serakah pada gambar di bawah. Saat ini, yang kami pelajari adalah "tampilan pertama merek" Lebih baik, tetapi pada kenyataannya, jika kami mengubah merek dan urutan metode pemakaian, meskipun keputusan pertama kami tidak optimal saat ini negara, harapan di bawah keputusan urutan optimal.
Dibandingkan dengan bidang permainan, catur, dan kontrol mesin di mana RL lebih berhasil, definisi "penghentian" dalam sistem interaktif dialog relatif kabur. Dalam robot obrolan, ini dapat didefinisikan sebagai keluarnya pengguna. Dalam pencarian interaktif, apakah peralihan niat pengguna didefinisikan sebagai penghentian Terkait dengan tugas, jika kita ingin pengguna meningkatkan PV, kita dapat keluar dari keseluruhan interaksi sebagai penghentian. Jika kita ingin memandu lebih lanjut belanja dalam kategori yang disempurnakan hingga transaksi selesai , penghentian didefinisikan sebagai niat keluar atau beralih.
Gagasan Umum untuk Pembelajaran Penguatan dalam Dialog Berbasis Tugas
Pendekatan klasik DM adalah menganggap masalah sebagai masalah pengisian slot Pada 2007-2013, pendekatan dasarnya adalah mendefinisikan tugas dan membaginya menjadi serangkaian slot, yang diisi selama proses interaksi dialog. Masalah terbesar dengan metode ini adalah: transmisi kesalahan, kesalahan hulu akan ditransmisikan ke hilir dan menyebabkan kesalahan langsung ke hilir, seperti kesalahan pada langkah NLU atau DST tertentu, yang secara langsung akan menyebabkan DM menghasilkan kesalahan. Tindakan, dan hampir tidak mungkin untuk memperbaikinya. Metode end-to-end dapat mencapai tingkat koreksi kesalahan tertentu.Ide dasarnya adalah untuk mengawasi metode pelatihan terlebih dahulu, dan kemudian menggunakan pembelajaran penguatan mendalam untuk menyesuaikan parameter (sampelnya adalah pengguna nyata). Karya yang lebih representatif adalah artikel Bing Liu tentang nips di tahun 2017. Strukturnya adalah sebagai berikut, mengoptimalkan pengisian slot dan tindakan pada saat yang bersamaan.
Pemodelan Kerangka Pembelajaran Penguatan Berbasis Penelusuran Interaktif
Kami menggunakan kerangka pembelajaran penguatan untuk memodelkan skenario pencarian interaktif. Diantaranya, agen adalah proses pelayanan kami. Lingkungan (env) adalah pengguna dan faktor lain dari platform. Khususnya, pengguna pertama kali mengirimkan kueri, seperti "ponsel". Agen memilih atribut kategori, seperti "merek". Halaman tersebut menampilkan nilai spesifik "Merek", seperti , dll. Pengguna dapat memilih/membatalkan nilai atribut tertentu, atau langsung membalik halaman, dan operasi ini akan melompat ke PV berikutnya. Agen dan env berinteraksi terus menerus hingga pengguna keluar dari sesi, membentuk sebuah episode.
Kita ingat bahwa env memberikan status pada waktu t, agen melakukan tindakan, dan env memberi umpan balik kepada agen dan melompat ke status sesuai dengan dinamika endogen. Pembelajaran penguatan bertujuan untuk mencari kebijakan yang memaksimalkan imbalan kumulatif yang diharapkan untuk agen.
Dalam skenario pencarian interaktif, kami mendefinisikan status, tindakan, dan penghargaan sebagai:
1. Desain negara: Dua poin harus dipertimbangkan dalam desain negara. Status saat ini cukup untuk mempelajari Tindakan yang sesuai, dan proses interaksi pengguna-lingkungan perlu diubah secara signifikan untuk mempelajari fungsi Q. Di sini kami mempertimbangkan hal berikut aspek:
Status Pengguna: termasuk jenis kelamin, usia, dan daya beli pengguna.
Riwayat Pengguna, Riwayat Agen: kategori, nomor halaman (pengguna membalik halaman), tag yang diklik oleh pengguna, tag yang direkomendasikan oleh Agen.
Status Kueri: Setelah DST, Kueri Norma digunakan sebagai Penyematan (mengambil nilai rata-rata penyematan setelah segmentasi kata granular semantik. Tentu saja, perhatian diri juga dapat dipertimbangkan di sini untuk mempertimbangkan kontribusi semantik, tetapi kami belum melakukannya di bawah saat ini volume data) sebagai status kueri saat ini.
Tandai skor statis: Skor Tag Kueri, Skor Tag Pengguna, dll. : Termasuk informasi pengguna (jenis kelamin, usia, daya beli, dll.) dan informasi sesi (kategori, nomor halaman, kueri, catatan operasi pengguna, dll.).
2. Tindakan: atribut kategori, seperti "merek", "jenis celana", "bahan", dan seterusnya. Ruang tindakan adalah semua atribut kategoris legal.
3. Hadiah: Jika pengguna tidak pergi, sebaliknya. Ini dirancang karena memaksimalkan hadiah kumulatif setara dengan tujuan bisnis saat ini untuk memaksimalkan jumlah putaran interaksi.
Kesulitan dari masalah ini adalah bahwa jumlah semua atribut kategori adalah sekitar 200K, yaitu ukuran ruang tindakan adalah 200K (kategori * dimensi), yang pasti akan menyebabkan ruang pencarian terlalu besar dan sulit ditemukan. strategi optimal. Sebaliknya, setiap kategori produk memiliki rata-rata sekitar 15 atribut. Meskipun skala ruang tindakan ini dapat diterima, kami memiliki total sekitar 1500 kategori.Jika kami melatih masing-masing 1500 agen, sulit menggunakan metode pembelajaran mesin untuk kategori ekor karena aliran kategori kepala dan kategori ekor adalah sangat tidak seimbang Tujuan dari pelatihan adalah untuk mendapatkan agen dengan kinerja yang cukup baik.
Kami melihat bahwa set atribut yang dimiliki oleh kategori yang berbeda memiliki sejumlah besar persimpangan, misalnya, "baju" dan "celana" keduanya memiliki atribut "bahan". Arti dari atribut yang sama seringkali tidak dapat dibedakan untuk kategori yang berbeda. Misalnya, "merek" adalah atribut yang cenderung akan dipilih oleh pengguna yang menghargai kualitas dan peduli tentang makna tambahan yang diberikan merek pada produk homogen. Berdasarkan hal ini, kami bersama-sama melatih agen (multitugas) untuk berbagai keperluan dengan berbagi parameter model (Riwayat Pengguna, Riwayat Agen, dan penyematan Tindakan). Model spesifiknya adalah sebagai berikut. Keluaran lain dari vektor penilaian berdimensi tinggi seperti itu jelas dihitung secara berlebihan, jadi di sini kami membuat Mask untuk koleksi Ruang Tindakan sesuai dengan kategori, dan hanya menilai Tindakan yang dipertimbangkan di bawah kategori saat ini, dan menghitung final Kami menggunakan Aksi untuk mencetak gol:
sistem
Berdasarkan PAI TF, kami menggunakan algoritma DQN yang diimplementasikan oleh komponen pembelajaran penguatan Ali AI Agent (singkatnya A3gent) untuk menyelesaikan strategi yang optimal.
Lapisan input dari jaringan saraf kami berisi beberapa input, dan status saluran yang berbeda jarang/padat, panjang tetap/panjang variabel, dan tipe datanya termasuk int, float, dan string. A3gent mendukung input status multi-saluran, dan tipe data serta bentuk setiap saluran dapat dikonfigurasi.
Selain menangani banyak input, struktur jaringan saraf kami juga relatif kompleks, termasuk lapisan embedding, lapisan terhubung penuh, lapisan gabungan. Selain itu, mengingat status salah satu jalan adalah set atribut yang direkomendasikan oleh agen dalam episode saat ini dan ruang tindakan kami adalah set atribut, kami membiarkan parameter berbagi lapisan output dengan lapisan embedding. Yaitu, untuk atribut P, vektor embeddingnya akan digunakan sebagai parameter neuron keluaran yang sesuai dengan P:, di mana h mewakili input dari lapisan keluaran.
Karena agen dari berbagai kategori berbagi parameter model, strategi masing-masing kategori agen tidak dapat diteruskan dengan mudah. Karena status berisi saluran sebagai ID dari kategori, yang dicatat sebagai c, pertama-tama kita menanyakan kamus dari kategori ke daftar atribut menurut c, dan menemukan set atribut legal yang sesuai dengan c. Kemudian dengan rakus pilih tindakan sesuai dengan nilai Q:
Logika di atas telah diungkapkan melalui grafik perhitungan di komponen A3gent, dan tidak ada perbedaan antara penerusan biasa untuk pengguna.
Karena pembelajaran penguatan memerlukan pembaruan online selama interaksi antara agen dan env, dan proses layanan berbasis QP tidak dapat mencapai pelatihan model, kami mengadopsi strategi pelatihan kuasi-real-time berdasarkan PAI TF:
Kami pertama kali menggunakan data historis untuk pra-pelatihan, dan hasil pra-pelatihan pada dasarnya dapat mempelajari strategi online sebagai parameter awal model. Dibandingkan dengan baseline (dimensi top5 acak, jadi hasil acaknya lumayan), DRL offline dapat membawa peningkatan 1,9% dalam hal rasio klik-tayang tingkat kueri (kami juga akan menganalisisnya nanti, Reward saat ini sebenarnya tidak dapat meningkatkan CTR secara signifikan), sedangkan versi berbasis ansambel statistik mengalami peningkatan sebesar 6,8%. Pada saat yang sama, dampak dari berbagai strategi pada indikator global dianalisis PV/uv per kapita menurun sebesar 0,5%, dan jumlah rata-rata interaksi dalam sesi besar meningkat sebesar 0,16%. rincian sebagai berikut:
Menanggapi hasil ini, kami percaya bahwa DRL hanya melakukan putaran pelatihan pada sampel yang dihasilkan oleh statistik + acak, dan DRL perlu berinteraksi dengan lingkungan dan menggunakan kebijakan saat ini (on-policy) untuk menghasilkan data pelatihan. versi berdasarkan penggunaan ansambel statistik Ada banyak data pencarian utama, sehingga efeknya akan lebih baik. Berdasarkan analisis saat ini, kami telah mencoba pelatihan quasi-real-time. Untuk bagian pembuatan data, kami telah melakukan analisis real-time dan menghasilkan data real-time (pvlog) di Porsche. Saat ini, kami harus menyusun sebuah menyelesaikan EPISODE untuk pelatihan model, dan kami perlu mendapatkan operasi keluar pengguna, dan kami Jumlah datanya kecil, dan butuh tiga jam untuk menghasilkan sampel yang cukup.Oleh karena itu, untuk memverifikasi efeknya dengan cepat, saat ini kami menggunakan jam -tingkat analisis offline pada langkah ini, lalu gunakan PAI untuk melatih model. Kami juga telah mengembangkan Matrik waktu nyata untuk memantau RKT tingkat jam dan CPS rata-rata tingkat jam (jumlah interaksi rata-rata) secara waktu nyata.
Penyebaran online
DII (platform layanan online algoritme) memiliki fungsi prediksi model Tensorflow bawaan setelah memutakhirkan ke versi 0.33, dan kinerja pengujian kami dapat memenuhi permintaan. Di bagian pembaruan model, layanan DII akan memuat ulang model setelah memindai file model dan mengganti indeks. Saat ini, satu-satunya kelemahan adalah tidak dapat dilakukan secara real time. File model 1.4G yang diukur membutuhkan waktu sekitar setengah jam . Dalam skenario kami, di bawah lalu lintas saat ini, diperlukan waktu berjam-jam untuk mengumpulkan data di Replay Buffer, jadi bagian ini dapat diterima untuk sementara.
ps: Saat ini, jika Anda ingin menerapkan secara real time, Anda hanya dapat mengimplementasikan Inferensi dalam proses DII dengan menulis penambahan DII. Mengingat frekuensi pembaruan kami dan biaya pengembangan setelah peralihan model, kami belum melakukannya untuk saat ini . Saat ini diimplementasikan dalam bentuk penjadwalan waktu.
hasil
Metode evaluasi
Evaluasi offline RL selalu menjadi masalah, karena AUC tradisional didasarkan pada optimisasi terawasi dalam konteks saat ini.Metode evaluasi umumnya adalah:
Simulator: Hasilkan simulator Env berdasarkan data nyata, yang dapat berinteraksi dengan Agen terlatih dan mengevaluasi dengan Hadiah rata-rata. Ini sangat efektif untuk bermain game, seperti berbagai lingkungan di gym. Ada juga banyak proyek simulator di Taobao.Pada langkah selanjutnya, kami juga akan mempertimbangkan algoritma iterasi cepat melalui simulator, seperti simulator sistem dialog.
Pengujian manual: Gunakan metode manual untuk berinteraksi dengan sistem dan hitung rata-rata Hadiah Jumlah umpan balik manual dengan cara ini relatif terbatas.
Tes online: berinteraksi langsung dengan lingkungan nyata, lalu menghitung rata-rata Hadiah dari waktu ke waktu.Metode tes ini membutuhkan banyak interaksi di lingkungan nyata, dan kami juga menggunakan metode evaluasi ini.
efek daring
CPS terlatih meningkat secara signifikan dibandingkan dengan versi ensamble. Dalam sistem interaktif baru, jumlah rata-rata interaksi pengguna meningkat 1,5 kali lipat, meningkat 30%+.
RKT Tag belum meningkat secara signifikan. Di sini kami juga telah menganalisis alasannya. Setelan Hadiah saat ini tidak selalu menunjukkan rasio klik-tayang tertinggi kepada pengguna. Misalnya, kami mungkin membuat Tag yang bukan klik-tayang tertinggi beri peringkat dalam konteks saat ini, tetapi Produk yang diklik pada Tag ini memiliki kepuasan pengguna tertinggi, dan pengguna akan menjelajah lebih banyak, yang juga akan meningkatkan jumlah interaksi dengan sistem.
Ringkasan dan Outlook
Sistem Dialog Berorientasi Tugas berdasarkan pembelajaran penguatan telah mencapai sukses besar di bidang layanan pelanggan dan diagnosis medis. Yang pertama dapat menghemat banyak biaya tenaga kerja dan membantu pengguna menyelesaikan tugas dengan cepat. Yang terakhir diharapkan dapat memecahkan masalah medis berdasarkan data diagnosis medis yang dialami Masalah sumber daya yang tidak merata.
Di bidang panduan belanja komoditas, ketika konsumen menyelesaikan pesanan, pengguna biasanya berkomunikasi dengan layanan pelanggan penjualan, memeriksa informasinya sendiri, dan kemudian memutuskan untuk melakukan pembelian. Dalam data belanja Taobao yang masif, kami berharap dapat gali jalur belanja "pengemudi belanja veteran", dan berikan "penjelasan nilai pengambilan keputusan" kepada pengguna pada waktu yang tepat, untuk memberikan pengalaman panduan belanja yang lebih baik kepada konsumen. Dalam tugas ini, Ruang Tindakan sangat besar. Dibandingkan dengan tugas Dialog Berorientasi Tugas tradisional untuk memesan tiket pesawat, memesan makanan, dan perawatan medis, Ruang Tindakan kami meliputi penentuan tindakan sistem saat ini, seperti: pemilihan atribut produk, penjelasan konten, dll., dikonfirmasi Setelah tindakan, nilai tindakan tertentu harus diurutkan. Jika ada m tindakan di ruang kandidat, dan n di antaranya perlu diurutkan dan ditampilkan, maka ruang tindakan akan menjadi dimensi. Ruang aksi sebesar ini merupakan tantangan besar bagi akademisi dan industri. Sejauh ini kami hanya membuat satu lapisan, dan ruang aksi memiliki jutaan dimensi.
Masalah ini adalah masalah pengambilan keputusan multi-layer yang khas.Apakah mungkin merancang metode HRL yang lebih baik dan mempertimbangkan manfaat global secara lebih global? Selain itu, bagaimana cara berbagi informasi dalam sampel yang terbatas? Bagaimana cara melakukan eksplorasi yang efisien di lingkungan online nyata? Bagaimana memiliki "pengalaman replay" yang masuk akal cukup awal untuk membuat pembelajaran online lebih "stabil, cepat, dan efektif" adalah pertanyaan selanjutnya untuk dipelajari?
Related Articles
-
A detailed explanation of Hadoop core architecture HDFS
Knowledge Base Team
-
What Does IOT Mean
Knowledge Base Team
-
6 Optional Technologies for Data Storage
Knowledge Base Team
-
What Is Blockchain Technology
Knowledge Base Team
Explore More Special Offers
-
Short Message Service(SMS) & Mail Service
50,000 email package starts as low as USD 1.99, 120 short messages start at only USD 1.00