How OCR reads crumpled files?
1. Latar Belakang
Dengan pesatnya perkembangan bisnis grup dan peningkatan persyaratan kredit grup untuk grup pengguna, peninjauan sertifikat telah menjadi bagian tak terpisahkan dari bisnis. Misalnya: Alipay perlu meninjau informasi kartu ID pengguna, dan 1688 perlu meninjau izin usaha penjual. Selain itu, ada bisnis yang melibatkan letter of credit dan polis asuransi yang membutuhkan profesional yang cukup kompeten untuk meninjaunya.
Dalam beberapa tahun terakhir, kecerdasan buatan telah mengungguli manusia dalam semakin banyak tugas. Jika AI dapat diperkenalkan ke tempat audit untuk mewujudkan audit yang cerdas, efisiensi audit akan sangat meningkat. Dibandingkan dengan tinjauan manual, tinjauan cerdas memiliki keuntungan sebagai berikut:
Namun, cukup sulit untuk mencapai audit cerdas tingkat tinggi, dan hal-hal berikut perlu dilakukan:
Untuk memungkinkan mesin menggantikan orang dalam tinjauan dokumen dan bahkan tinjauan teks, pertama-tama mesin perlu melihat apa yang dapat dilihat manusia (OCR: mengonversi gambar teks menjadi teks), dan kemudian memahami apa yang dapat dilihat manusia (NLP: Seperti kesalahan koreksi segmentasi kata/klasifikasi teks, dll). Sebagai sumber dari semua algoritme selanjutnya, algoritme OCR memainkan peran penting dalam audit cerdas. Selain algoritma itu sendiri, kualitas gambar adalah faktor terbesar yang mempengaruhi akurasi pengenalan OCR. Umumnya, kualitas gambar diukur dari tiga aspek: kemiringan, ketajaman, dan distorsi. Tujuan dari artikel ini adalah bagaimana menghaluskan gambar dokumen yang terdistorsi melalui suatu algoritma, sehingga meningkatkan akurasi pengenalan OCR dari gambar dokumen yang terdistorsi, dan mengawal audit cerdas.
2. Pekerjaan terkait
2.1 Metode tradisional
Algoritme koreksi saat ini untuk gambar dokumen yang terdistorsi sebagian besar termasuk dalam tiga kategori berikut:
Koreksi Dokumen Terdistorsi Berbasis Perangkat Keras
Jenis metode ini biasanya menggunakan perangkat keras khusus untuk memindai informasi bentuk tiga dimensi dari kertas. Misalnya, sumber cahaya terstruktur digunakan untuk memindai dokumen untuk mendapatkan informasi tiga dimensi dari dokumen tersebut, yaitu informasi kedalaman, dan kemudian gambar dokumen dikoreksi sesuai dengan informasi kedalaman.
Algoritma Koreksi Dokumen Berdasarkan Rekonstruksi Model 3D
Jenis metode ini terutama dimulai dari faktor-faktor penyebab distorsi dokumen, termasuk dokumen dan sudut penempatannya, arah sumber cahaya, karakteristik perangkat akuisisi gambar, dan faktor lainnya. Dengan memodelkan dokumen dalam 3D dan menggunakan pengetahuan matematika yang ada untuk mengoreksi distorsi.
Algoritma Koreksi Dokumen Berdasarkan Segmentasi Konten
Jenis algoritme ini mengabaikan simulasi geometris dan pemodelan distorsi 3D, langsung menganalisis gambar dokumen, termasuk sudut kemiringan, garis teks, fitur karakter atau frasa, dll., dan kemudian merancang algoritme koreksi distorsi yang tidak terpengaruh oleh faktor selain gambar dokumen. Keuntungan dari jenis algoritma ini adalah penyebab distorsi tidak perlu diketahui secara jelas.
Ketiga jenis algoritma tersebut memiliki kelebihannya masing-masing, namun juga memiliki keterbatasannya masing-masing, yang dapat diringkas sebagai berikut:
Dapat dilihat bahwa metode tradisional sebagian besar memodelkan adegan tertentu, dan setelah adegan saat ini dilompati, model tidak akan berfungsi. Dengan munculnya pembelajaran mendalam, beberapa sarjana telah mengusulkan untuk menggunakan algoritme terkait pembelajaran mendalam untuk memperbaiki gambar dokumen yang terdistorsi.
2.2 Metode Deep Learning
Dengan munculnya pembelajaran mendalam dalam beberapa tahun terakhir, beberapa sarjana telah mengusulkan untuk menggunakan model yang terkait dengan segmentasi semantik untuk memodelkan gambar dokumen yang terdistorsi, mengubah masalah klasifikasi tingkat piksel menjadi masalah regresi tingkat piksel, dan mewujudkan koreksi gambar dokumen yang terdistorsi. model memiliki Kemampuan generalisasi tertentu dapat digunakan untuk mengoreksi gambar yang terdistorsi atau terlipat dalam pemandangan yang rumit.
Dalam CVPR 2018 yang baru saja selesai, Kema et al., mengusulkan model U-net berdasarkan segmentasi semantik [1], yang menggunakan metode grafik untuk menghasilkan gambar dokumen terdistorsi yang mendekati pemandangan nyata. - jaringan bersih.
Keuntungan dari pembelajaran mendalam adalah bahwa jika ada kumpulan sampel pelatihan yang cukup kaya dan berkualitas tinggi, struktur jaringannya yang dalam memungkinkannya memiliki kemampuan generalisasi tertentu, dan dapat memperbaiki berbagai distorsi, melompat keluar dari keterbatasan metode tradisional.
Mempertimbangkan kompleksitas bisnis yang sebenarnya, metode tradisional tidak kompeten, jadi makalah ini menggabungkan pengetahuan yang relevan di bidang segmentasi semantik pembelajaran mendalam, dan mengusulkan skema pengoptimalan untuk kekurangan metode yang ada untuk mewujudkan koreksi dokumen yang terdistorsi.
3. Pembuatan dataset
Siapa pun yang memiliki pemahaman tertentu tentang pembelajaran mesin atau pembelajaran mendalam tahu bahwa dalam banyak kasus, data menentukan seberapa baik kinerja model Anda. Mengenai pemulihan dokumen yang terdistorsi, di satu sisi, hanya ada sedikit kumpulan data sumber terbuka, di sisi lain, tujuan kami adalah membangun struktur jaringan saraf yang dapat mencapai tugas regresi tingkat piksel. Sekarang, hampir tidak ada yang terbuka sumber dan set data yang ditandai. . Oleh karena itu, kami mengacu pada metode di [1] dan menghasilkan dataset sendiri.
3.1 Pembuatan gambar dokumen yang terdistorsi
Distorsi selanjutnya dibagi menjadi pelipatan dan pengeritingan Menggunakan pengetahuan grafis, kami menyadari pelipatan dan pengeritingan dokumen melalui langkah-langkah berikut:
Diantaranya, perbedaan curling dan fold adalah perbedaan rumus perhitungannya:
Dengan menyesuaikan ukuran hyperparameter, derajat distorsi yang berbeda dapat dicapai, seperti yang ditunjukkan pada gambar berikut:
3.2 Pemecahan masalah dalam proses pembuatan dataset
Tentu saja, saat membuat kumpulan data, kami juga menemui banyak masalah, seperti:
Bagaimana cara menghasilkan label untuk set sampel?
Bagaimana cara menangani poin kosong saat membuat gambar?
Pertama-tama, ini adalah pelabelan sampel. Jika kita ingin mencapai regresi kumpulan piksel, setiap piksel harus memiliki label. Bagaimana merancang label sehingga struktur jaringan dapat menyelesaikan tugas dengan lebih baik?
Kami mendesainnya seperti ini:
Pertama, bandingkan gambar yang dilengkungkan dan diubah dengan gambar asli untuk mendapatkan ukuran perpindahan dan arah yang harus dipindahkan oleh setiap piksel pada gambar yang dilipat dan diubah, dan kemudian buat matriks 3 dimensi, satu dimensi digunakan untuk menyimpan gambar yang dilengkungkan dan diubah image Informasi nilai abu-abu, dan dua dimensi lainnya digunakan untuk besaran dan arah perpindahan yang harus dipindahkan dalam arah sumbu x dan sumbu y, sehingga mewujudkan konstruksi sampel dan label.
Selain itu, selama proses transformasi, kami juga menemukan bahwa beberapa gambar yang dihasilkan akan memiliki titik hitam atau garis hitam, seperti yang ditunjukkan pada gambar berikut:
Tiga gambar kecil pada gambar di atas masing-masing mewakili gambar yang diubah dan gambar label dari setiap piksel. Melalui analisis, kami menemukan bahwa alasan mengapa terdapat bintik hitam adalah karena piksel pada koordinat ini kosong, dan alasan mengapa piksel tersebut kosong adalah karena kami sebenarnya memiliki operasi pembulatan dalam proses transformasi, dan semacamnya. Operasi pembulatan dapat meninggalkan kolom di antara dua kolom piksel yang berdekatan, seperti yang ditunjukkan pada diagram skematik berikut:
Kemudian, kami memecahkan masalah ini melalui interpolasi tetangga terdekat.Gambar dengan titik hitam di atas diinterpolasi untuk mendapatkan gambar transformasi berikut:
Tentu saja, titik kosong tersebut juga dapat diperbaiki dengan metode interpolasi atau perbaikan lainnya.
Memecahkan masalah kumpulan data setara dengan memecahkan masalah makanan model. Jadi seperti apa sebenarnya model kita? Jangan panik, kami akan menjelaskannya kepada Anda secara detail di bawah ini.
4. Konstruksi dan optimalisasi model
4.1 Koreksi dan pemulihan dokumen yang terdistorsi berdasarkan U-net
Kami awalnya memilih model U-net, yang paling umum digunakan dalam segmentasi semantik, dan arsitektur jaringannya ditunjukkan pada gambar berikut [2]:
Arsitektur jaringannya berbentuk seperti huruf "U", sehingga disebut U-net. Jenis jaringan saraf ini dapat dipahami sebagai struktur Encoder-Decoder, dimana Encoder adalah jalur kontraksi, terutama terdiri dari lapisan konvolusional dan pooling lapisan. Tujuan utamanya adalah untuk mencapai ekstraksi fitur atau menangkap semantik, dan Decoder adalah jalur ekstensi, yang terutama direalisasikan melalui konvolusi transposisi dan melewatkan koneksi. Tujuan utamanya adalah untuk mencapai upsampling. Karena downsampling dari operasi Pooling, dimensi gambar berkurang. , dan konvolusi transposisi dapat membuat dimensi peta fitur lebih besar, untuk mengembalikan ukuran gambar asli, sehingga mencapai regresi tingkat piksel. Namun, hasil yang diperoleh dengan cara ini sangat kasar, sehingga fitur yang dangkal umumnya dikoneksikan ke peta fitur setelah upsampling melalui sambungan lewati untuk mencapai pemosisian yang tepat.
Namun, efek berdasarkan model U-net tidak sebaik yang kami harapkan:
Alasan utamanya adalah akan ada fenomena seperti distorsi teks dan distorsi interline dan misalignment. Dalam kasus yang parah, gambar robek bahkan dapat terjadi:
Untuk mengoptimalkan model, kita perlu menemukan masalahnya, oleh karena itu kita memvisualisasikan hasil prediksi model dan mendapatkan gambar berikut:
Dapat ditemukan bahwa meskipun label yang diprediksi dan label sebenarnya memiliki kecenderungan umum yang sama, semuanya muncul dalam bentuk cluster dan tidak dapat seakurat label sebenarnya, yaitu resolusinya tidak cukup atau akurasi pemosisiannya rendah. tidak cukup. Oleh karena itu, kami mengoptimalkan model dari tiga perspektif:
Ubah struktur model: dari U-net ke Stacked U-net untuk meningkatkan resolusi
Ubah fungsi kerugian: buat jarak antara piksel asli yang berdekatan dan hasil prediksi tidak terlalu berbeda selama proses optimalisasi model, sehingga dapat memperbaiki distorsi teks
Post-proses hasil prediksi untuk memperbaiki fenomena kebisingan
Berikut ini, setiap langkah optimasi dijelaskan secara rinci.
4.2 Koreksi dan pemulihan dokumen yang terdistorsi berdasarkan StackedU-net
(1) Ubah struktur jaringan: U-net —> Stacked U-net
Struktur jaringan u-net yang ditumpuk ditunjukkan di atas. Kami mengacu pada struktur Tumpukan di kertas. Mempertimbangkan masalah resolusi dan memperbaikinya, dua u-net ditumpuk, dan tujuannya adalah untuk menggunakan U-net pertama terlebih dahulu. Dapatkan hasil prediksi kasar, yang dapat dianggap sebagai apriori, dan kemudian menggabungkan hasil prediksi dan peta distorsi asli, dan kemudian memasukkannya ke dalam U-net kedua untuk direalisasikan, tujuannya adalah untuk menggabungkan abstraksi yang dalam dengan rendah tinggi -fitur resolusi dan fitur resolusi tinggi mentah yang dangkal untuk prediksi berbutir halus.
(2) Peningkatan fungsi kerugian: menambahkan kerugian skala-invarian
Di U-net, kami menggunakan fungsi root mean square error berikut:
Diantaranya, y mewakili vektor dua dimensi. Namun, fungsi kerugian seperti itu dapat dengan mudah menyebabkan distorsi antar karakter. Oleh karena itu, kami meningkatkan hasil saat ini dengan menambahkan kerugian skala-invarian. Kami berharap bahwa perpindahan relatif antara perpindahan relatif setelah pemetaan dan perpindahan relatif kebenaran dasar yang sesuai akan menjadi sekecil mungkin. Mungkin kecil:
Selain itu, kami juga menemukan bahwa ketika menggunakan bentuk kerugian L1 berikut ini, akan mendapatkan hasil yang lebih baik daripada Kerugian L2:
Diantaranya adalah hyperparameter yang mengatur proporsi mean square error dan scale invariant error.
Tunjukkan perbandingan efek antara L2 Loss dan L1 Loss:
Dapat dilihat bahwa L1 Loss dapat mencapai hasil yang lebih baik secara detail, alasannya dapat dipahami sebagai berikut:
L2 Loss lebih rentan terhadap nilai error yang besar karena operasi kuadrat pada fungsinya, dan mengabaikan nilai error yang kecil.Misalnya error mae pada pixel A adalah 2, dan error mae pada pixel B adalah 0.02.Pada saat ini waktu, mereka berbeda 100 kali, dan dalam operasi kuadrat, nilai kesalahan piksel A menjadi 4, dan kesalahan piksel B menjadi 0,0004, selisih 10.000 kali, sehingga L1 Loss dapat lebih baik secara detail.
(3) Pemrosesan pasca yang lancar
Kami menemukan bahwa gambar yang diprediksi oleh U-net sering kali memiliki noise atau bahkan kesalahan dan robekan. Mengapa fenomena ini terjadi? Alasan utamanya adalah bahwa piksel yang berdekatan atau serupa harus memiliki nilai prediksi yang serupa. Namun, jika nilai prediksi dari yang berdekatan piksel sangat berbeda, noise atau bahkan kesalahan gambar dan robekan akan mudah muncul. Oleh karena itu, kami memperbaiki fenomena ini dengan menghaluskan label yang diprediksi, meskipun sederhana dan kasar:
Menganalisis gambar yang dihasilkan oleh Stacked U-net, kami dapat menemukan bahwa setelah pengoptimalan, meskipun ada peningkatan distorsi/noise tertentu, gambar dokumen masih memiliki distorsi tertentu:
Jadi di mana kita gagal melakukan pekerjaan dengan baik sehingga menyebabkan fenomena ini? Kami telah meningkatkan akurasi pemosisian U-net, distorsi teks, ketidakselarasan antarbaris, dan derau dari berbagai sudut. Namun, meskipun struktur jaringan StackedU-net dapat mencapai hasil yang baik pada set pelatihan, ia tidak bekerja dengan baik pada set verifikasi. Efeknya masih belum sebaik yang kita harapkan. Artinya, struktur jaringan Stacked U-net telah menghasilkan fenomena overfitting pada set pelatihan. Sekarang kami telah menemukan dua poin yang sangat kontradiktif:
Jaringan terlalu dangkal dan bidang reseptif terlalu kecil untuk mendapatkan informasi piksel sekitar yang cukup, sehingga hasil yang akurat tidak dapat diperoleh.
Jika jaringan terlalu dalam, meskipun bidang reseptif akan meningkat, karena terlalu banyak parameter jaringan, di satu sisi waktu pelatihan akan lebih lama, dan di sisi lain, akan dengan mudah menyebabkan overfitting model.
Saat ini, kami berpikir, dapatkah kami menemukan struktur jaringan ringan yang tidak hanya dapat memastikan bahwa bidang reseptif cukup besar, tetapi juga mengurangi fenomena overfitting?
Oleh karena itu, kami menemukan metode konvolusi seperti Dilated Convolution.
4.3 Koreksi dan pemulihan dokumen yang terdistorsi berdasarkan DilatedU-net
Konvolusi melebar mengacu pada penyuntikan lubang di antara kernel konvolusi. Dibandingkan dengan konvolusi standar, ada hiperparameter tambahan yang disebut laju dilatasi. Saat laju dilatasi = 1, ini adalah operasi konvolusi standar; Saat laju dilatasi = 2, artinya ada lubang yang diinjeksi antara setiap elemen dari kernel konvolusi. Diagram skematiknya adalah sebagai berikut:
Gambar a sesuai dengan konv dilatasi 3x3 1, yang sama dengan operasi konvolusi normal.
Gambar b sesuai dengan 3x3 2-dilated conv Ukuran kernel konvolusi sebenarnya masih 3x3, dan lubangnya 1. Dapat dilihat bahwa meskipun ukuran kernel hanya 3x3, bidang reseptif dari konvolusi ini telah meningkat menjadi 7x7.
Jelaskan mengapa bidang reseptif adalah 7x7.Jika lapisan sebelumnya dari konv berdilatasi 2 adalah konv berdilatasi 1, maka setiap titik merah adalah keluaran konvolusi dari dilatasi 1, sehingga bidang reseptif adalah 3x3, sehingga mengikuti bidang reseptif dari lapisan conv 2-dilatasi dapat mencapai 7x7.
Dapat juga dipahami bahwa ukuran kernel adalah 7x7, tetapi hanya bobot 9 poin pada gambar bukan 0, dan sisanya adalah 0.
Gambar c adalah operasi konv yang didilatasi 4. Demikian pula, mengikuti dua konv yang ditelepon 1 dan konv yang didial 2, ini dapat mencapai bidang reseptif 15x15.
Dibandingkan dengan operasi konv tradisional, konvolusi 3 lapisan 3x3 ditambahkan Jika langkahnya 1, ia hanya dapat mencapai bidang reseptif (kernel - 1) * lapisan + 1 = 7, yaitu bidang reseptif dan jumlah lapisan terkait secara linear Bidang reseptif dari konvolusi yang melebar juga tumbuh secara eksponensial, seperti yang ditunjukkan pada gambar di bawah ini, yang menunjukkan perbandingan bidang reseptif ketika menumpuk 6 lapisan konvolusi biasa dan konvolusi lubang:
Manfaat konv melebar dapat diringkas sebagai:
Dalam kasus tidak melakukan pooling loss information, bidang reseptif ditingkatkan.
Ada hubungan eksponensial antara bidang reseptif dan ukuran kernel konvolusi.
Konvolusi lubang tidak menambah jumlah parameter, tidak mudah overfit dan mempercepat latihan.
Dimensi gambar tidak berubah sebelum dan sesudah dilatasi konvolusi.
Berdasarkan arsitektur jaringan Dilated Convolution dan U-net, kami merancang Dilated U-net dengan struktur sebagai berikut:
Di antara mereka, kami merancang struktur U-net konvolusi atrous multi-skala paralel dan struktur U-net konvolusi atrous multi-skala serial berdasarkan konvolusi atrous, dan struktur serial bekerja lebih baik karena superposisi serial, yang mirip dengan kaskade amplifier untuk meningkatkan bidang reseptif, sehingga setiap piksel dapat melihat informasi lebih banyak piksel di sekitarnya, sehingga memperoleh hasil yang lebih akurat.
Membandingkan model lain dengan model Dilated U-net, kita bisa mendapatkan hasil yang ditunjukkan pada gambar di bawah ini:
Dapat ditemukan bahwa di bawah koreksi model U-net Dilatasi, gambar dokumen yang diperbaiki pada dasarnya hanya sedikit terdistorsi dan berubah bentuk.
5. Model Evaluasi
5.1 Perbandingan parameter model dasar
Untuk meringkas setiap model, lihat dulu perbandingan parameter dan ukuran model masing-masing model:
Lihatlah kurva kerugian masing-masing model pada set pelatihan dan set validasi:
Diantaranya, garis padat mewakili efek pada set pelatihan, dan garis putus-putus mewakili efek pada set verifikasi. Dapat ditemukan apakah itu U-net atau StackedU-net, kerugiannya pada set pelatihan dan set verifikasi relatif besar Perbedaan besar berarti model permukaan memiliki overfitting, sedangkan situasi overfitting U-net Dilatasi akan jauh lebih baik.
Oleh karena itu, kita dapat menemukan bahwa Dilated U-net tidak hanya memiliki parameter yang lebih sedikit, tetapi juga memiliki kecepatan latihan yang lebih cepat dan akurasi yang lebih tinggi, yang benar-benar sesuai dengan ungkapan terkenal "less is more".
5.2 Evaluasi model
Pada evaluasi model akhir, kami menggunakan indeks MS-SSIM untuk mengevaluasi kemiripan citra sebelum dan sesudah koreksi. Nama lengkap MS-SSIM adalah Multi-Scale Structural Similarity. Seperti namanya, MS-SSIM merupakan rangkuman dari SSIM (Structural kesamaan) pada berbagai skala.
Untuk menghitung MS-SSIM, Anda harus terlebih dahulu menghitung SSIM. SSIM adalah indeks untuk mengukur kemiripan dua gambar. Ide perhitungannya adalah dengan mempertimbangkan persepsi subjektif manusia:
Di area yang sangat terang, distorsi lebih tidak terlihat. (pencahayaan, kecerahan)
Di area di mana "tekstur" lebih kompleks, distorsi lebih sulit dideteksi. (kontras, perbandingan)
Suatu "struktur" tertentu terbentuk di antara piksel yang berdekatan secara spasial, dan mata manusia peka terhadap informasi struktural ini. (struktur, struktur)
Secara khusus, SSIM mengukur tiga hal di atas melalui rumus berikut:
SSIM memperhitungkan faktor kecerahan, kontras, dan struktur, namun ada faktor subyektif lain yang tidak dipertimbangkan, yaitu resolusi. Jelas, kepekaan mata manusia terhadap perbedaan gambar berbeda pada resolusi yang berbeda. Misalnya, artefak yang terlihat pada layar Retina beresolusi tinggi mungkin tidak terlihat pada ponsel beresolusi rendah. Oleh karena itu, selanjutnya diusulkan indeks MS-SSIM, yaitu SSIM Multi-Skala. Gambar diambil sampelnya, perbandingan dan perbandingan struktur dihitung pada berbagai skala, dan akhirnya skor SSIM pada berbagai skala dirangkum Proses perhitungan ditunjukkan dalam diagram skematik berikut:
Selain set pelatihan dan set verifikasi, 100 gambar terdistorsi dan diubah dihasilkan secara acak sebagai set tes, untuk mengevaluasi efek koreksi dari masing-masing model menggunakan indeks MS-SSIM Terakhir, skor MS-SSIM dari masing-masing model modelnya adalah sebagai berikut:
Mungkin tidak terlalu intuitif untuk melihatnya seperti ini, mari tunjukkan hasilnya dengan histogram:
Dari grafik di atas, kita dapat menarik kesimpulan sebagai berikut:
Efek Dilated U-net lebih baik daripada Stacked U-net dan U-net.
Fungsi kerugian bentuk L1 lebih baik daripada fungsi kerugian bentuk L2.
Operasi pemulusan dapat memainkan tingkat pengoptimalan tertentu untuk setiap model.
6. Outlook Tindak Lanjut
Berdasarkan model U-net di bidang segmentasi semantik citra, masalah koreksi citra dokumen yang terdistorsi ditransformasikan menjadi masalah regresi tingkat piksel, dan distorsi dokumen serta garis yang salah muncul di dalam makalah ini. hasil model dan penyelesaian hasil prediksi Insufisiensi dan masalah lainnya, mengacu pada literatur frontier, mengimplementasikan Stacked U-net dan mengusulkan model algoritme pengoptimalan yang sesuai DilatedU-net, meskipun dapat mencapai hasil yang baik dalam skenario sederhana, tetapi ada masih terdapat kekurangan-kekurangan tertentu, yang dapat diuraikan sebagai berikut:
Kumpulan data: Untuk mengatasi masalah pelabelan, kumpulan data saat ini dibangun sendiri dengan mengacu pada pengetahuan grafik yang relevan, sehingga pengetahuan terbatas yang dapat dipelajari oleh jaringan saraf. jaringan saraf akan terpengaruh.batas. Oleh karena itu, dalam penelitian lanjutan, di satu sisi, kumpulan data dalam pemandangan alam dapat ditingkatkan; di sisi lain, pengetahuan yang relevan tentang jaringan permusuhan generatif dapat diperkenalkan untuk membuat model lebih dapat digeneralisasikan.
Struktur jaringan saraf: Dibandingkan dengan Stacked U-net, struktur jaringan saraf Dilated U-net saat ini lebih ringan dan memiliki kecepatan pelatihan yang lebih cepat, tetapi pada akhirnya, jika model jaringan akan digunakan di terminal seluler, kecepatan responsnya masih perlu dioptimalkan.
Selain itu, model jaringan terkait DeepLab dan metode pasca-pemrosesan berbasis CRF dapat dicoba untuk meningkatkan akurasi prediksi.
Dengan pesatnya perkembangan bisnis grup dan peningkatan persyaratan kredit grup untuk grup pengguna, peninjauan sertifikat telah menjadi bagian tak terpisahkan dari bisnis. Misalnya: Alipay perlu meninjau informasi kartu ID pengguna, dan 1688 perlu meninjau izin usaha penjual. Selain itu, ada bisnis yang melibatkan letter of credit dan polis asuransi yang membutuhkan profesional yang cukup kompeten untuk meninjaunya.
Dalam beberapa tahun terakhir, kecerdasan buatan telah mengungguli manusia dalam semakin banyak tugas. Jika AI dapat diperkenalkan ke tempat audit untuk mewujudkan audit yang cerdas, efisiensi audit akan sangat meningkat. Dibandingkan dengan tinjauan manual, tinjauan cerdas memiliki keuntungan sebagai berikut:
Namun, cukup sulit untuk mencapai audit cerdas tingkat tinggi, dan hal-hal berikut perlu dilakukan:
Untuk memungkinkan mesin menggantikan orang dalam tinjauan dokumen dan bahkan tinjauan teks, pertama-tama mesin perlu melihat apa yang dapat dilihat manusia (OCR: mengonversi gambar teks menjadi teks), dan kemudian memahami apa yang dapat dilihat manusia (NLP: Seperti kesalahan koreksi segmentasi kata/klasifikasi teks, dll). Sebagai sumber dari semua algoritme selanjutnya, algoritme OCR memainkan peran penting dalam audit cerdas. Selain algoritma itu sendiri, kualitas gambar adalah faktor terbesar yang mempengaruhi akurasi pengenalan OCR. Umumnya, kualitas gambar diukur dari tiga aspek: kemiringan, ketajaman, dan distorsi. Tujuan dari artikel ini adalah bagaimana menghaluskan gambar dokumen yang terdistorsi melalui suatu algoritma, sehingga meningkatkan akurasi pengenalan OCR dari gambar dokumen yang terdistorsi, dan mengawal audit cerdas.
2. Pekerjaan terkait
2.1 Metode tradisional
Algoritme koreksi saat ini untuk gambar dokumen yang terdistorsi sebagian besar termasuk dalam tiga kategori berikut:
Koreksi Dokumen Terdistorsi Berbasis Perangkat Keras
Jenis metode ini biasanya menggunakan perangkat keras khusus untuk memindai informasi bentuk tiga dimensi dari kertas. Misalnya, sumber cahaya terstruktur digunakan untuk memindai dokumen untuk mendapatkan informasi tiga dimensi dari dokumen tersebut, yaitu informasi kedalaman, dan kemudian gambar dokumen dikoreksi sesuai dengan informasi kedalaman.
Algoritma Koreksi Dokumen Berdasarkan Rekonstruksi Model 3D
Jenis metode ini terutama dimulai dari faktor-faktor penyebab distorsi dokumen, termasuk dokumen dan sudut penempatannya, arah sumber cahaya, karakteristik perangkat akuisisi gambar, dan faktor lainnya. Dengan memodelkan dokumen dalam 3D dan menggunakan pengetahuan matematika yang ada untuk mengoreksi distorsi.
Algoritma Koreksi Dokumen Berdasarkan Segmentasi Konten
Jenis algoritme ini mengabaikan simulasi geometris dan pemodelan distorsi 3D, langsung menganalisis gambar dokumen, termasuk sudut kemiringan, garis teks, fitur karakter atau frasa, dll., dan kemudian merancang algoritme koreksi distorsi yang tidak terpengaruh oleh faktor selain gambar dokumen. Keuntungan dari jenis algoritma ini adalah penyebab distorsi tidak perlu diketahui secara jelas.
Ketiga jenis algoritma tersebut memiliki kelebihannya masing-masing, namun juga memiliki keterbatasannya masing-masing, yang dapat diringkas sebagai berikut:
Dapat dilihat bahwa metode tradisional sebagian besar memodelkan adegan tertentu, dan setelah adegan saat ini dilompati, model tidak akan berfungsi. Dengan munculnya pembelajaran mendalam, beberapa sarjana telah mengusulkan untuk menggunakan algoritme terkait pembelajaran mendalam untuk memperbaiki gambar dokumen yang terdistorsi.
2.2 Metode Deep Learning
Dengan munculnya pembelajaran mendalam dalam beberapa tahun terakhir, beberapa sarjana telah mengusulkan untuk menggunakan model yang terkait dengan segmentasi semantik untuk memodelkan gambar dokumen yang terdistorsi, mengubah masalah klasifikasi tingkat piksel menjadi masalah regresi tingkat piksel, dan mewujudkan koreksi gambar dokumen yang terdistorsi. model memiliki Kemampuan generalisasi tertentu dapat digunakan untuk mengoreksi gambar yang terdistorsi atau terlipat dalam pemandangan yang rumit.
Dalam CVPR 2018 yang baru saja selesai, Kema et al., mengusulkan model U-net berdasarkan segmentasi semantik [1], yang menggunakan metode grafik untuk menghasilkan gambar dokumen terdistorsi yang mendekati pemandangan nyata. - jaringan bersih.
Keuntungan dari pembelajaran mendalam adalah bahwa jika ada kumpulan sampel pelatihan yang cukup kaya dan berkualitas tinggi, struktur jaringannya yang dalam memungkinkannya memiliki kemampuan generalisasi tertentu, dan dapat memperbaiki berbagai distorsi, melompat keluar dari keterbatasan metode tradisional.
Mempertimbangkan kompleksitas bisnis yang sebenarnya, metode tradisional tidak kompeten, jadi makalah ini menggabungkan pengetahuan yang relevan di bidang segmentasi semantik pembelajaran mendalam, dan mengusulkan skema pengoptimalan untuk kekurangan metode yang ada untuk mewujudkan koreksi dokumen yang terdistorsi.
3. Pembuatan dataset
Siapa pun yang memiliki pemahaman tertentu tentang pembelajaran mesin atau pembelajaran mendalam tahu bahwa dalam banyak kasus, data menentukan seberapa baik kinerja model Anda. Mengenai pemulihan dokumen yang terdistorsi, di satu sisi, hanya ada sedikit kumpulan data sumber terbuka, di sisi lain, tujuan kami adalah membangun struktur jaringan saraf yang dapat mencapai tugas regresi tingkat piksel. Sekarang, hampir tidak ada yang terbuka sumber dan set data yang ditandai. . Oleh karena itu, kami mengacu pada metode di [1] dan menghasilkan dataset sendiri.
3.1 Pembuatan gambar dokumen yang terdistorsi
Distorsi selanjutnya dibagi menjadi pelipatan dan pengeritingan Menggunakan pengetahuan grafis, kami menyadari pelipatan dan pengeritingan dokumen melalui langkah-langkah berikut:
Diantaranya, perbedaan curling dan fold adalah perbedaan rumus perhitungannya:
Dengan menyesuaikan ukuran hyperparameter, derajat distorsi yang berbeda dapat dicapai, seperti yang ditunjukkan pada gambar berikut:
3.2 Pemecahan masalah dalam proses pembuatan dataset
Tentu saja, saat membuat kumpulan data, kami juga menemui banyak masalah, seperti:
Bagaimana cara menghasilkan label untuk set sampel?
Bagaimana cara menangani poin kosong saat membuat gambar?
Pertama-tama, ini adalah pelabelan sampel. Jika kita ingin mencapai regresi kumpulan piksel, setiap piksel harus memiliki label. Bagaimana merancang label sehingga struktur jaringan dapat menyelesaikan tugas dengan lebih baik?
Kami mendesainnya seperti ini:
Pertama, bandingkan gambar yang dilengkungkan dan diubah dengan gambar asli untuk mendapatkan ukuran perpindahan dan arah yang harus dipindahkan oleh setiap piksel pada gambar yang dilipat dan diubah, dan kemudian buat matriks 3 dimensi, satu dimensi digunakan untuk menyimpan gambar yang dilengkungkan dan diubah image Informasi nilai abu-abu, dan dua dimensi lainnya digunakan untuk besaran dan arah perpindahan yang harus dipindahkan dalam arah sumbu x dan sumbu y, sehingga mewujudkan konstruksi sampel dan label.
Selain itu, selama proses transformasi, kami juga menemukan bahwa beberapa gambar yang dihasilkan akan memiliki titik hitam atau garis hitam, seperti yang ditunjukkan pada gambar berikut:
Tiga gambar kecil pada gambar di atas masing-masing mewakili gambar yang diubah dan gambar label dari setiap piksel. Melalui analisis, kami menemukan bahwa alasan mengapa terdapat bintik hitam adalah karena piksel pada koordinat ini kosong, dan alasan mengapa piksel tersebut kosong adalah karena kami sebenarnya memiliki operasi pembulatan dalam proses transformasi, dan semacamnya. Operasi pembulatan dapat meninggalkan kolom di antara dua kolom piksel yang berdekatan, seperti yang ditunjukkan pada diagram skematik berikut:
Kemudian, kami memecahkan masalah ini melalui interpolasi tetangga terdekat.Gambar dengan titik hitam di atas diinterpolasi untuk mendapatkan gambar transformasi berikut:
Tentu saja, titik kosong tersebut juga dapat diperbaiki dengan metode interpolasi atau perbaikan lainnya.
Memecahkan masalah kumpulan data setara dengan memecahkan masalah makanan model. Jadi seperti apa sebenarnya model kita? Jangan panik, kami akan menjelaskannya kepada Anda secara detail di bawah ini.
4. Konstruksi dan optimalisasi model
4.1 Koreksi dan pemulihan dokumen yang terdistorsi berdasarkan U-net
Kami awalnya memilih model U-net, yang paling umum digunakan dalam segmentasi semantik, dan arsitektur jaringannya ditunjukkan pada gambar berikut [2]:
Arsitektur jaringannya berbentuk seperti huruf "U", sehingga disebut U-net. Jenis jaringan saraf ini dapat dipahami sebagai struktur Encoder-Decoder, dimana Encoder adalah jalur kontraksi, terutama terdiri dari lapisan konvolusional dan pooling lapisan. Tujuan utamanya adalah untuk mencapai ekstraksi fitur atau menangkap semantik, dan Decoder adalah jalur ekstensi, yang terutama direalisasikan melalui konvolusi transposisi dan melewatkan koneksi. Tujuan utamanya adalah untuk mencapai upsampling. Karena downsampling dari operasi Pooling, dimensi gambar berkurang. , dan konvolusi transposisi dapat membuat dimensi peta fitur lebih besar, untuk mengembalikan ukuran gambar asli, sehingga mencapai regresi tingkat piksel. Namun, hasil yang diperoleh dengan cara ini sangat kasar, sehingga fitur yang dangkal umumnya dikoneksikan ke peta fitur setelah upsampling melalui sambungan lewati untuk mencapai pemosisian yang tepat.
Namun, efek berdasarkan model U-net tidak sebaik yang kami harapkan:
Alasan utamanya adalah akan ada fenomena seperti distorsi teks dan distorsi interline dan misalignment. Dalam kasus yang parah, gambar robek bahkan dapat terjadi:
Untuk mengoptimalkan model, kita perlu menemukan masalahnya, oleh karena itu kita memvisualisasikan hasil prediksi model dan mendapatkan gambar berikut:
Dapat ditemukan bahwa meskipun label yang diprediksi dan label sebenarnya memiliki kecenderungan umum yang sama, semuanya muncul dalam bentuk cluster dan tidak dapat seakurat label sebenarnya, yaitu resolusinya tidak cukup atau akurasi pemosisiannya rendah. tidak cukup. Oleh karena itu, kami mengoptimalkan model dari tiga perspektif:
Ubah struktur model: dari U-net ke Stacked U-net untuk meningkatkan resolusi
Ubah fungsi kerugian: buat jarak antara piksel asli yang berdekatan dan hasil prediksi tidak terlalu berbeda selama proses optimalisasi model, sehingga dapat memperbaiki distorsi teks
Post-proses hasil prediksi untuk memperbaiki fenomena kebisingan
Berikut ini, setiap langkah optimasi dijelaskan secara rinci.
4.2 Koreksi dan pemulihan dokumen yang terdistorsi berdasarkan StackedU-net
(1) Ubah struktur jaringan: U-net —> Stacked U-net
Struktur jaringan u-net yang ditumpuk ditunjukkan di atas. Kami mengacu pada struktur Tumpukan di kertas. Mempertimbangkan masalah resolusi dan memperbaikinya, dua u-net ditumpuk, dan tujuannya adalah untuk menggunakan U-net pertama terlebih dahulu. Dapatkan hasil prediksi kasar, yang dapat dianggap sebagai apriori, dan kemudian menggabungkan hasil prediksi dan peta distorsi asli, dan kemudian memasukkannya ke dalam U-net kedua untuk direalisasikan, tujuannya adalah untuk menggabungkan abstraksi yang dalam dengan rendah tinggi -fitur resolusi dan fitur resolusi tinggi mentah yang dangkal untuk prediksi berbutir halus.
(2) Peningkatan fungsi kerugian: menambahkan kerugian skala-invarian
Di U-net, kami menggunakan fungsi root mean square error berikut:
Diantaranya, y mewakili vektor dua dimensi. Namun, fungsi kerugian seperti itu dapat dengan mudah menyebabkan distorsi antar karakter. Oleh karena itu, kami meningkatkan hasil saat ini dengan menambahkan kerugian skala-invarian. Kami berharap bahwa perpindahan relatif antara perpindahan relatif setelah pemetaan dan perpindahan relatif kebenaran dasar yang sesuai akan menjadi sekecil mungkin. Mungkin kecil:
Selain itu, kami juga menemukan bahwa ketika menggunakan bentuk kerugian L1 berikut ini, akan mendapatkan hasil yang lebih baik daripada Kerugian L2:
Diantaranya adalah hyperparameter yang mengatur proporsi mean square error dan scale invariant error.
Tunjukkan perbandingan efek antara L2 Loss dan L1 Loss:
Dapat dilihat bahwa L1 Loss dapat mencapai hasil yang lebih baik secara detail, alasannya dapat dipahami sebagai berikut:
L2 Loss lebih rentan terhadap nilai error yang besar karena operasi kuadrat pada fungsinya, dan mengabaikan nilai error yang kecil.Misalnya error mae pada pixel A adalah 2, dan error mae pada pixel B adalah 0.02.Pada saat ini waktu, mereka berbeda 100 kali, dan dalam operasi kuadrat, nilai kesalahan piksel A menjadi 4, dan kesalahan piksel B menjadi 0,0004, selisih 10.000 kali, sehingga L1 Loss dapat lebih baik secara detail.
(3) Pemrosesan pasca yang lancar
Kami menemukan bahwa gambar yang diprediksi oleh U-net sering kali memiliki noise atau bahkan kesalahan dan robekan. Mengapa fenomena ini terjadi? Alasan utamanya adalah bahwa piksel yang berdekatan atau serupa harus memiliki nilai prediksi yang serupa. Namun, jika nilai prediksi dari yang berdekatan piksel sangat berbeda, noise atau bahkan kesalahan gambar dan robekan akan mudah muncul. Oleh karena itu, kami memperbaiki fenomena ini dengan menghaluskan label yang diprediksi, meskipun sederhana dan kasar:
Menganalisis gambar yang dihasilkan oleh Stacked U-net, kami dapat menemukan bahwa setelah pengoptimalan, meskipun ada peningkatan distorsi/noise tertentu, gambar dokumen masih memiliki distorsi tertentu:
Jadi di mana kita gagal melakukan pekerjaan dengan baik sehingga menyebabkan fenomena ini? Kami telah meningkatkan akurasi pemosisian U-net, distorsi teks, ketidakselarasan antarbaris, dan derau dari berbagai sudut. Namun, meskipun struktur jaringan StackedU-net dapat mencapai hasil yang baik pada set pelatihan, ia tidak bekerja dengan baik pada set verifikasi. Efeknya masih belum sebaik yang kita harapkan. Artinya, struktur jaringan Stacked U-net telah menghasilkan fenomena overfitting pada set pelatihan. Sekarang kami telah menemukan dua poin yang sangat kontradiktif:
Jaringan terlalu dangkal dan bidang reseptif terlalu kecil untuk mendapatkan informasi piksel sekitar yang cukup, sehingga hasil yang akurat tidak dapat diperoleh.
Jika jaringan terlalu dalam, meskipun bidang reseptif akan meningkat, karena terlalu banyak parameter jaringan, di satu sisi waktu pelatihan akan lebih lama, dan di sisi lain, akan dengan mudah menyebabkan overfitting model.
Saat ini, kami berpikir, dapatkah kami menemukan struktur jaringan ringan yang tidak hanya dapat memastikan bahwa bidang reseptif cukup besar, tetapi juga mengurangi fenomena overfitting?
Oleh karena itu, kami menemukan metode konvolusi seperti Dilated Convolution.
4.3 Koreksi dan pemulihan dokumen yang terdistorsi berdasarkan DilatedU-net
Konvolusi melebar mengacu pada penyuntikan lubang di antara kernel konvolusi. Dibandingkan dengan konvolusi standar, ada hiperparameter tambahan yang disebut laju dilatasi. Saat laju dilatasi = 1, ini adalah operasi konvolusi standar; Saat laju dilatasi = 2, artinya ada lubang yang diinjeksi antara setiap elemen dari kernel konvolusi. Diagram skematiknya adalah sebagai berikut:
Gambar a sesuai dengan konv dilatasi 3x3 1, yang sama dengan operasi konvolusi normal.
Gambar b sesuai dengan 3x3 2-dilated conv Ukuran kernel konvolusi sebenarnya masih 3x3, dan lubangnya 1. Dapat dilihat bahwa meskipun ukuran kernel hanya 3x3, bidang reseptif dari konvolusi ini telah meningkat menjadi 7x7.
Jelaskan mengapa bidang reseptif adalah 7x7.Jika lapisan sebelumnya dari konv berdilatasi 2 adalah konv berdilatasi 1, maka setiap titik merah adalah keluaran konvolusi dari dilatasi 1, sehingga bidang reseptif adalah 3x3, sehingga mengikuti bidang reseptif dari lapisan conv 2-dilatasi dapat mencapai 7x7.
Dapat juga dipahami bahwa ukuran kernel adalah 7x7, tetapi hanya bobot 9 poin pada gambar bukan 0, dan sisanya adalah 0.
Gambar c adalah operasi konv yang didilatasi 4. Demikian pula, mengikuti dua konv yang ditelepon 1 dan konv yang didial 2, ini dapat mencapai bidang reseptif 15x15.
Dibandingkan dengan operasi konv tradisional, konvolusi 3 lapisan 3x3 ditambahkan Jika langkahnya 1, ia hanya dapat mencapai bidang reseptif (kernel - 1) * lapisan + 1 = 7, yaitu bidang reseptif dan jumlah lapisan terkait secara linear Bidang reseptif dari konvolusi yang melebar juga tumbuh secara eksponensial, seperti yang ditunjukkan pada gambar di bawah ini, yang menunjukkan perbandingan bidang reseptif ketika menumpuk 6 lapisan konvolusi biasa dan konvolusi lubang:
Manfaat konv melebar dapat diringkas sebagai:
Dalam kasus tidak melakukan pooling loss information, bidang reseptif ditingkatkan.
Ada hubungan eksponensial antara bidang reseptif dan ukuran kernel konvolusi.
Konvolusi lubang tidak menambah jumlah parameter, tidak mudah overfit dan mempercepat latihan.
Dimensi gambar tidak berubah sebelum dan sesudah dilatasi konvolusi.
Berdasarkan arsitektur jaringan Dilated Convolution dan U-net, kami merancang Dilated U-net dengan struktur sebagai berikut:
Di antara mereka, kami merancang struktur U-net konvolusi atrous multi-skala paralel dan struktur U-net konvolusi atrous multi-skala serial berdasarkan konvolusi atrous, dan struktur serial bekerja lebih baik karena superposisi serial, yang mirip dengan kaskade amplifier untuk meningkatkan bidang reseptif, sehingga setiap piksel dapat melihat informasi lebih banyak piksel di sekitarnya, sehingga memperoleh hasil yang lebih akurat.
Membandingkan model lain dengan model Dilated U-net, kita bisa mendapatkan hasil yang ditunjukkan pada gambar di bawah ini:
Dapat ditemukan bahwa di bawah koreksi model U-net Dilatasi, gambar dokumen yang diperbaiki pada dasarnya hanya sedikit terdistorsi dan berubah bentuk.
5. Model Evaluasi
5.1 Perbandingan parameter model dasar
Untuk meringkas setiap model, lihat dulu perbandingan parameter dan ukuran model masing-masing model:
Lihatlah kurva kerugian masing-masing model pada set pelatihan dan set validasi:
Diantaranya, garis padat mewakili efek pada set pelatihan, dan garis putus-putus mewakili efek pada set verifikasi. Dapat ditemukan apakah itu U-net atau StackedU-net, kerugiannya pada set pelatihan dan set verifikasi relatif besar Perbedaan besar berarti model permukaan memiliki overfitting, sedangkan situasi overfitting U-net Dilatasi akan jauh lebih baik.
Oleh karena itu, kita dapat menemukan bahwa Dilated U-net tidak hanya memiliki parameter yang lebih sedikit, tetapi juga memiliki kecepatan latihan yang lebih cepat dan akurasi yang lebih tinggi, yang benar-benar sesuai dengan ungkapan terkenal "less is more".
5.2 Evaluasi model
Pada evaluasi model akhir, kami menggunakan indeks MS-SSIM untuk mengevaluasi kemiripan citra sebelum dan sesudah koreksi. Nama lengkap MS-SSIM adalah Multi-Scale Structural Similarity. Seperti namanya, MS-SSIM merupakan rangkuman dari SSIM (Structural kesamaan) pada berbagai skala.
Untuk menghitung MS-SSIM, Anda harus terlebih dahulu menghitung SSIM. SSIM adalah indeks untuk mengukur kemiripan dua gambar. Ide perhitungannya adalah dengan mempertimbangkan persepsi subjektif manusia:
Di area yang sangat terang, distorsi lebih tidak terlihat. (pencahayaan, kecerahan)
Di area di mana "tekstur" lebih kompleks, distorsi lebih sulit dideteksi. (kontras, perbandingan)
Suatu "struktur" tertentu terbentuk di antara piksel yang berdekatan secara spasial, dan mata manusia peka terhadap informasi struktural ini. (struktur, struktur)
Secara khusus, SSIM mengukur tiga hal di atas melalui rumus berikut:
SSIM memperhitungkan faktor kecerahan, kontras, dan struktur, namun ada faktor subyektif lain yang tidak dipertimbangkan, yaitu resolusi. Jelas, kepekaan mata manusia terhadap perbedaan gambar berbeda pada resolusi yang berbeda. Misalnya, artefak yang terlihat pada layar Retina beresolusi tinggi mungkin tidak terlihat pada ponsel beresolusi rendah. Oleh karena itu, selanjutnya diusulkan indeks MS-SSIM, yaitu SSIM Multi-Skala. Gambar diambil sampelnya, perbandingan dan perbandingan struktur dihitung pada berbagai skala, dan akhirnya skor SSIM pada berbagai skala dirangkum Proses perhitungan ditunjukkan dalam diagram skematik berikut:
Selain set pelatihan dan set verifikasi, 100 gambar terdistorsi dan diubah dihasilkan secara acak sebagai set tes, untuk mengevaluasi efek koreksi dari masing-masing model menggunakan indeks MS-SSIM Terakhir, skor MS-SSIM dari masing-masing model modelnya adalah sebagai berikut:
Mungkin tidak terlalu intuitif untuk melihatnya seperti ini, mari tunjukkan hasilnya dengan histogram:
Dari grafik di atas, kita dapat menarik kesimpulan sebagai berikut:
Efek Dilated U-net lebih baik daripada Stacked U-net dan U-net.
Fungsi kerugian bentuk L1 lebih baik daripada fungsi kerugian bentuk L2.
Operasi pemulusan dapat memainkan tingkat pengoptimalan tertentu untuk setiap model.
6. Outlook Tindak Lanjut
Berdasarkan model U-net di bidang segmentasi semantik citra, masalah koreksi citra dokumen yang terdistorsi ditransformasikan menjadi masalah regresi tingkat piksel, dan distorsi dokumen serta garis yang salah muncul di dalam makalah ini. hasil model dan penyelesaian hasil prediksi Insufisiensi dan masalah lainnya, mengacu pada literatur frontier, mengimplementasikan Stacked U-net dan mengusulkan model algoritme pengoptimalan yang sesuai DilatedU-net, meskipun dapat mencapai hasil yang baik dalam skenario sederhana, tetapi ada masih terdapat kekurangan-kekurangan tertentu, yang dapat diuraikan sebagai berikut:
Kumpulan data: Untuk mengatasi masalah pelabelan, kumpulan data saat ini dibangun sendiri dengan mengacu pada pengetahuan grafik yang relevan, sehingga pengetahuan terbatas yang dapat dipelajari oleh jaringan saraf. jaringan saraf akan terpengaruh.batas. Oleh karena itu, dalam penelitian lanjutan, di satu sisi, kumpulan data dalam pemandangan alam dapat ditingkatkan; di sisi lain, pengetahuan yang relevan tentang jaringan permusuhan generatif dapat diperkenalkan untuk membuat model lebih dapat digeneralisasikan.
Struktur jaringan saraf: Dibandingkan dengan Stacked U-net, struktur jaringan saraf Dilated U-net saat ini lebih ringan dan memiliki kecepatan pelatihan yang lebih cepat, tetapi pada akhirnya, jika model jaringan akan digunakan di terminal seluler, kecepatan responsnya masih perlu dioptimalkan.
Selain itu, model jaringan terkait DeepLab dan metode pasca-pemrosesan berbasis CRF dapat dicoba untuk meningkatkan akurasi prediksi.
Related Articles
-
A detailed explanation of Hadoop core architecture HDFS
Knowledge Base Team
-
What Does IOT Mean
Knowledge Base Team
-
6 Optional Technologies for Data Storage
Knowledge Base Team
-
What Is Blockchain Technology
Knowledge Base Team
Explore More Special Offers
-
Short Message Service(SMS) & Mail Service
50,000 email package starts as low as USD 1.99, 120 short messages start at only USD 1.00