Ruang Widianto

Blog pribadi Aldi E. W. Widianto

Review Singkat Single Image Super Resolution (SISR) Berbasis CNN

1. Pendahuluan

Super resolusi gambar (image super resolution, SR) adalah metode menghasilkan gambar beresolusi tinggi (high resolution, HR) dari gambar beresolusi rendah (low resolution, LR). SR menjadi sangat penting dilakukan dikarenakan kebutuhan akan gambar beresolusi tinggi terus meningkat. Di sisi lain, hardware untuk menghasilkan gambar beresolusi tinggi masih banyak keterbatasan [1]. Selain itu, harganya masih kurang terjangkau.

Dalam mengonstruksi gambar HR, SR dapat menggunakan satu gambar LR (single image super resolution, SISR) atau beberapa gambar LR dengan scene yang sama (multi-image super resolution, MISR). Dari keduanya, para peneliti cenderung lebih tertarik pada SISR karena dipandang lebih praktis serta dapat digunakan untuk meningkatkan gambar LR yang sudah ada. Dari segi teknik yang digunakan, SISR terbagi menjadi tiga yaitu SISR berbasis interpolasi (lihat [2]-[4]), SISR berbasis rekonstruksi (lihat [5]-[6]), dan SISR berbasis contoh (lihat [7]-[9]). SISR berbasis interpolasi hanya melibatkan up sampling gambar LR, tidak menghasilkan informasi tambahan, serta dapat menimbulkan blur dan/atau visual artifact. SISR berbasis rekonstruksi mengasumsikan bahwa suatu citra LR berasal dari beberapa komponen degradasi misalnya blurring, warping, dan down sampling. Beberapa komponen tersebut digunakan sebagai constraint dalam inverse reconstruction. SISR berbasis contoh berupaya merekonstruksi pengetahuan sebelumnya dari sejumlah besar pasangan tambalan LR-HR internal atau eksternal. Hubungan antara LR dan HR diterapkan pada gambar LR yang tidak teramati untuk memulihkan versi HR yang paling mungkin.

Seiring kesuksesan metode deep learning pada pengolahan citra, misalnya image denoising [10], image segmentation [11]-[12], dan edge detection [13], para peneliti coba merambah pada bidang super resolusi. Dong dkk. [14] dengan Super Resolution Convolutional Neural Network SRCNN-nya adalah yang pertama menyelesaikan permasalahan SISR menggunakan deep learning. SRCNN memakai aristektur convolutional neural network (CNN) bertipe linear dengan tiga layer. Layer pertama melakukan ekstraksi feature pada citra input dan merepresentasikan setiap tambalan sebagai vektor feature berdimensi tinggi. Layer kedua memetakan feature antara tambalan LR dan HR. Layer ketiga melakukan rekonstruksi hingga menghasilkan citra HR. Menariknya, SRCNN mampu melampui metode-metode SISR yang telah disebutkan. Kesuksesan ini memotivasi peneliti lain untuk menyelesaikan permasalahan SISR menggunakan deep learning, khususnya yang berbasis CNN. Berbagai metode dengan tipe koneksi berbeda telah diusulkan, misalnya koneksi linear seperti Fast SR Convolutional Neural Network (FSRCNN) [15], koneksi residual seperti SelNet [16] dan SRResNet [17], koneksi rekursif seperti Deep Recursive Residual Network (DRRN) [18] dan Hierarchical Dense Recursive Network (HDRN) [19], dan koneksi berbasis atensi seperti very deep Residual Channel Attention Network (RCAN) [20]. Choi dan Kim [21] melakukan pendekatan yang berbeda. Mereka tidak berfokus pada koneksi melainkan pada fungsi aktivasi yang digunakan. Fungsi aktivasi maxout unit (MU) digunakan sebagai pengganti ReLU. Hasilnya, metode yang diusulkan mampu mengurangi banyak filter yang digunakan dengan tetap mempertahankan kualitas gambar output HR.

Artikel ini bertujuan untuk melakukan analisis komparatif terhadap metode-metode SISR berbasis CNN yang telah disebutkan, serta memberikan potensi kelanjutan riset terkait SISR berbasis CNN. Bab 2 membahas definisi permasalahan SISR dan metrik yang sering digunakan. Analisis komparatif terhadap metode-metode SISR berbasis CNN disajikan pada Bab 3. Bab 4 menyimpulkan pembahasan serta memaparkan potensi kelanjutan riset.


2. Latar Belakang

2.1. Definisi Permasalahan


Gambar 1. Ilustrasi SISR.

SISR merupakan permasalahan inverse ill-posed klasik. Sebuah citra LR $l$ diasumsikan terdegradasi dari suatu citra HR $h$, yang direpresentasikan sebagai \begin{equation} \tag{1} \label{eq:1} l = D(h, \theta_D) \end{equation} dimana $D(\cdot)$ adalah adalah fungsi degradasi yang didefinisikan oleh parameter $\theta_D$. SISR bertujuan memulihkan estimasi yang baik dari citra HR potensial melalui inverse dari proses degradasi pada Persamaan \eqref{eq:1}, yang dapat dirumuskan sebagai \begin{equation} \label{eq:2} \hat{h} = R(l, \theta_l), \end{equation} dimana $\hat{h}$ adalah penyelesaian super resolusi dari $l$ yaitu estimasi citra HR untuk $h$, $R(\cdot)$ adalah fungsi super resolusi, dan $\theta_R$ adalah parameter yang sesuai.


2.2. Metrik Evaluasi Performa SSIR

Pada evaluasi performa SSIR dibagi menjadi dua jenis yaitu evaluasi subjektif dan objektif. Evaluasi subjektif secara kualitatif yang didasarkan pada persepsi manusia. Evaluasi jenis ini lebih sesuai dengan kebutuhan praktis. Namun, kelemahannya adalah tidak dapat diautomatisasi. Di sisi lain, evaluasi objektif dilakukan secara kuantitatif melalui beberapa metrik, antara lain peak signal-to-noise ratio (PSNR), mean squared error (RMSE), dan structure similarity index measure (SSIM). Persamaan masing-masing diberikan pada Persamaan \eqref{eq:psnr}, Persamaan \eqref{eq:mse}, dan Persamaan \eqref{eq:ssim} berikut \begin{equation}\tag{2}\label{eq:psnr} \mathrm{PSNR} = 10 \log \dfrac{255^2 MN} {\sum_{i=1}^{M} \sum_{j=1}^{N} \left[ l(i,j) - \hat{h}(i,j) \right]^2} \end{equation} \begin{equation}\tag{3}\label{eq:mse} \mathrm{MSE} = \frac{1}{\sqrt{MN}} \displaystyle\sum_{i=1}^{M} \displaystyle\sum_{j=1}^{N} \left[ l(i,j) - \hat{h}(i,j) \right] \end{equation} \begin{equation}\tag{4}\label{eq:ssim} \mathrm{SSIM} = \frac{ (2 \mu_{\hat{h}} \mu_l + c_1) (2 \sigma_{\hat{h}} \sigma_l + c_2) } { (\mu_h^2 + \mu_l^2 + c_1) (\sigma_{\hat{h}}^2 + \sigma_l^2 + c_2) }, \begin{cases} c_1 = (k_1 L)^2, \\ c_2 = (k_2 L)^2, \end{cases} \end{equation} dimana $\mu_\hat{h}$ dan $\mu_l$ adalah mean dan $\sigma_\hat{h}$ dan $\sigma_l$ adalah standar deviasi masing-masing dari citra $\hat{h}$ dan $l$.$M$ dan $N$ adalah ukuran baris dan kolom. $c_1$ dan $c_2$ adalah konstanta stabilisasi yang menggambarkan dinamika nilai piksel, dimana $k_1$ dan $k_2$ adalah konstanta yang ditetapkan masing-masing bernilai $0.01$ dan $0.03$.


3. Analisis Komparatif Metode SISR Berbasis CNN

3.1. Review Singkat CNN

CNN merupakan kelas dalam artificial neural network (ANN). Satu jaringan CNN terdiri dari satu input layer, satu output layer, dan layer-layer diantara keduanya yang disebut hidden layer. Hidden layer pada CNN terdiri dari dua jenis layer utama, yaitu convolutional layer dan pooling layer. Convolutional layer menggunakan operasi konvolusi antara matriks input dengan suatu matriks kernel/filter untuk menghasilkan feature map yang berisi fitur penting dari gambar input. Pooling layer menggunakan operasi max, mean, atau yang lain untuk memperkecil dimensi dari feature map. Adanya operasi konvolusi inilah yang menjadikan CNN lebih unggul dibandingkan multi-layer perceptron (MLP) pada pemrosesan citra, sebab CNN dapat menangkap ketergantungan spasial dan temporal dalam gambar melalui pemilihan filter/kernel yang tepat.


3.2. CNN Berkoneksi Linear

CNN dengan koneksi bertipe linear terdiri dari konfigurasi dasar yang mencakup hanya satu jalur aliran sinyal tanpa melewati percabangan. Beberapa convolutional layer ditumpuk di atas satu sama lain dan input berjalan dari layer pertama ke layer berikutnya hingga terakhir secara berurutan. Contoh yang menggunakan tipe koneksi jenis ini adalah SRCNN [14] dan FSRCNN [15]. Arsitektur keduanya ditampilkan pada Gambar 2 [15].


Gambar 2. Arsitektur SRCNN $\left( \text{atas} \right)$ dan FSRCNN $\left( \text{bawah} \right)$.

FSRCNN adalah versi pengembangan dari SRCNN, dimana preprocessing berupa upsampling dengan interpolasi bicubic digantikan oleh sebuah lapisan konvolusi dengan kernel $\left( 5 \times 5 \right)$ yang berguna untuk ekstraksi fitur, menghasilkan $d$ feature map. Pada tahap shrinking, konvolusi $\left( 1 \times 1 \right)$ diterapkan untuk mengurangi banyak feature map dari $d$ ke $s$ dimana $d \ll s$. Pada tahap mapping digunakan sebanyak $m$ konvolusi $\left( 3 \times 3 \right)$. Pada tahap expanding kembali digunakan konvolusi $\left( 1 \times 1 \right)$ untuk meningkatkan banyak feature map dari $s$ ke $d$. Terakhir, pada tahap deconvolution digunakan konvolusi $\left( 9 \times 9 \right)$ untuk mengonstruksi citra HD $\hat{x}$. Arsitektur tersebut dinamakan FSRCNN $\left( d, s, m \right)$. Eksperimen menunjukkan bahwa FRSCNN lebih baik dibandingkan SRCNN (lihat Tabel 1).


3.3. CNN Berkoneksi Residual

Salah satu tantangan dalam CNN adalah bahwa semakin dalam suatu jaringan, maka waktu komputasi akan semakin meningkat. Selain itu, tidak dijamin bahwa semakin banyak layer yang digunakan akan menambah akurasi model. Salah satu cara untuk mengurangi waktu komputasi pada jaringan CNN yang cukup dalam adalah dengan membuat arsitektur residual (lihat ResNet [22]). Arsitektur residual menyediakan jalur lain bagi data untuk mencapai suatu bagian pada jaringan dengan melewati beberapa layer (lihat Gambar 3). Model yang menggunakan tipe koneksi ini adalah SelNet [16] dan SRResNet [17].


Gambar 3. Perbedaan koneksi linear dan residual. Src: disini.

Choi dan Kim [16] menggunakan jaringan residual pada model SISR-nya. Mereka juga melakukan reinterpretasi fungsi ReLU sebagai perkalian titik-demi-titik (pointwise) antara identity mapping dan suatu switch. Reinterpretasi ini menghasilkan selection unit (SU) sebagai unit nonlinear menggantikan ReLU konvensional. Sementara ReLU konvensional tidak memiliki kontrol langsung melalui mana data dilewatkan, SU mengoptimalkan kontrol switching on-off ini. Hasilnya, SU mampu menangani fungsionalitas nonlinier lebih baik daripada ReLU dengan cara yang lebih fleksibel. Choi dan Kim [16] mengusulkan model CNN residual dengan unit nonlinear SU yang diberi nama SelNet. Satu entitas SU terdiri dari layer konvolusi dengan kernel berukuran $1 \times 1$, unit nonlinear ReLU dan sigmoid, serta cascade layer. Keseluruhan SelNet terdiri dari 22 convolution layer, dimana SU ditambahkan tiap setelahnya. Setelah convolutional layer terakhir, ditambahkan satu sub-pixel layer untuk mengubah gambar LR multisaluran menjadi output berukuran HR (lihat Gambar 3). Dengan demikian, jaringan SelNet menjadi lebih cepat secara kuadratik daripada jaringan konvensional lainnya di mana gambar interpolasi bikubik digunakan sebagai masukan.


Gambar 4. Arsitektur SelNet.

Ledig dkk. [17] juga menggunakan koneksi residual dengan total 16 blok residual dengan tambahan tiga convolutional layer yang dinamakan SRResNet. Lapisan konvolusional pertama berfungsi untuk ekstraksi fitur, lapisan kedua untuk mapping, dan dua lapisan lainnya adalah lapisan sub-piksel untuk rekonstruksi. SRResNet dilatih menggunakan learning rate $10^{-4}$ dan update iterations $10^6$, serta menggunakan loss function MSE. Dari tiga set data yang digunakan untuk pengujian, yaitu Set5, Set14, dan BSD100, SRResNet mampu mengungguli metode pendahulunya [17[ (lihat Tabel 1). Namun demikian, penelitian Ledig dkk. [17] tidak berfokus pada akurasi dan kecepatan komputasi, melainkan tentang pemilihan detail tekstur yang lebih halus saat dilakukan super resolusi menggunakan faktor peningkatan skala besar (lebih dari 4). Oleh karena itu Ledig dkk. [17] juga mengusulkan model SRGAN berbasis generative adversarial network (GAN) yang pembahasannya diluar cakupan artikel ini.


3.4. CNN Berkoneksi Rekursif

Jaringan yang sangat dalam memerlukan parameter yang sangat banyak, yang berakibat pada kebutuhan memori yang juga sangat besar [18]. Selain itu, jaringan yang sangat dalam juga kurang dapat diterapkan pada sistem mobile. Salah satu cara untuk mengendalikan peningkatan jumlah parameter adalah penggunaan blok penghasil fitur dalam kerangka kerja rekursif, di mana sejumlah rekursi yang melibatkan blok semacam itu dilakukan sehingga kemampuan representasional jaringan menjadi cukup tinggi.


Gambar 5. Arsitektur SRResNet. Bagian atas merupakan blok residual.

Tai dkk. [18] mengusulkan model deep recursive residual network (DRRN) yang menggunakan koneksi tipe rekursif sekaligus menggunakan unit residual. DRRN memiliki dua parameter kunci yaitu banyak blok rekursif $B$ dan banyak blok residual $U$. Satu blok rekursif terdiri dari satu atau lebih blok residual. Struktur blok residual adalah sama dengan blok residual SRResNet (lihat Gambar 5 bagian atas), yaitu terdiri dari dua convolutional layer. Satu convolutional layer ditambahkan pada akhir dari tumpukan blok residual untuk menghasilkan output gambar HR. Dengan nilai $B$ dan $U$ yang berbeda, kedalaman ( banyak convolutional layer yang digunakan) DRRN juga berbeda. Kedalaman DRRN dihitung sebagai \begin{equation*} d = (1 + 2 \times U) \times B + 1. \end{equation*} Secara jelas arsitektur DRRN ditampilkan pada Gambar 6.


Gambar 6. Gambar ke-1: Arsitektur DRRN yang terdiri dari 1 blok rekursif dengan tiga 3 residual; gambar ke-2: struktur satu blok rekursif masing-masing terdiri dari 1, 2, dan 3 blok residual; gambar ke-3: arsitektur DRRN yang terdiri dari 6 blok rekursif $\left( 𝐵 = 6 \right)$ dengan 3 blok residual $\left( 𝑈 = 3 \right)$.

DRRN dilatih menggunakan loss function MSE. Data yang dipakai adalah dataset pelatihan dari 291 citra, dimana 91 citra berasal dari Yang dkk. [23] dan 200 gambar lainnya berasal dari Dataset Segmentasi Berkeley [24]. Gambar input untuk DRRN adalah gambar hasil upsampling menggunakan interpolasi bicubic. Data uji yang digunakan juga sama dengan set data yang digunakan Ledig dkk. [17] yaitu Set5, Set14, dan BSD100. Ukuran kernel semua lapisan konvolusional adalah $3 \times 3$. Learning rate awal yang digunakan adalah $0.1$, yang akan berkurang setengahnya tiap $10$ epoch. Karena tingkat pembelajaran yang digunakan relatif besar, maka digunakan teknik gradient clipping untuk meningkatkan konvergensi sekaligus mencegah gradient exploding. Secara khusus, gradien dipotong ke $\left[ - \frac{\theta}{\gamma}, \frac{\theta}{\gamma} \right]$, dimana $\gamma$ adalah tingkat pelatihan saat ini dan $\theta$ adalah parameter gradient clipping sebesar $\theta = 0.01$. Melatih DRRN dengan $d=20$ kira-kira membutuhkan waktu 4 hari menggunakan 2 GPU Titan X.

Untuk meningkatkan keefektifan jaringan bertipe rekursif, Jiang dkk. [19] mengusulkan jaringan Hierarchical Dense Recursive Network (HDRN). Perbedaan utama dari HDRN dan DRRN adalah pada tiap blok rekursif HDRN terdiri dari koneksi dense, yang terdiri dari lapisan konvolusi yang dinamakan hierarchical dense block (HDB), sedangkan pada DRRN terdapat lapisan konvolusi. Selain itu, skip connection pada HDRN terletak antar blok rekursif, bukan di dalam. Arsitektur HDRN ditampilkan pada Gambar 7.


Gambar 7. Arsitektur HDRN.

Secara garis besar, jaringan HDRN dibagi menjadi tiga, yaitu ekstraksi fitur awal, pembelajaran residual lokal, serta fusi fitur global dan rekonstruksi. Diberikan citra LR RGB $l$, tujuan dari bagian pertama adalah mentransmisikan citra ke ruang fitur untuk mendapatkan fitur awal $F_1$ hanya melalui satu lapisan konvolusional, yaitu \begin{equation*} F_1 = \mathrm{Conv} (l), \end{equation*} dimana $\mathrm{Conv}$ adalah operasi konvolusi dan $F_1$ adalah feature map. Setelah itu, fitur $F_1$ yang dangkal kemudian ditransmisikan ke HDB yang ditujukan untuk ekstraksi fitur yang dalam. Secara khusus, informasi yang diambil dari HDB saat ini dapat dibagikan oleh HDB berikutnya dengan koneksi lompatan (skip connection) yang substansial. Secara matematis, perhitungan dapat dijelaskan dalam bentuk rekursif berikut: \begin{align*} P_1 &= \mathrm{Conv}_{\mathrm{HDB}, 1} (F_1) \\ P_i &= \mathrm{Conv}_{\mathrm{HDB}, i} (P_{i-1}) + P_{i - 1}, \end{align*} dimana $\mathrm{Conv}_{\mathrm{HDB}, i}$ menyatakan operasi konvolusi pada blok HDB ke-$i$ dan $P_i$ adalah output dari blok HDB ke-$i$. Pada bagian akhir, feature map yang diekstraksi oleh HDB dalam berbagai tahap digabungkan dan diteruskan ke global fusion module (GFM) untuk fusi lebih lanjut. Fitur yang sesuai dengan lokasi spasial yang sama pada level yang berbeda dirakit bersama untuk mempertahankan komponen yang paling relevan dengan citra HR. Prosedur ini dapat dijelaskan sebagai berikut: \begin{equation*} F_{\mathrm{MS}} = \mathrm{Concat}_{\mathrm{GFM}} \left( \left[ P_1, \dots, P_g \right] \right), \end{equation*} dimana $F_\mathrm{MS}$ adalah fitur tergabung oleh GFM dan $\mathrm{Concat}_{\mathrm{GFM}} (\cdot)$ adalah operator konkatenasi, dan $\left[ P_1, \dots, P_g \right]$ adalah fitur-fitur hasil HDB. Terakhir, operasi penataan ulang sub-piksel digunakan untuk mencocokkan titik tertentu untuk mendapatkan informasi struktural pelengkap gambar sisa. Secara formal, hal tersebut dituliskan sebagai berikut: \begin{equation*} \hat{h} = \mathrm{PS} (F_\mathrm{MS}) + h_B, \end{equation*} dimana $h_B$ adalah citra hasil interpolasi bicubic dan $\mathrm{PS} (\cdot)$ adalah operasi penataan ulang.

HDRN dilatih menggunakan tingkat pembelajaran awal sebesar $10^{-3}$ dan berkurang setengahnya setelah setiap 2500 epoch, sampai dengan $10^{-5}$. Banyak blok HDB yang digunakan adalah 6 buah, masing-masing terdiri dari $\left( 3 \times 3 \right)$ lapisan konvolusi. Prose pelatihan memakan waktu sekitar 10 jam menggunakan hanya satu GPU NVIDIA Titan Xp dan CPU Intel I7-8700.


3.5. Maxout Unit (MU)

Choi dan Kim [21] melakukan pendekatan yang berbeda untuk meningkatkan performa jaringan CNN. Mereka mengusulkan unit nonlinear pengganti ReLU yang diberi nama maxout unit (MU). MU menghitung nilai maksimum dari suatu vektor dengan panjang sebarang. Pada jaringan ini, feature map dari lapisan konvolusi ke-$i$, $F_i$, dibagi menjadi dua bagian $F_{i,1}$ dan $F_{i,2}$ kemudian operasi maksimum titik-demi-titik diterapkan: \begin{equation*} A_i = \mathrm{max} (F_{i,1}, F_{i,2}), \end{equation*} dimana $A_1$ adalah output dari fungsi aktivasi untuk $F_i$. Karena keluaran MU hanya 50% dari nilai feature map sebelumnya, maka banyak parameter filter konvolusional di lapisan berikutnya dapat dikurangi setengahnya, sehingga menurunkan waktu komputasi dan konsumsi memori. Hal inilah yang menjadi kekuatan pendekatan Choi dan Kim [21]. Arsitektur model VDSR [25] berkedalaman 20 menggunakan unit nonlinear MU (VDSR-MU) diberikan pada Gambar 8 [21]. Pendekatan MU mampu menurunkan banyak parameter dari 665K menjadi 338K saja. Selain itu, nilai PSNR dan SSIM yang dihasilkan juga mengalami peningkatan (lihat Tabel 1).


Gambar 8. Arsitektur VDSR $\left[ 24 \right]$ dengan unit nonlinear MU.

3.6. Hasil Evaluasi Performansi


Tabel 1. Hasil evaluasi performansi PSNR dan SSIM.
Highlight hijau dan biru masing-masing memperoleh PSNR terbaik pertama dan kedua.
Highlight oranye dan kuning masing-masing memperoleh SSIM terbaik pertama dan kedua.

Keseluruhan model yang telah disebutkan diujikan pada data uji Set5, Set14, dan BSD100, dan B100. Hasil PSNR dan SSIM beserta banyak parameter dan set latih yang digunakan ditampilkan pada Tabel 1. Tanda "-" menyatakan informasi yang belum diketahui.

Pionir metode CNN yaitu SRCNN dan FRSCNN masing-masing terdiri dari 3 dan 5 lapisan konvolusi. Parameter yang digunakan masing-masing sebanyak 57K dan 12K. Terlihat bahwa proses shrinking dengan konvolusi $\left( 1 \times 1 \right)$ sebelum proses mapping dapat memperkecil ukuran feature map dan dapat mengurangi banyaknya parameter yang digunakan. Proses expanding mengembalikan lagi banyak feature map sehingga informasi penting dari data dapat dipertahankan. Hasilnya, FRSCNN mampu mengungguli SRCNN dari segi banyak parameter yang digunakan serta hasil PSNR dan SSIM.

Pengembangan dari jaringan bertipe linear adalah jaringan residual dan rekursif. Berdasarkan Tabel 1, antara kedua tipe jaringan tersebut tidak dapat ditentukan mana yang lebih baik. Masing-masing memiliki karakteristik serta keunggulan. Jaringan residual meminimalisir komputasi dengan mengandalkan skip connection sedangkan jaringan rekursif melakukannya dengan satu parameter dipakai untuk beberapa kali penghitungan (banyaknya parameter berkurang). Skip connection pada blok residual memungkinkan jaringan yang sangat dalam (penulis ResNet [21] melakukan training hingga 100 bahkan 1000 lapisan konvolusi). Di sisi lain, jaringan rekursif memungkinkan parameter yang dapat diminimalisir sekecil mungkin (VDSR [24] dengan tipe residual menghasilkan 665K parameter untuk kedalaman 20, sedangkan DRRN dengan tipe rekursif menghasilkan 297K parameter untuk kedalaman yang sama).

Dengan pendekatan berupa penggantian unit nonlinear, suatu jaringan dapat dioptimalkan, misalnya SelNet [16] dan VDSR-MU [20]. Keduanya pada dasarnya menggunakan arsitektur dasar dari VDSR [24]. Berdasarkan Tabel 1, SelNet dan VDSR-MU berhasil mengungguli VDSR.


4. Kesimpulan

Pada artikel ini telah dilakukan analisis komparatif metode-metode SISR berbasis CNN. Metode-metode tersebut dikelompokkan berdasarkan dua pendekatan, yaitu pendekatan tipe jaringan (linear, residual, dan rekursif) serta unit nonlinear yang digunakan (selection unit (SU) dan maxout unit (MU)). Hasilnya, diperoleh bahwa tipe jaringan residual dan rekursif mengungguli tipe jaringan linear dibuktikan dengan nilai PSNR dan SSIM. Jaringan residual dan rekursif memiliki karakteristik masing-masing, dimana tipe residual berpotensi untuk menciptakan jaringan yang sangat dalam, sedangkan tipe rekursif mampu mengurangi parameter yang digunakan secara signifikan. Pendekatan modifikasi unit nonlinear juga terbukti mampu meningkatkan performa model. Berdasarkan keseluruhan analisis, telah berhasil diidentifikasi potensi riset SISR berbasis CNN, yaitu menerapkan pendekatan selection unit (SU) pada jaringan rekursif HDRN sekaligus menerapkan skip connection di dalam blok HDB. Selain itu, pendekatan maxout unit (MU) juga dapat diterapkan karena powerful dalam mengurangi banyak parameter.

Baca juga:

0 Comments



Emoticon