橙色の日々を。

わたくし橙乃が気になったことをクリップするブログ。

【Deep Learning】SRCNNの論文をツールに通して雑に訳す【実験①:訓練データについて】

あっという間に後半戦。

 

一個前が長すぎたんや。。。

 

SRCNN・訳・超解像のためのCNN編

 

 

こんにちは、橙乃巻です。

 

今回から切ります!

小章ごとに更新してきましょう。

 

「翻訳」内容に関しては一切の責任を問いません。

でも最近は割と真面目に書いてる。

 

紙ベースだと自由に編集入れられるけど、それってペンタブじゃダメですか?ペンタブがなければ液タブを買えばいいじゃない笑

 

参考程度にどうぞ!

 

本文は以下より。

Image Super-Resolution Using Deep Convolutional Networks.

https://arxiv.org/pdf/1501.00092.pdf

 

<実験>

 

  1. まず、異なるデータセットを使用してモデルのパフォーマンスに与える影響を調査する。
  2. 次に、我々の手法によって学習されたフィルタを調査する。
  3. ネットワークのさまざまなアーキテクチャ設計を調査し、超解像度性能と深度、フィルタ数、フィルタサイズなどの要素の関係を調査する。
  4. 次に、我々の方法を最近の最先端技術と定量的および定性的に比較する。
  5. [42]に続いて、超解像はセクション4.1-4.4の輝度チャネル(YCbCr色空間のYチャネル)にのみ適用されるため、最初/最後のレイヤーではc = 1であり、パフォーマンス(PSNRやSSIMなど)は Yチャネルで評価される。
  6. 最後に、ネットワークを拡張してカラー画像に対応し、さまざまなチャンネルのパフォーマンスを評価する。

 

訓練データ

  1. 文献に示されているように、深い学習は一般的に大きなデータトレーニングから利益を得る。
  2. 比較のため、私たちは、91個のイメージで構成される比較的小さなトレーニングセット[41]、[50]と、ILSVRC 2013 ImageNet検出トレーニングパーティションからの395,909個のイメージで構成された大規模なトレーニングセットを使用する。
  3. トレーニングサブ画像のサイズは、fsub = 33である。
  4. したがって、91画像データセットは、24,800のサブ画像に分解され、14のストライドで原画像から抽出される。
  5. ImageNetは33のストライドを使用しても500万以上のサブ画像を提供する。
  6. 基本的なネットワーク設定、すなわち、f1 = 9、f2 = 1、f3 = 5、n1 = 64、およびn2 = 32を使用する。
  7. 検証セットとしてSet5 [2]を使用する。
  8. 大きなSet14セット[51]を使用しても同様の傾向が見られる。
  9. アップスケーリング係数は3である。
  10. 私たちはベースラインとしてスパースコーディングベースの方法[50]を使用し、平均PSNR値は31.42dBに達する。
  11. 異なるトレーニングセットを使用したテスト収束曲線を図4に示す。
  12. ImageNetのトレーニング時間は、バックプロパゲーションの数が同じであるため、91画像データセットとほぼ同じになる。
  13. 観察されるように、同じバックプロパゲーション数(すなわち8×108)で、SRCNN + ImageNetは32.52dBを達成し、これは91画像で訓練された32.39dBより高い。
  14. 結果は、より大きなトレーニングセットを使用してSRCNNのパフォーマンスがさらに向上する可能性があることを肯定的に示しているが、ビッグデータの影響は、高レベルの視覚の問題[26]である。
  15. これは主に、91枚の画像が自然画像の十分な変動性を獲得しているためである。
  16. 一方、私たちのSRCNNは比較的小さなネットワーク(8,032パラメータ)で、91枚(24,800サンプル)をオーバーフィットできなかった。
  17. それにもかかわらず、我々は、以下の実験におけるデフォルト学習セットとして、より多様なデータを含むImageNetを採用する。

 

あーさっぱり終わった。

これがあと5回あるぜ頑張ろう。

 

次回「実験②:超解像のための学習済フィルタ」編。