読者です 読者をやめる 読者になる 読者になる

橙色の日々を。

わたくし橙乃が気になったことをクリップするブログ。

【Deep Learning】SRCNNの論文をツールに通して雑に訳す【実験③:モデルと性能のトレードオフ】

論文訳

毎日やるならちょこちょこのがいいかも。

 

継続は力なり、毎日少しずつ!

 

SRCNN・訳・実験編~モデルと性能のトレードオフ

 

 

こんにちは、橙乃巻です。

 

急に失速しております!笑

 

「翻訳」内容に関しては一切の責任を問いません。

コピペミスとかひどすぎない?

 

すでに花粉の予感。

お部屋で引きこもって文章を読んだり作ったりしよう。

 

参考程度にどうぞ!

 

本文は以下より。

Image Super-Resolution Using Deep Convolutional Networks.

https://arxiv.org/pdf/1501.00092.pdf

 

<実験>

モデルと性能のトレードオフ 

  1. 基本的なネットワーク設定(f1 = 9、f2 = 1、f3 = 5、n1 = 64、n2 = 32)に基づいて、これらのパラメータのいくつかを徐々に変更して、 パフォーマンスとパラメータの関係を調べる。 

フィルタ数

  1. 一般に、実行時間を犠牲にして、ネットワーク幅を増やす、つまりフィルタを追加すると、パフォーマンスが向上する6。
  2. 具体的には、ネットワークのデフォルト設定であるn1 = 64とn2 = 32に基づいて、2つの実験を行う。 :
  3. (i)大規模なネットワークを持つ方は n1 = 128およびn2 = 64であり、
    (ii)他方はn1 = 32およびn2 = 16のより小さいネットワークである。
  4. 1節と同様に、ImageNetで2つのモデルを訓練し、アップスケール係数3でSet5をテストする。
  5. 8×108のバックプロパゲーションで観察された結果を表1に示す。
  6. ネットワークの幅を広げることによって優れた性能が達成されることは明らかである。
  7. しかし、高速の復旧速度 スパースコーディングベースの方法(42dB)よりも優れた性能を達成できる小さなネットワーク幅が好ましい。

フィルタサイズ

  1. このセクションでは、さまざまなフィルタサイズに対するネットワークの感度を調べる。
  2. 以前の実験では、 フィルタサイズf1 = 9、f2 = 1、f3 = 5であり、ネットワークは9-1-5と表すことができる。
  3. まず、疎コードベースの方法と一致するように、第2レイヤのフィルタサイズをf2 = 1に固定し、他のレイヤのフィルタサイズをf1 = 11およびf3 = 7に拡大する(11-1-7 )。
  4. その他の設定は、セクション4.1と同じである。
  5. Set5のアップスケーリング係数3の結果は、32.57 dBであり、4.1節で報告された32.52 dBよりわずかに高い値となっている。
  6. これは、合理的に大きいフィルタサイズがより豊かな構造情報を把握できることを示し、結果的に良好な結果をもたらす。
  7. 次に、第2層のより大きなフィルタサイズを有するネットワークをさらに調べる。
  8. 具体的には、フィルタサイズf2 = 3(9-3-5)、f2 = 5(9-5-5)となるように、第2層のフィルタサイズを拡大する。
  9. 図7の収束曲線は、より大きなフィルタサイズを使用するとパフォーマンスが大幅に向上する可能性があることを示している。
  10. 具体的には、8×108のバックプロパゲーションを有するSet5の9-3-5および9-5-5によって達成される平均PSNR値は、それぞれ66dBおよび32.75dBである。結果は、マッピング段階で近隣情報を利用することが有益であることを示唆している。
  11. ただし、フィルタのサイズが大きくなると展開速度も低下する。
  12. 例えば、9-1-5,9-3-5,9-5-5のパラメータの数はそれぞれ8,032,24,416,57,184である。
  13. 9-5-5の複雑さは9-3-5のほぼ2倍ですが、パフォーマンスの向上はわずかだ。
  14. したがって、ネットワーク規模の選択は、常にパフォーマンスとスピードのトレードオフである必要がある。

 

層の数

  1. HeとSunによる最近の研究[17]は、CNNがネットワークの深さを適度に増やすことによって利益を得ることを示唆している。
  2. ここでは、サイズがf22 = 1のn22 = 16のフィルタを持つ別の非線形マッピングレイヤを追加して、より深い構造を試す。
  3. 我々はそれぞれ9-1-5、9-3-5、9-5-5の層に層を追加した9-1-5,9-3-1-5,9-5-1-5の3つの制御された実験を行う。
  4. 追加層の初期化スキームおよび学習率は、第2層と同じである。
  5. 図13(a)、図13(b)および図8(c)から、4層ネットワークが3層ネットワークよりも遅く収束していることがわかる。
  6. それにもかかわらず、十分な訓練時間が与えられれば、より深いネットワークは最終的に3層のネットワークに追いつき、収束する。
  7. 超解像のためのより深い構造の有効性は、画像分類[17]に示されているほど明らかではない。
  8. さらに、より深いネットワークが必ずしもより良いパフォーマンスをもたらすわけではないことがわかる。
  9. 具体的には、9-1-5ネットワークでn22 = 32のフィルタを追加したレイヤを追加すると、パフォーマンスが低下し、3層ネットワークを上回ることができなくなる。(図9(a)参照)。
  10. 9-1-5でn22 = 32およびn23 = 16のフィルタを使用して2つの非線形マッピングレイヤを追加して深く進めるならば、収束を確実にするためには学習率を低く設定する必要がある
    しかし、1週間のトレーニングの後でも優れたパフォーマンスは見られません。
  11. 追加レイヤのフィルタサイズをf22 = 3に拡大し、2つの深い構造 - 9-3-3-5と9-3-3-3を探索しようとした。
  12. しかし、図9(b)に示す収束曲線から、これら2つのネットワークは、9-3-1-5ネットワークより良い結果を示さない。
  13. これらのすべての実験は、超解像度のためのこの深いモデルでは、「より深いほど良い」というわけではないことを示している。
  14. それは訓練の困難さによって引き起こされるかもしれません。
  15. 当社のCNNネットワークには、プール層またはフル接続層が含まれていないため、初期化パラメータおよび学習率に敏感である。
  16. より深く(たとえば4または5のレイヤーに)進むと、コンバージェンスを保証する適切な学習率を設定することが難しくなる。
  17. それが収束しても、ネットワークは悪い極小になり、十分なトレーニング時間が与えられても、学習されたフィルタのダイバーシティは小さくなる。
  18. この現象は深度の不適切な増加が画像分類の精度飽和または劣化につながる[16]においても観察される。
  19. なぜ、「より深くとも良くならないのか」は未解決の問題である。
  20. ディープ・アーキテクチャーにおける勾配やトレーニングのダイナミクスをより深く理解するための調査が必要である。
  21. したがって、以下の実験では3層ネットワークを採用している。

 

めっちゃ大事なとこかな!

ほえ~って言いながら進めました笑

 

次回、「最新の研究結果との比較」編。