読者です 読者をやめる 読者になる 読者になる

橙色の日々を。

わたくし橙乃が気になったことをクリップするブログ。

ARCNN論文訳簡易版

圧縮アーティファクト低減のための深層CNN

 

概要

 

 

  1. 圧縮の損失は、複雑な圧縮アーチファクト、特にアーチファクトのブロッキング、リンギングエフェクトおよびぼかしを招く。

ブロッキング:ブロック化→ピクセルを1まとめにすること?

※リンギングエフェクト:
 画像のコントラストの高い部分に不自然な輪郭が発生する現象。

※モアレ:

 干渉縞ともいい、規則正しい繰り返し模様を複数重ね合わせた時に、
 それらの周期のずれにより視覚的に発生する縞模様のことである。 

  1. 既存のアルゴリズムは、ブロッキングアーチファクトを除去し、ぼやけた出力を生成することに焦点を当てるか、またはリンギングエフェクトを伴う鮮明な画像を復元する。
  2. 超解像の深い畳み込みネットワーク(DCN)の成功に触発され、我々は様々な圧縮アーチファクトのシームレスな減衰のためのコンパクトで効率的なネットワークを定式化する。

※シームレス:継ぎ目のない状態のこと。

  1. 現実世界のアプリケーションの速度要件を満たすために、我々は、大きなストライド畳み込みおよびデコンボリューション層の層分解および共同使用によって提案されたベースラインモデルをさらに加速する。
  2. これはまた、従来のマルチレイヤパーセプトロンMLP)と密接な関係がある、より一般的なCNNフレームワークにつながる。
  3. 最後に、修正されたネットワークは、ベースラインモデルと比較してパフォーマンス損失をほとんど発生させることなく、5倍のスピードアップを実現します。
  4. また、浅いネットワークで学んだフィーチャを使用して、より深いモデルを効果的に訓練することができることも示しています。
  5. 同様の「簡単に難しい」アイデアに従って、我々は3つの実践的な伝達設定を体系的に調査し、低レベルの視力問題における伝達学習の有効性を示す。
  6. 私たちの方法は、ベンチマークデータセットと現実のユースケースの両方で最先端の方法より優れたパフォーマンスを示しています。

 


 

1.導入

 

  1. JPEG、WebPおよびHEVC-MSPなどの)損失圧縮は、符号化されたコンテンツを表現するための不正確な近似を使用するデータ符号化方法の1つのクラスである。
  2. このような情報爆発の時代に、帯域幅とストレージスペースを節約するために、損失のある圧縮は不可欠であり、企業(TwitterFacebookなど)にとって不可欠です。
  3. しかし、その性質上の圧縮は、望ましくない複雑なアーチファクトを導入し、ユーザの経験を著しく低下させる(例えば、図1)。
  4. これらのアーチファクトは、知覚的な視覚的品質を低下させるだけでなく、コントラスト強調[19]、超解像[6]、[39]、エッジ検出などの圧縮画像を入力とする様々な低レベル画像処理ルーチン[4]。
  5. 巨大な需要にもかかわらず、効果的な圧縮アーチファクト低減は未解決の問題として残っている。
  6. 様々な圧縮スキームは、複雑で信号依存性のある様々な種類の圧縮アーチファクトをもたらす。
  7. JPEG圧縮を例にとると、隣接する8×8ピクセルブロック間の不連続性はブロッキングアーチファクトを招きますが、図1(a)に示すように、高周波成分の粗い量子化によってリンギングやぼかしが発生します。
  8. JPEGの改良されたバージョンとして、JPEG2000はウェーブレット変換を採用してアーチファクトをブロックするが、依然としてリンギングエフェクトおよびぼかしを呈する。
  9. 普及している圧縮規格とは別に、コマーシャルは特定の要件を満たす独自の圧縮方式も導入しました。
  10. 例えば、TwitterFacebookは、アップロードされた高解像度画像を最初に再スケーリングして圧縮することで圧縮します。
  11. 圧縮戦略を組み合わせると、重大なリンギング効果とぼかしが導入されますが、別の方法で発生します(図1(b)参照)。
  12. 様々な圧縮アーチファクトに対処するために、様々な手法が提案されており、そのうちのいくつかは特定の圧縮規格、特にJPEG用に設計されている。
  13. 例えば、デブロッキング指向アプローチ[21]、[27]、[35]は、ブロック境界に沿ってフィルタリングを実行して、ブロッキングアーチファクトのみを低減する。
  14. Liew et al。 [20]およびFoi et al。 [8]はウェーブレット変換と形状適応型DCT変換でそれぞれ閾値処理を用いる。
  15. Liuらは、問題特定のプライオリティ(例えば、量子化テーブル)の助けを借りて、 [22] DCTドメインの残余冗長性を利用し、スパース性に基づくデュアルドメイン(DCTおよびピクセルドメイン)アプローチを提案する。
  16. Wangら[45]さらに、DCTおよびピクセルドメインに深い疎なコーディングネットワークを導入し、優れたパフォーマンスを実現します。
  17. この種の方法は、特定の圧縮規格(例えば、JPEG)のソフトデコーディングと呼ばれ、他の圧縮方式にほとんど拡張されない。あるいは、データ駆動学習ベースの方法は、より一般化された能力を有する。
  18. Jungら[15]は、疎な表現に基づく復元法を提案する。
  19. Kwon et al。 [18]ガウスプロセス(GP)回帰を採用して、超解像と圧縮アーチファクト除去の両方を達成する。
  20. 調整されたアンカーされた近傍回帰(A +)アプローチ[29]は、JPEG2000画像を強調するためにも使用される。
  21. これらの方法は、異なるタスクに対して容易に一般化することができる。
  22. ディープ・ラーニングは、高レベルと低レベルの両方の視力問題で印象的な結果を示しています。
  23. 特に、Dongらが提案したSuperResolution Convolutional Neural Network(SRCNN)は、
  24. [6]は、画像超解像におけるエンドツーエンドDCNの大きな可能性を示している。
  25. この研究では、従来の疎なコーディングベースの画像復元モデルも同様に深いモデルと見なすことができると指摘しています。
  26. しかしながら、SRCNNを圧縮アーチファクト低減に直接適用すると、その第1層によって抽出された特徴はノイズがあり、再構成において望ましくないノイズの多いパターンにつながる可能性がある。
  27. したがって、3層目のSRCNNは、特に複雑なアーチファクトを扱う際に、圧縮画像の復元にはあまり適していません。
  28. 望ましくないアーチファクトを除去するために、ノイズの多いフィーチャをクリーニングするために最初のレイヤの後に1つ以上の「フィーチャ強化」レイヤを埋め込むことによってSRCNNを改善します。実験では、改良されたモデル、すなわちアーティファクト低減畳み込みニューラルネットワーク(AR-CNN)が、エッジパターンと鮮明な細部を保持しながらブロッキングアーティファクトを抑制するのに非常に有効であることが示されている(図1参照)。
  29. JPEG固有のモデルとは異なり、AR-CNNは、JPEGJPEG 2000、Twitterなどのさまざまな圧縮方式に対応して同等に効果的です。
  30. しかし、別のレイヤーを追加するとネットワーク規模が大きく増加し、現実世界のアプリケーションに適用するのが難しくなります。
  31. 一般に、高い計算コストは​​、ほとんどの従来の方法にとって大きなボトルネックとなっている[45]。
  32. ネットワーク構造を掘り下げる際、推論の速度を制限する2つの重要な要素があります。
  33. 第1に、追加された「フィーチャ強化」層は、総パラメータのほぼ95%を占める。
  34. 第2に、完全畳み込み構造を採用すると、入力画像の空間的な大きさによって時間の複雑さが二次的に増加する。
  35. 推測プロセスを加速して良好なパフォーマンスを維持するために、我々は2つの主な変更を加えたより効率的なフレームワークを調査する。
  36. 冗長パラメータについては、最初の2つのレイヤの間に1×1のフィルタを持つ別の「収縮」レイヤを挿入します。
  37. 畳み込みの計算負荷が大きい場合、最初のレイヤーでは大きなストライド畳み込みフィルターを使用し、最後のレイヤーでは対応するデコンボリューションフィルターを使用します。
  38. 中間層の畳み込み演算は、より小さな特徴マップ上で実行され、より迅速な推論につながる。
  39. 実験では、変更されたネットワーク、すなわちFast AR-CNNは、ほとんどパフォーマンスが低下することなく、ベースラインのAR-CNNよりも5倍高速であることが示されている。
  40. これはさらに、低レベルの視力問題のためのより一般的なCNNフレームワークを策定するのに役立ちます。
  41. 我々はまた、従来のマルチレイヤパーセプトロンとの密接な関係を明らかにした[3]。
  42. 私たちが会ったもう一つの問題は、より深いDCNを効果的に鍛える方法です。
  43. SRCNN [7]で指摘されているように、5層ネットワークのトレーニングはボトルネックになります。
  44. トレーニングの難しさは、部分的に最適化された初期設定によるものです。
  45. 前述の困難さは、低レベルの視力問題のより深いモデルを訓練するためのよりよい方法を調査するよう動機づけます。
  46. これは、浅いネットワークで学習されたフィーチャをより深いフィーチャに転送し、同時に微調整することによって効果的に解決できることがわかります1。
  47. この戦略は、画像分類のためのより深いCNNの学習においても成功していることが証明されている[32]。
  48. 同様の一般的な直感的なアイデアに従い、簡単には難しく、私たちは低レベルのビジョンタスクで他の面白い転送設定を発見します。
  49. (1)高品質の圧縮モデルで学習されたフィーチャを低品質のモデルに転送し、ランダム初期化より高速に収束することを確認します。
  50. (2)実際のユースケースでは、企業は目的に応じて異なる圧縮戦略(リスケーリングを含む)を適用する傾向があります(図1(b)など)。
  51. 私たちは、標準の圧縮モデルで学んだ機能を(より簡単に)実際のユースケース(難しい)に移し、最初から学習するよりも優れた性能を発揮します。
  52. この研究の貢献は4倍です:
  53. (1)様々な圧縮アーチファクトを効果的に低減するための新しい深い畳み込みネットワークを定式化する。
  54. 実際の使用例を含む広範な実験は、知覚的にも定量的にも最先端の方法[8]に対する我々の方法の有効性を実証している[8]。
  55. (2)ベースラインモデルAR-CNNを徐々に変更し、最先端のパフォーマンスを維持しながらベースラインAR CNNと比較して5倍のスピードを達成する、より効率的なネットワーク構造を提示する。
  56. (3)浅いネットワークの特徴を再利用することは、圧縮成果物削減のより深いモデルを学習する上で有用であることを検証する。
  57. 直感的なアイデアの下で、難しいほど簡単に、私たちはいくつかの面白い、実際的な転送設定を明らかにします。
  58. この作品の暫定版は以前に発表された[5]。
  59. この作業では、方法論と実験の両方で大幅な改善を行います。
  60. まず、方法論では、提案モデルの計算コストを分析し、時間効率に影響を与える2つの重要な要素を指摘する。
  61. 次に、対応する加速戦略を提案し、ベースラインモデルをより一般的かつ効率的なネットワーク構造に拡張する。
  62. 実験では、パフォーマンスをさらに向上させるためにデータ拡張を採用しています。
  63. また、JPEG 2000画像の実験を行い、最先端の手法と比較して優れた性能を示している[18]、[28]、[29]。
  64. 新しいフレームワークのネットワーク設定の詳細な調査については、後で説明します。

 


 

2.関連研究

 

  1. 既存のアルゴリズムは、デブロッキング指向および復元指向の方法に分類できます。
  2. ブロッキング指向の方法は、ブロッキングおよびリンギングアーチファクトの除去に重点を置いています。
  3. 空間領域では、特定の領域(例えば、エッジ、テクスチャ、およびスムーズ領域)におけるブロッキングアーチファクトを適応的に処理するために、異なる種類のフィルタ[21]、[27]、[35]が提案されている。
  4. 周波数領域では、Liew et al。
  5. [20]は、ウェーブレット変換を利用し、雑音除去のために異なるウェーブレットスケールで閾値を導出する。
  6. 最も成功したデブロッキング指向の方法は、Pointwise Shape -Adaptive DCT(SADCT)[8]であり、これはstate-of-theartアプローチ[13]、[19]として広く認められている。
  7. しかしながら、ほとんどのデブロッキング指向の方法として、SA-DCTは鮮明なエッジを再現することができず、テクスチャ領域を過度に滑らかにする傾向がある。
  8. 復元指向の方法は、圧縮動作を歪みとみなし、そのような歪みを低減することを目的とする。
  9. これらの方法には、凸集合ベース法(POCS)[41]、MAP問題(FoE)[33]、スパースコーディング法[15]、準局所ガウス過程モデル[18]、回帰木フィールドベースの方法(RTF)[13]および調整されたアンカー近傍回帰(A +)[29]。
  10. RTFは、SA-DCT [8]の結果をベースとして、回帰木フィールドモデルを用いて全体的に一貫した画像再構成を生成する。
  11. それはまた、任意の微分可能な損失関数(例えば、SSIM)について最適化することができるが、多くの場合、他の評価メトリックには最適以下に実行することを要する。
  12. 最近の画像超解像法[34]として、A + [29]も圧縮アーチファクト低減のために首尾よく適用されている。
  13. それらの方法では、入力画像は重なり合うパッチに分解され、アンカーポイントの辞書によってまばらに表される。
  14. 次に、非圧縮パッチは、対応する線形回帰と乗算することによって予測される。
  15. 彼らはJPEG2000画像では印象的な結果を得ていますが、他の圧縮方式ではテストしていません。
  16. 特定の圧縮規格、特にJPEGを処理するために、最近の進歩の中には、デュアルドメイン(DCTとピクセルドメイン)からの情報を組み込み、印象的な結果を達成しています。
  17. 具体的には、Liuら[22]量子化誤差を除去するためにDCT領域でスパースコーディングを適用し、画素領域内の失われた高周波成分を復元する。
  18. 彼らの基礎に基づいて、Wangらは、 [45]両方の領域で疎なコーディングステップを深いニューラルネットワークで置き換え、優れた性能を達成する。
  19. これらの方法はすべて、問題の事前知識(例えば、量子化テーブル)を必要とし、8×8画素ブロック上で処理するため、JPEG 2000およびTiwtterなどの他の圧縮方式に一般化することはできない。
  20. 超解像畳み込みニューラルネットワーク(SRCNN)[6]は我々の研究と密接に関連している。この研究では、スパースコーディングベースの方法における独立したステップは、異なる畳み込みレイヤとして策定され、統合ネットワークで最適化されています。
  21. これは、超解像度のような低レベルの視力問題における深いモデルの可能性を示しています。
  22. しかしながら、圧縮の問題は、前者が異なる種類のアーティファクトからなる点で超解像とは異なる。
  23. 圧縮復元のための深いモデルを設計するには、さまざまなアーティファクトへの深い理解が必要です。
  24. 圧縮復元のためにSRCNNアーキテクチャを直接適用すると、再構成画像に望ましくないノイズの多いパターンが生じることを示しています。
  25. 深層ニューラルネットワークにおける伝達学習は、画像分類における深い学習の成功以来普及している[17]。
  26. ImageNetから学んだ機能は、一般化能力が優れていることを示しており、Pascal VOC画像分類[25]や物体検出[9]、[30]など、いくつかの高レベル視力問題の強力なツールとなっている。
  27. Yosinskiら[43]はまた、特定の層が一般的であるか特異的であるかを定量化しようと試みた。
  28. 全体的に、移転学習は、高レベル視力問題では系統的に調査されているが、低レベル視力課題では調査されていない。
  29. 本研究では、圧縮成果物削減に関するいくつかの転送設定を検討し、低レベルの視覚問題における転送学習の有効性を示す。

 


 

3.方法論

 

 

  1. 提案手法は、現在の低レベル視力モデルSRCNN [6]に基づいている。
  2. 私たちの仕事をよりよく理解するために、最初にSRCNNの概要を説明します。
  3. 次に、より深いネットワークにつながる洞察を説明し、新しいモデルを提示します。続いて、より深くより良いネットワークを訓練するのに役立つ3つのタイプの伝達学習戦略を探索します。
  4. SRCNNのレビュー
  5. SRCNNは、低解像度画像Y(補間後)を入力として高解像度の1つのF(Y)を直接出力するエンド・ツー・エンド・マッピングを学習することを目的とする。
  6. ネットワークには3つの畳み込みレイヤがあり、それぞれが特定のタスクを担当します。
  7. 具体的には、第1の層は、入力画像から重複パッチを抽出し、各パッチを高次元ベクトルとして表すパッチ抽出および表現を実行する。
  8. 次に、非線形マッピング層は、第1の層の各高次元ベクトルを、概念的には高解像度パッチの表現である別の高次元ベクトルにマッピングする。
  9. 最後に、再構成層は、パッチごとの表現を集約して最終出力を生成する。
  10. ネットワークは次のように表すことができます。
  11. F0(Y)= Y; (1)
  12. Fi(Y)= max(0、Wi * Fi-1(Y)+ Bi)、i∈{1,2}; (2)
  13. F(Y)= W3×F2(Y)+ B3(3)
  14. ここで、WiおよびBiはそれぞれi番目の層のフィルタおよびバイアスを表し、Fiは出力特徴マップであり、「*」は畳み込み演算を表す。
  15. Wiは、ni-1×fi×fiのサポートを含む。ここで、fiはフィルタの空間的サポートであり、niはフィルタの数であり、n0は入力画像におけるチャネルの数である。
  16. SRCNNにはプールまたはフル接続レイヤーがないので、最終出力F(Y)は入力イメージと同じサイズであることに注意してください。
  17. 整流された線形単位(ReLU、max(0、x))[24]がフィルタ応答に適用されます。
  18. これらの3つのステップは、疎コードベースの超解像法[40]の基本操作に類似しており、この密接な関係は、超解像におけるその成功した適用のための理論上の基礎をなす。
  19. 詳細は、論文[6]に記載されています。
  20. 圧縮アーティファクト低減のための畳み込みニューラルネットワーク
  21. 洞察
  22. スパースコーディングに基づく方法とSRCNNでは、最初のステップ特徴抽出は、次の段階で何が強調され復元されるべきかを決定する。しかし、様々な圧縮アーチファクトが共に結合されると、抽出された特徴は通常、正確なマッピングのためにノイズが多く、あいまいである。
  23. JPEG圧縮アーチファクト(セクションVI-A2参照)を減らす実験では、高周波の細部と結合したいくつかの量子化ノイズがさらに強化され、鋭いエッジの周りに予期しないノイズの多いパターンがもたらされることがわかりました。
  24. さらに、平らな領域におけるブロッキングアーチファクトは、正常なエッジとして誤って認識され、平滑領域における急激な輝度変化を引き起こす。
  25. 超解像[38]における特徴強調ステップに着想を得て、SRCNNの特徴抽出レイヤーの後に特徴的な拡張レイヤーを導入し、より深い新しいネットワーク - AR-CNNを形成する。
  26. このレイヤーは、「ノイズの多い」フィーチャを比較的クリーンなフィーチャスペースにマッピングします。これは、フィーチャマップのノイズ除去に相当します。
  27. 処方。
  28. 新しいネットワークAR-CNNの概要を図2に示します。
  29. 新しいモデルでは、SRCNNの3つのレイヤーは変更されません。
  30. 特徴強調を行うために、第1層のn1個の特徴マップから新しい特徴を抽出し、それらを組み合わせて別の特徴マップの集合を形成する。
  31. 全体として、AR-CNNは、4つの層、すなわち特徴抽出、特徴強調、マッピングおよび再構成層からなる。
  32. 活性化関数としてReLUを採用しているSRCNNとは異なり、新しいネットワークではParametric Rectified Linear Unit(PReLU)[11]を使用します。
  33. ReLUとPReLUを区別するために、一般的な活性化関数を以下のように定義する。
  34. P reLU(xj)= max(xj、0)+ aj・min(0、xj)、(4)
  35. ここで、xjは、j番目のチャネル上の活性化fの入力信号であり、ajは、負の部分の係数である。
  36. パラメータajは、ReLUについてはゼロに設定されるが、PReLUに対しては学習可能である。
  37. 我々は、主にReLUのゼロ勾配によって引き起こされる「死んだ特徴」[44]を避けるためにPReLを選択する。
  38. 私たちはネットワーク全体を次のように表現します。
  39. F0(Y)= Y; (5)
  40. Fi(Y)= P ReLU(Wi * Fi-1(Y)+ Bi)、i∈{1,2,3}。 (6)
  41. F(Y)= W4×F3(Y)+ B4。 (7)
  42. 変数の意味は式1の意味と同じであり、第2の層(W2、B2)は追加された特徴強調層である。
  43. AR-CNNが複数の非線形マッピングレイヤを含むより深いSRCNNと等しくないことに注意する価値がある2。
  44. より深いSRCNNは、マッピング段階でより多くの非線形性を課す。これは、低レベルの特徴と最終的な出力との間のより強固な回帰を採用することに等しい。
  45. 同様の考え方がいくつかの疎なコーディングベースの方法で提案されている[2]、[16]。
  46. しかし、圧縮アーチファクトが複雑であるため、単一レイヤによって抽出された低レベルの特徴はノイズが多い。
  47. したがって、パフォーマンスのボトルネックは機能にありますが、回帰分析にはありません。
  48. AR-CNNは、抽出された低レベルの特徴を強化することによってマッピング精度を改善し、最初の2つの層はより良い特徴抽出器と見なすことができる。
  49. これは、より深いSRCNNよりも優れたパフォーマンスにつながります。
  50. AR-CNN、SRCNN、およびより深いSRCNNの実験結果はセクションVI-A2に示される。
  51. モデル学習
  52. 地上真理画像{Xi}およびそれに対応する圧縮画像{Yi}の集合が与えられると、我々は、損失関数として平均二乗誤差(MSE)を使用する:
  53. L(Θ)= 1 n×n i = 1 || F(Yi;Θ)-Xi || 2、(8)
  54. Θ= {W1、W2、W3、W4、B1、B2、B3、B4}であり、nはトレーニングサンプルの数である。
  55. 損失は、標準的な逆伝播を伴う確率的勾配降下を使用して最小化される。
  56. 我々は、バッチサイズ128のバッチモード学習法を採用する。

 

 

 

 

4.AR-CNNを促進する

 

  1. AR-CNNは既に既存のディープモデル(例えば、AlexNet [17]およびDeepid-net [26])のほとんどよりもはるかに小さいが、実用的またはリアルタイムのオンラインアプリケーションでさえ依然として不満足である。
  2. 具体的には、追加のレイヤでは、AR-CNNはネットワーク規模でSRCNNの数倍になります。
  3. このセクションでは、再構築品質を維持しながら、提案されたベースラインモデルを徐々に加速します。
  4. まず、AR-CNNの計算量を分析し、最も影響力のある要素を見つけます。
  5. 次に、大きなストライドの畳み込みおよびデコンボリューション層のレイヤー分解および共同使用によってネットワークを再設計する。
  6. さらに一般的なフレームワークとし、従来のMLP(Multi-Layer Perceptron)と比較します。
  7. 複雑さの分析
  8. AR-CNNは純粋に畳み込み層で構成されているため、パラメータの総数は次のように計算できます。
  9. N = X d i = 1 ni-1・ni・f 2 i。 (9)
  10. iは層インデックス、dは層の数、fiはフィルタの空間サイズである。
  11. i番目の層のフィルタ数をni、入力チャンネル数をni-1とする。
  12. 出力フィーチャマップmiの空間サイズを含めると、時間複雑度の式が得られます。
  13. O {X d i = 1 ni-1・ni・f 2 i・m2 i}、(10)
  14. 私たちのベースラインモデルAR-CNNでは、n = 64、n2 = 32、n3 = 16、n4 = 1、f1 = 9、f2 = 7、f3 = 1、f4 = 5、 64(9)-32(7)-16(1)-1(5)となる。
  15. まず、表1の各層のパラメータを分析する。
  16. 「フィーチャ強化」レイヤは、合計パラメータのほぼ95%を占めることがわかります。
  17. 明らかに、パラメータを減らしたい場合は、2番目のレイヤーがブレークスルーポイントでなければなりません。
  18. 一方、出力特徴マップmiの空間サイズも全体の時間複雑度(式11参照)において重要な役割を果たす。
  19. SRCNNのような従来の低レベルの視覚モデルでは、すべての中間特徴マップの空間サイズは入力画像のものと同じままである。
  20. しかし、これはAlexNet [17]のような高レベルのビジョンモデルではなく、大きなストライドストライド> 1)コンボリューションフィルタで構成されています。
  21. 一般的に、妥当なストライドがあれば、畳み込み演算を大幅に高速化できます。そのため、ストライドサイズはネットワークを改善するための重要な要素です。
  22. 上記の観察に基づいて、我々は次のサブセクションでより効率的なネットワーク構造を探索する。
  23. 加速戦略
  24. レイヤー分解。
  25. まず、「フィーチャ強化」レイヤの複雑さを軽減します。
  26. この層は同時に2つの役割を果たす。
  27. 1つは、大きなフィーチャマップ(すなわち、7×7)のセットを用いて入力フィーチャマップをノイズ除去することであり、もう1つは、高次元フィーチャを比較的低次元のフィーチャ空間(すなわち64から32)にマッピングすることである。
  28. これは、2つの接続されたレイヤーで置き換えることができ、それぞれが単一のタスクを担当することを示しています。
  29. 具体的には、図4に示すように、321×1のフィルタと32個の7×7フィルタを持つ「エンハンスメント」レイヤーを使用して、「フィーチャ強化」レイヤを「縮小」レイヤに分解します。
  30. 1×1フィルタは、深いモデル[23]のフィーチャ寸法を縮小するために広く使用されていることに注意してください。
  31. 次に、次のようにパラメータを計算できます。
  32. 32・7 2・64 = 100,352→32・12・32 + 32・72・32 = 51,200(11)
  33. パラメータがほぼ半減することは明らかです。
  34. 同様に、ネットワーク全体の規模も17%減少します。
  35. 修正されたネットワークを64(9)-32(1)-32(7)-16(1)-1(5)とする。
  36. セクションVI-D1では、このモデルがベースラインモデル64(9)-32(7)-16(1)-1(5)とほぼ同じ復元品質を達成することを示す。
  37. ラージストライド畳み込みとデコンボリューション
  38. 別の加速戦略は、第1の畳み込み層においてストライドサイズ(例えば、ストライドs> 1)を増加させることである。
  39. AR-CNNにおいて、第1の層は、高レベルの視覚深層モデルにおけるのと同様の役割を果たす(すなわち、特徴抽出器)。したがって、ストライドサイズを例えば1から2に増加させることが価値のある試みである。
  40. しかし、これにより出力が小さくなり、エンドツーエンドのマッピング構造が影響を受けます。
  41. この問題に対処するために、AR-CNNの最後の畳み込みレイヤ(図2)をデコンボリューションレイヤで置き換えます。
  42. デコンボリューションは、コンボリューションの逆の操作と見なすことができます。
  43. 特に、ストライドs = 1を設定すると、デコンボリューションフィルタの機能は畳み込みフィルタの機能と同じになります(図3(a)参照)。
  44. より大きいストライドs> 1の場合、畳み込みはサブサンプリングを実行し、デコンボリューションはアップサンプリングを実行します(図3(b)を参照)。
  45. したがって、最初のレイヤーと最後のレイヤーに同じストライドを使用すると、図4に示すように、出力は入力と同じサイズのままになります。
  46. ストライド畳み込みおよびデコンボリューション層の共同使用後、特徴マップmiの空間サイズはmi / sになり、全体的な時間の複雑さが大幅に減少する。
  47. 上記の変更は時間効率を改善するが、修復品質にも影響する可能性がある。
  48. 性能をさらに向上させるために、マッピング層を拡張する(すなわち、より多くのマッピングフィルタを使用する)ことができ、デコンボリューション層のフィルタサイズを拡大することができる。
  49. 例えば、マッピングフィルタの数を第1層のフィルタの数(すなわち16から64)と同じに設定し、第1層と最後の層に同じフィルタサイズを使用することができる(すなわち、f1 = f5 = 9)。
  50. これは実行可能な解決策ですが、厳しいルールではありません。
  51. 一般に、これは、時間のかかる複雑さの補償とみなすことができます。
  52. セクションVI-D1では、一連の制御された実験を通して異なる設定を調査し、性能と複雑さとの間の良好なトレードオフを見出す。
  53. 高速AR-CNN。
  54. 上記の変更により、より効率的なネットワーク構造に到達します。
  55. s = 2に設定すると、修正されたモデルは64(9)-32(1)-32(7)-64(1)-1 [9] -s2として表すことができます。ここで角カッコはデコンボルーションフィルタ。
  56. 新しいモデルの名前はFast AR-CNNです。
  57. その全体的なパラメータの数は、式9によって56,496である。
  58. その後、加速度比は106448/56496・22 = 7.5と計算できます。
  59. このネットワークは、セクションVI-D1に示すベースラインモデルと同様の結果を得ることができることに留意されたい。
  60. 一般的な枠組み
  61. フィルタ番号、フィルタサイズ、ストライドなどのネットワーク設定を緩和すると、次のような魅力的なプロパティを持つより一般的なフレームワークを得ることができます。
  62. (1)ネットワークの全体的な「形」は、「砂時計」のようなものであり、両端で太く、中央で薄い。
  63. 収縮層およびマッピング層は、ネットワークの幅を制御する。
  64. それらはすべて1×1のフィルタであり、全体の複雑さにはほとんど貢献しません。
  65. (2)ストライドの選択は非常に柔軟である。
  66. SRCNNやARCNNのような以前の低レベル視覚CNNは、デコンボリューション層が畳み込み層に等しいs = 1の特殊なケースと見ることができる。
  67. s> 1の場合、時間複雑度は再構成品質を犠牲にしてs2倍に減少する。
  68. (3)中間層で1×1のフィルタをすべて採用すると、MLP(Multi-Layer Perception)[3]と非常によく似た働きをする。
  69. MLPは各パッチを個別に処理します。
  70. 入力パッチは、ストライドsで画像から抽出され、出力パッチは、重複領域上で集約(すなわち、平均化)される。
  71. 私たちのフレームワークでは、パッチはストライドで抽出されますが、コンボリューションの方法で抽出されます。
  72. 出力パッチはまた、オーバーラッピング領域上で集計される(すなわち、総和)が、デコンボリューション方式で行われる。
  73. 中間層のフィルタサイズが1に設定されている場合、各出力パッチは単一の入力パッチによって純粋に決定され、これはMLPとほぼ同じです。
  74. しかし、中間層のフィルタサイズを大きくすると、出力パッチの受容野が増え、パフォーマンスが大幅に向上します。
  75. これはまた、なぜCNN構造が従来のMLPよりも理論的に優れているのかを明らかにする。
  76. ここでは、一般的なフレームワーク
  77. n1(f1)-n2(1)-n3(f3)×m-n4(1)-n5 [f5] -s、(12)
  78. ここで、fおよびnはそれぞれフィルタサイズおよびフィルタ数を表す。
  79. 中間層の数はmと表され、より深いネットワークを設計するために使用することができる。
  80. 速度にもっと焦点を当てると、次の実験でm = 1に設定します。
  81. 図4は、新しいフレームワークの全体的な構造を示しています。
  82. このフレームワークは、ノイズ除去やブレ除去のような、より低レベルのビジョン問題に適用できると考えていますが、これはこのホワイトペーパーの対象外です。

 

5.単純―複雑変換

 

  1. ディープ・モデルでの学習の移転は、効果的な初期化方法を提供します。
  2. 実際、[11]で報告されているように、従来の初期化戦略(すなわち、固定標準偏差[17]を有するガウス分布からランダムに引き出される)は、非常に深いモデルを訓練するのに適していないことが分かっている。
  3. この問題に対処するために、Heら[11]は整流器の非線形性のためのロバストな初期化法を導く、Simonyan et al。 [32]初期化のために浅いネットワーク上で事前に訓練された特徴を使用することを提案する
  4. 低レベルの視覚問題(例えば、超解像度)では、4つの層を越えてネットワークを訓練すると、多数の訓練画像(例えば、ImageNet)が提供されるとしても、収束の問題に遭遇することが観察される[6]。
  5. 我々はまた、AR-CNNのトレーニングプロセス中にこの難しさを満たしています。
    この目的のために、私たちは、「簡単ハード転送」の直感的な考えに従って、低レベルのビジョンネットワークを訓練する際のいくつかの転送設定を体系的に調査します。
  6. 具体的には、学習したフィーチャを比較的簡単なタスクで再利用して、より深いネットワークまたはより難しいネットワークを初期化します。
  7. 興味深いことに、 "easy-hard transfer"という概念は、ニューロコンピューティング研究[10]ですでに指摘されています。ここでは、簡単な差別の事前訓練が第2の困難な学習を助けることができます。
  8. 正式には、ベース(またはソース)タスクをA、ターゲットタスクをBi、i∈{1,2,3}と定義する。
  9. 図5に示すように、ベースネットワークbaseAは、圧縮品質qAを有する標準的な圧縮スキームを使用して画像が圧縮される大規模なデータセットdataAで訓練された4層AR-CNNである。
  10. baseAのすべてのレイヤーは、ガウス分布からランダムに初期化されます。
  11. baseAの1つまたは2つのレイヤーを異なるターゲットタスクに転送します(図5参照)。
  12. このような転送は、以下のように記述することができる。
  13. 浅いモデルから深いモデルへの変換
  14. [7]で示されるように、5層ネットワークは、初期化パラメータおよび学習速度に敏感である。
  15. このようにして、baseAの最初の2つのレイヤーを5層のネットワークターゲットB1に転送します。
  16. 次に、残りのレイヤーをランダムに初期化し、すべてのレイヤーを同じデータセットdataAに向けてトレーニングします。
  17. これは概念的には画像分類[32]に適用された概念と似ていますが、このアプローチは、低レベルの視覚問題では検証されていません。
  18. 高品質から低品質への転送
  19. 低圧縮品質の画像は、より複雑なアーチファクトを含む。
  20. ここでは、高圧縮品質の画像から学んだ機能を出発点として、DCNのより複雑な機能を学習するのに役立ちます。
  21. 具体的には、ターゲットB2の第1の層は、baseAからコピーされ、より低い圧縮品質qBで圧縮された画像に訓練される。
  22. 実際のユースケースへの標準転送
  23. 次に、標準の圧縮スキームで学習されたフィーチャが、異なるレベルの再スケーリングおよび圧縮によってより複雑なアーティファクトを含む他の実際のユースケースに一般化できるかどうかを調べます。
  24. baseAの最初のレイヤーをネットワークターゲットB3に転送し、新しいデータセットのすべてのレイヤーを訓練します。
  25. 議論
  26. 比較的簡単な作業から学ぶ機能はなぜ有用なのだろうか?
  27. 第一に、十分に訓練されたネットワークの機能は、良い出発点を提供することができます。
  28. その後、より深いモデルの残りの部分は、収束しやすい浅いモデルとみなすことができます。
  29. 第二に、さまざまなタスクで学習された機能には常に共通点があります。
  30. 例えば、図6は、異なるJPEG圧縮品質の下で学習された特徴を示す。
  31. 明らかに、高品質のフィルタa、b、cは、低品質のフィルタa0、b0、c0に非常に類似している。
  32. この種の機能は、微調整中に再利用したり改善したりすることができ、収束をより迅速かつ安定したものにします。
  33. さらに、困難な問題の深いネットワークは、過度に大きな仮説空間を持つ不十分なバイアスのある学習者と見なすことができ、したがって、過適合する傾向がある。
  34. 我々が調査したこれらのいくつかの転送設定は、学習者がより一般性の高い概念を獲得するための良い偏見を導入する。
  35. セクションVI-Cの実験結果は、上記の分析を検証する。


 

6.実験

 

  1. 私たちは、BSDS500データセット[1]をトレーニングセットとして使用します。
  2. 具体的には、その独立したトレーニングセット(200画像)とテストセット(200画像)がトレーニングに使用され、検証セット(100画像)が検証に使用されます。
  3. データセットをより効率的に使用するために、我々は2段階でトレーニング画像のデータ増強を採用する。
  4. 1)スケーリング:各画像は、9,0.8,0.7、および0.6のファクタによってスケーリングされる。
  5. 2)回転:各画像は、90度、180度、270度だけ回転される。
  6. そして、私たちの増強された訓練セットは、元の5×4 = 20倍です。
  7. 本論文では、YCrCb空間における輝度チャネルの復元にのみ焦点を当てる。
  8. トレーニング画像対{Y、X}は、以下のように準備される。
  9. トレーニングセット内の画像は、24×24のサブ画像4X = {Xi} ni = 1に分解される。
  10. 次に、トレーニングサンプルから圧縮サンプルY = {Yi} ni = 1が生成される。
  11. サブ画像は、20のストライドを有する地上真理画像から抽出される。
  12. したがって、拡張された400×20 = 8000のトレーニング画像は、1,870,336のトレーニングサンプルを提供することができる。
  13. フィルタサイズが1より大きいレイヤにはゼロ埋め込みを採用します。
  14. トレーニングはCaffeパッケージ[14]で実装されているため、デコンボリューションフィルタは(s-1)ピクセルの境界線を持つフィーチャマップを出力します(sは最初の畳み込みレイヤのストライドです)。
  15. 具体的には、24×24入力Yiが与えられると、AR-CNNは(24-s + 1)×(24-s + 1)出力を生成する。
  16. したがって、地面真理値サブ画像Xiの左上(24-s + 1)×(24-s + 1)画素と比較することにより、損失(式(8))を計算した。
  17. トレーニング段階では、[6]、[12]に従い、最後の層ではより小さい学習率(5×10-5)を使用し、残りの層では比較的大きな学習率(5×10-4)を使用します。
  18. JPEG圧縮画像の実験
  19. 我々は、JPEG圧縮画像を復元するために、デブロッキング指向の方法SA-DCT [8]や深いモデルSRCNN [6]や復元ベースのRTF [13]を含むいくつかの最先端のアルゴリズムと我々の方法をまず比較する。
  20. 他の圧縮アーティファクト削減手法(RTF [13]など)と同様に、標準JPEG圧縮方式を適用し、MATLABJPEG品質設定q = 40、30、20、10(高品質から低品質)を使用します
  21. JPEGエンコーダLIVE1データセット[31](29イメージ)をテストセットとして使用して、定量的および定性的な両方のパフォーマンスを評価します。
  22. LIVE1データセットには、さまざまなプロパティを持つイメージが含まれています。
  23. これは、超解像度[39]と同様に画質評価[36]にも広く使用されています。
  24. 包括的な定性評価を行うために、PSNR、構造類似性(SSIM)[36] 5、PSNR-B [42]を品質評価に適用します。
  25. 我々は、PSNR-Bの使用を強調したい。
  26. ブロックされた画像とブロックされていない画像を評価するために特別に設計されています。
  27. 64(9)-32(7)と表されるベースラインネットワーク設定-f1 = 9、f2 = 7、f3 = 1、f4 = 5、n1 = 64、n2 = 32、n3 = 16およびn4 = -16(1)-1(5)または単純にAR-CNNである。
  28. 特定のネットワークは、各JPEG品質に対して訓練されています。
  29. パラメータは標準偏差が001のガウス分布からランダムに初期化されます。
  30. 1)SA-DCTとの比較:
  31. まず、AR-CNNとSA-DCT [8]を比較する。これは最先端のデブロッキング指向の方法と広く考えられている[13]、[19]。
  32. PSNR、SSIM、PSNR-Bの量子化結果を表2に示す。
  33. 全体として、当社のAR-CNNは、すべてのJPEG品質および評価基準でSA-DCTを大幅に上回っています。
  34. PSNR-BのゲインはPSNRのゲインよりもはるかに大きいことに注意してください。
  35. これは、AR-CNNがブロッキングアーチファクトの少ない画像を生成できることを示している。
  36. 我々は、[8] 6で使用された5つの古典的テスト画像についても評価を行い、同じ傾向を観察した。
  37. 結果を表IIIに示す。
  38. 視覚品質を比較するために、図10のq = 10,20で復元された画像をいくつか提示する。
  39. 定性的な結果から、AR-CNNの結果は、SA-DCTと比較して、ブロッキングおよびリンギングのアーティファクトがはるかに少なく、よりシャープなエッジを生成できることがわかりました。
  40. 視覚品質は、最先端の方法と比較して、あらゆる面で大幅に改善されている。
  41. さらに、AR-CNNは実装速度においてSA-DCTより優れている。
  42. SA-DCTでは、256×256の画像を処理するのに4秒かかる。
  43. AR-CNNは5秒しかかかりません。
  44. これらはすべて、Intel I3 CPU(1GHz)、16GB RAM搭載のPCでC ++を使用して実装されています。
  45. 2)SRCNNとの比較:
  46. セクションIII-Bで論じたように、SRCNNは圧縮成果物削減には適していません。
  47. 比較のために、異なる設定の2つのSRCNNネットワークを訓練する。
  48. (i)元のSRCNN(9-1-5)(f1 = 9、f3 = 5、n1 = 64、n2 = 32)。
  49. (ii)追加の非線形マッピング層(f3 = 1、n3 = 16)を有するより深いSRCNN(9-1-1-5)。
  50. 彼らはすべて、セクションVIのようにトレーニングと検証のためにBSDS500データセットを使用します。
  51. 圧縮品質はq = 10です。
  52. LIVE1データセットについて試験した定量的結果を表IVに示す。
  53. 2つのSRCNNネットワークがすべての評価基準で劣っていることがわかりました。
  54. 図7に示す収束曲線から、学習段階の初めからAR-CNNが高いPSNRを達成することは明らかです。
  55. さらに、図11のそれらの復元画像から、2つのSRCNNネットワークはすべて、ノイズの多いエッジおよび不自然な平滑領域を有する画像を生成することがわかる。
  56. これらの結果は、セクションIII-Bにおける当社の声明を示している。
  57. 深いモデルを訓練することの成功は、問題の包括的な理解とモデル構造の慎重な設計を必要とする。
  58. 3)RTFとの比較:
  59. RTF [13]は最近の最先端の修復指向の方法である。
  60. ブロッキングコードがなければ、リリースされたデブロッキング結果としか比較できません。
  61. 彼らのモデルはBSDS500データセットのトレーニングセット(200画像)で訓練されていますが、すべての画像は5倍にダウンスケーリングされています[13]。
  62. 公正な比較を行うために、同じハーフサイズの200枚の画像で新しいAR-CNNネットワークを訓練します。
  63. テストは、BSDS500データセットのテストセット(係数5でスケーリングされた画像)で実行されます。これも[13]と一致しています。
  64. 2つのRTFバリアントと比較します。
  65. 1つはフィルタバンクを使用し、PSNR用に最適化されたプレーンRTFです。
  66. もう1つは、ベースメソッドとしてSA-DCTを含み、MAEに最適化されたRTF + SA-DCTです。
  67. 後で、すべてのRTF変種の中で最高のPSNR値を達成する[13]。
  68. 表5に示すように、我々は、RTFとSA-DCTの組み合わせよりも、特により代表的なPSNR-Bメトリックの下で、プレーンRTFよりも優れた性能、さらにはさらに優れた性能を得る。
  69. さらに、このような小さなデータセットでのトレーニングは、AR-CNNの能力を大幅に制限していました。
  70. より多くのトレーニング画像があれば、AR-CNNのパフォーマンスはさらに向上します。
  71. JPEG 2000画像の実験
  72. 序文で述べたように、提案されたAR-CNNはさまざまな圧縮方式に効果的です。
  73. このセクションでは、JPEG 2000標準についての実験を行い、最先端の方法である固定アンカー回帰(A +)[29]と比較します。
  74. 公正な比較を行うために、我々はデータセットとソフトウェアの選択についてA +に従っています。
  75. 具体的には、学習用の91画像データセット[40]とテスト用の16個の古典画像[18]を採用する。
  76. 画像は、Kakaduソフトウェアパッケージ7のJPEG 2000エンコーダを使用して圧縮されます。
  77. また、A +と同じトレーニング戦略を採用しています。
  78. 1ピクセルあたり1ビット(BPP)で劣化した画像をテストするために、トレーニング画像は、0.1BPPの代わりに0.3BPPで圧縮される。
  79. [29]に示されているように、回帰者はより低い圧縮率でアーチファクトパターンをより簡単に拾うことができ、より良い性能をもたらす。
  80. JPEG実験の場合と同じAR-CNNネットワーク構造(64(9)-32(7)-16(1)-1(5))を使用する。
  81. 図8は、学習した第1層フィルタのパターンを示しており、JPEG画像とは大きく異なります(図6参照)。
  82. A +とは別に、我々の結果を別の2つの方法、SLGP [18]およびFoE [28]と比較する。
  83. 16個のテスト画像のPSNRゲインを図9に示します。
  84. 我々の方法は、ほとんどのテスト画像で他のものより優れていることが観察される。
  85. 平均的な性能については、353dBのPSNR利得、0.312dBのA +、0.192dBのSLGPおよび0.115dBのFoEを達成する。
  86. このような困難なシナリオでは、JPEG2000が1 BPPであることで改善が既に重要であることに注意してください[29]。
  87. 図12はいくつかの定性的結果を示し、我々の方法はA +よりも良好なPSNRおよびSSIMを達成する。
  88. しかし、図9の10番目の画像では、AR-CNNが他の方法よりも劣っていることがわかります。
  89. この画像の復元結果を図13に示します。
  90. AR-CNNの結果は依然として視覚的に快適であり、低いPSNRは主に平滑領域における色収差によるものであることが観察される。
  91. 上記の実験は、異なる圧縮標準を扱う際のAR-CNNの一般化能力を実証している。
  92. トレーニング中に、セクションVI-Aで述べたランダム初期化を使用してAR-CNNを収束させるのが難しいこともわかります。
  93. 我々は、移転学習戦略を採用することによって問題を解決する。
  94. 具体的には、十分に訓練された3層ネットワークの第1層フィルタを4層AR-CNNに転送したり、JPEG画像に訓練されたAR-CNNの機能を再利用することができます。
  95. これらは、さまざまな「簡単ハード転送」戦略を指します。浅いモデルから深いモデルを転送し、標準を実際のユースケースに転送します。
  96. これについては、次のセクションで詳しく説明します。
  97. Easy-Hard Transferの実験
  98. 私たちは、JPEGで圧縮された画像のさまざまな「簡単ハード転送」設定の実験結果を示します。
  99. 設定の詳細を表VIに示します。
  • base-q10は、BSDS500 [1]データセットで訓練された4層AR-CNN 64(9)-32(7)-16(1)-1(5) 400画像)を圧縮品質q = 10で圧縮する。
  • パラメータは、ゼロ平均および標準偏差001でガウス分布からランダムに描画することによって初期化されます。
  • 図15~図17は、検証セット上の収束曲線を示す。
  • 1)浅いモデルから深いモデルに移す:
  • 表6では、より深い(5層)AR-CNN 64(9)-32(7)-16(3)-16(1)-1(5)を「9-7-3-1- 5 "となる。
  • 図15の結果は、4層ネットワークから転送されたフィーチャが、5層ネットワークを正常に訓練できることを示しています。
  • 従来の初期化方法を使用して5層ネットワークを直接トレーニングすることは信頼性が低いことに注意してください。
  • 具体的には、学習率の異なるグループを徹底的に試しましたが、それでもコンバージェンスは観察できませんでした。
  • さらに、深部モデルの訓練にも非常に効果的である、Heらの方法[11]を用いるよりも、「より深く移動する」収束が速く、より良い性能を達成する。
  • 我々はまた、構造64(9)-32(7)-16(1)-16(1)-1(5)および64(9)-32(1)-32 (1)-1(5)と同じ傾向を示した。
  • 2)高品質から低品質への転送:
  • 結果を図16に示す。
  • 明らかに、転送された機能を備えた2つのネットワークは、そのトレーニングよりも一番早く収束します。
  • たとえば、平均PSNRが77dBに達するには、「転送1レイヤー」が1.54×108のバックプロックしか必要としません。
  • これは「ベース-q10」の約半分です。
  • さらに、「転送1レイヤ」は、トレーニングフェーズ全体を通してわずかなマージンだけ「転送2レイヤ」よりも優れています。
  • この理由の1つは、最初のレイヤーを初期化するだけで、新しいデータセットに適応する際の柔軟性がネットワークに与えられることです。
  • これはまた、良い出発点がより高い収束速度でより良いネットワークを育成するのに役立つことを示しています。
  • 加速戦略の実験
  • このセクションでは、提案された加速戦略の有効性を実証するために一連の制御実験を実施します。
  • セクションIVの説明に続いて、レイヤー分解、大規模なストライドレイヤーの採用、マッピングレイヤーの拡張によってベースラインのAR-CNNを段階的に変更します。
  • ネットワークは、品質q = 10の下でJPEG画像で訓練される。
  • Fast AR-CNNのパフォーマンスをさまざまな圧縮品質(q = 10,20,30,40)でさらにテストします。
  • すべての修正されたネットワークがベースラインモデルよりも深いので、我々は提案された転送学習戦略(より深いモデルへの浅いモデルへの移行)を採用し、迅速かつ安定したトレーニングを行う。
  • 基本ネットワークはセクションVI-C1のように "base-q10"である。
  • 全ての定量結果を表VIIに示す。
  • 1)レイヤ分解:
  • レイヤー分解戦略は、「機能強化」レイヤーを「縮小」レイヤーと「エンハンスメント」レイヤーに置き換え、変更されたネットワークに到達します(64(9)-32(1)-32(7)-16 -1(5)。
  • 実験結果は表7に示されており、そこから、「より深く置き換える」がすべてのメトリックにおいて「ベース-q10」とほぼ同じ性能を達成することが分かる。
  • これは、レイヤー分解がパフォーマンス損失をほとんど伴わずにネットワークパラメータを削減する効果的な戦略であることを示しています。
  • 2)ストライドサイズ:
  • 次に、大きなストライドの畳み込みレイヤーとデコンボリューションレイヤーを導入し、ストライドサイズを変更します。
  • 一般的に、より大きなストライドは、より狭い特徴マップおよびより速い推論をもたらすが、再構成品質が悪化する危険性がある。
  • 良好なトレードオフの設定を見つけるために、表7の「ストライド」の部分に示すように、ストライドサイズの異なる実験を行います。
  • s = 1、s = 2、s = 3のネットワーク設定は、64(9)-32(1)-32(7)-16(1)-1(5)、64(9)-32(1) -32(7)-16(1)-1 [9] -s2および64(9)-32(1)-32(7)-16
    表7の結果から、すべてのメトリックで「s = 1」と「s = 2」の間にわずかな差しかないことがわかります。
  • しかし、ストライドサイズをさらに拡大すると、パフォーマンスが大幅に低下します
  • たとえば、PSNR値が「s = 2」から「s = 3」に2 dB以上低下します。
  • 図18の収束曲線も同様の傾向を示し、「s = 3」は検証セット9上で「s = 1」および「s = 2」に劣る性能を達成する。
  • パフォーマンスの損失はほとんどなく、5倍も速く、ストライドs = 2を使用すると、パフォーマンスと時間の複雑さが確実にバランスします。
  • したがって、以下の実験においてストライドs = 2を採用する。
  • 3)マッピングフィルタ:
  • セクションIVで述べたように、パフォーマンス損失を補うためにマッピングフィルタの数を増やすことができます。
  • 表7の「マッピングフィルタ」の部分では、マッピングフィルタのみが異なる一連の実験を比較する。
  • 具体的には、ネットワーク設定は、n4 = 16,48,64,80の場合、64(9)-32(1)-32(7)-n4(1)-1 [9] -s2です。
  • 図19-10に示す収束曲線は、その差異をよりよく反映することができます。
  • 明らかに、より多くのフィルターを使用するとパフォーマンスは向上しますが、この改善はn4 = 64を超えては殆どありません。
  • したがって、我々はn4 = 64を採用し、これはセクションIVのコメントと一貫している。
  • 最後に、64(9)-32(1)-32(7)-64(1)-1 [9] -s2の最適なネットワーク設定、つまりFast AR-CNNがベースラインモデルと同様のパフォーマンスを達成することがわかります64(9)-32(7)-16(1)-1(5)であるが、5倍の速さである。
  • 4)JPEG品質:
  • 上記の実験では、主に非常に低品質のq = 10に焦点を当てています。
  • ここでは、異なる圧縮品質での新しいネットワークの容量を調べたいと考えています。
  • 表7の「JPEG品質」の部分では、高速AR-CNNと品質q = 10,20,30,40のベースラインAR-CNNを比較します。
  • たとえば、「高速q10」および「ベースq10」は、64(9)-32(1)-32(7)-64(1)-1 [9] -s2および64(9)-32 )-16(1)-1(5)をそれぞれ品質q = 10にする。
  • 定量的な結果から、Fast AR-CNNはq = 10、q = 20などの低品質ではAR-CNNに匹敵するが、q = 30やqなどの高品質ではAR-CNNに劣ることがわかった= 40。
  • この現象は妥当である。
  • 低品質の画像には情報がほとんど含まれていないため、(大きなストライドを使用して)疎な方法でフィーチャを抽出することは、復元品質にほとんど影響を与えません。
  • 逆に、高品質の画像については、隣接する画像パッチが大きく異なる場合がある。
  • だから大きなストライドを採用すると、復元に役立つ情報が失われてしまいます。
  • それにもかかわらず、提案されたFast AR-CNNは、様々な圧縮品質に関する最先端の方法(セクションVI-Aに示されるように)よりも優れている。

 

 

7.結論

 

  1. 低レベルの視覚問題に深いモデルを適用するには、問題自体を深く理解する必要があります。
  2. 本稿では、圧縮プロセスを慎重に検討し、様々な圧縮アーチファクトを扱う際に非常に有効な4層畳み込みネットワークAR-CNNを提案する。
  3. 次に、優れたパフォーマンスを維持しながら時間の複雑さを減らすための2つの加速戦略を提案します。
  4. 私たちはさらに、より深く、より良いネットワークのトレーニングを容易にすることができる3つの簡単な転送設定を体系的に調査し、低レベルの視覚問題における転送学習の有効性を検証します。