主要内容

アンカ,ボックスによるオブジェクトの検出

深層学習ニューラルネットワークを使用したオブジェクト検出により,イメージ内のオブジェクトの位置とサイズを予測するための迅速で正確な手段が得られます。ネットワ,クは,オブジェクトのスケ,ルに関係なく,有効なオブジェクトを適時に返すことが理想的です。アンカーボックスを使用すると,深層学習ニューラルネットワークフレームワークの検出部分の速度と効率性が向上します。

アンカ,ボックスとは

“アンカ,ボックス”は,特定の高さと幅の事前定義された境界ボックスのセットです。これらのボックスは,検出する特定のオブジェクトクラスのスケールおよび縦横比を取得するために定義され,通常,学習データセットに含まれるオブジェクトサイズに基づいて選択されます。検出中,事前定義されたアンカボックスはメジ全体でタル配置されます。ネットワークは,確率や,すべてのタイル配置されたアンカーボックスの背景,十字路口在联盟(借据)およびオフセットなどのその他の属性を予測します。予測は,個々のアンカ,ボックスを調整するために使用されます。別個のオブジェクトサ▪▪ズのアンカ▪▪ボックスを複数定義できます。アンカ,ボックスは,固定された初期境界ボックスの推定です。

ネットワークが境界ボックスを直接予測することはありませんが,タイル配置されたアンカーボックスに対応する確率と調整を予測します。ネットワ,クは,定義されたすべてのアンカ,ボックスに関する予測の一意なセットを返します。最終特徴マップは,各クラスのオブジェクト検出を表します。アンカーボックスを使用することで,ネットワークは複数のオブジェクト,さまざまなスケールのオブジェクトおよび重複するオブジェクトを検出できます。

アンカ,ボックスを使用する利点

アンカ,ボックスを使用する場合,すべてのオブジェクトの予測を一度に評価できます。アンカーボックスにより,すべての考えられる位置で個別の予測を計算するスライディングウィンドウを使用してイメージをスキャンする必要がなくなります。スライディングウィンドウを使用する検出器の例には,集約チャネル特徴(ACF)または勾配ヒストグラム(猪)機能に基づく検出器があります。アンカーボックスを使用するオブジェクト検出器は,イメージ全体を一度に処理でき,リアルタイムのオブジェクト検出システムを可能にします。

畳み込みニューラルネットワーク(CNN)が畳み込みの方法で入力イメージを処理できるため,入力内の空間的な位置は,出力内の空間的な位置に関連している可能性があります。この畳み込みの対応は,cnnがメジ全体のメジ特徴を一度に抽出できることを意味します。次に,抽出された特徴は。アンカーブロックを使用することで,イメージの特徴を抽出するためのスライディングウィンドウ手法のコストが置き換えられ,大幅に削減されます。アンカーボックスを使用すると,スライディングウィンドウベースのオブジェクト検出器の3つの段階(検出,特徴の符号化および分類)すべてを含む,効率的な深層学習のオブジェクト検出を設計できます。

アンカ,ボックスのしくみ

アンカーボックスの位置は,ネットワーク出力の位置を入力イメージに戻してマッピングすることで決定されます。プロセスはすべてのネットワ,ク出力に対して複製されます。その結果として,。各アンカ,ボックスは,クラスの特定の予測を表しています。たとえば,下のイメージ内の位置ごとに2つの予測を行うために,2つのアンカーボックスがあります。

各アンカボックスはメジ全体でタル配置されています。ネットワク出力の数はタル配置されたアンカボックスの数と等しくなります。ネットワ,クはすべての出力の予測を生成します。

位置推定誤差と調整

タ▪ル配置されたアンカ▪ボックス間の距離(“ストラ电子邮箱ド”)は,cnn内に存在するダウンサンプリング量の関数です。4から16の間のダウンサンプリング係数が一般的です。これらのダウンサンプリング係数により粗くタイル配置されたアンカーボックスが生成され,これが位置推定誤差につながる可能性があります。

位置推定誤差を修正するために,深層学習オブジェクト検出器はオフセットを学習し,タイル配置された各アンカーボックスに適用して,アンカーボックスの位置とサイズを調整します。

ダウンサンプリング層を削除してダウンサンプリングを削減できます。ダウンサンプリングを削減するには,畳み込み層または最大プ,リング層(convolution2dLayer(深度学习工具箱)maxPooling2dLayer(深度学习工具箱)など)の’プロパティの値を減らします。ネットワ,クの初期の部分で,特徴抽出層を選択することもできます。ネットワークの初期の特徴抽出層は,ネットワークのさらに下方にある層と比較して空間分解能が高くなりますが,抽出するセマンティック情報の量は少なくなる可能性があります。

オブジェクトの検出の生成

最終オブジェクトの検出を生成するために,背景クラスに属するタイル配置されたアンカーボックスが削除され,残ったアンカーボックスは信頼度スコアによってフィルター処理されます。非最大抑制(nms)を使用して信頼度スコアが最も高いアンカボックスが選択されます。网管の詳細にselectStrongestBboxMulticlassを参照してください。

アンカボックスサズ

マルチスケル処理により,ネットワクはさまざまなサズのオブジェクトを検出できます。マルチスケール検出を実現するには,64×64128×128および256×256などのさまざまなサイズのアンカーボックスを指定しなければなりません。学習デタ内のオブジェクトのスケルおよび縦横比を厳密に表すサズを指定します。サ化学键ズの推定の例に化学键いては,学習デ,タからのアンカ,ボックスの推定を参照してください。

関連する例

詳細