Non-Maximum Suppressionを世界一わかりやすく解説する

2019/08/20

最近は機械学習にのめり込んでいます。

今、勉強しているのはディープラーニングを用いた物体検出に関してです。その原点とも言えるR-CNNを勉強しています。

本題に入ります。

R-CNNの論文の中に「Non-Maximum Suppression」というアルゴリズムが登場します。

なんとか理解できましたが、調べるのに時間がかってしまいました( ；∀；)

他にも困っている人がいると思うので、Non-Maximum Suppressionとは何なのかを説明しようと思います。

R-CNNについて

R-CNNについては公式の論文を読むことをオススメします。

この場では説明しません(~_~;)

Non-Maximum Suppressionについて

論文に登場

Non-Maximum Suprressionは、R-CNNの公式の論文にこう記されています。

Given all scored regions in an image, we apply a greedy non-maximum suppression (for each class independently) that rejects a region if it has an intersection-over-union (IoU) overlap with a higher scoring selected region larger than a learned threshold.

画像の全ての候補領域に得点が付けられている場合、ある領域に、より高い得点で選択され、学習された閾値より大きな値を持つ領域とのIoU値が重複した場合、その領域を排除するnon-maximum suppressionを（各々クラスに対して独立して）適用する。

（出典：http://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf）

下手くそな翻訳ですが、直訳すると上のような意味になります。

Non-Maximum Suppressionとは何なのか

一言で説明すると、Non-Maximum Suppressionとは、同じクラスとして認識された重なっている状態の領域を抑制するためのアルゴリズムです。

以下で画像を交えながら説明します。

例えば、スティーブ・ジョブズの顔をR-CNNで検出しようと考えます。（余談ですが彼は私が最も尊敬する人物です。）

良い笑顔です（笑

R-CNNでは以下の手順で検出を行います。

Selective Searchを用いて候補領域を切り出す。
ニューラルネットワークを用いて、候補領域から特徴ベクトルを抽出する。
サポートベクトルマシン（通称：SVM）を用いて、特徴ベクトルから顔かどうか判断する。
Non-Maximum Suppressionを用いて、重複している領域を抑制する。

このプロセスを経て、最終的な顔の検出を行います。

本来は４番のNon-Maximum Suppressionの処理まで行うのですが、以下の画像では３番まで処理を行った結果を示しています。

Non-Maximum Suppressionを適用しない場合、同じ顔が複数検出されてしまいす。これではダメですよね。
上手くやって１つとして検出したいところです。

これができるのが Non-Maximum Suppression なのです！

Non-Maximum Suppressionを適用すると、以下の画像のように顔を１つとして検出することができます。

これが望んでいる結果ですよね。

アルゴリズムについて

Non-Maximum Suppressionを説明する前に説明しなければいけないことがあります。

それは、IoU値です。

IoUとは、Intersection over Unionの略です。

“百聞は一見にしかず”ということわざがある通り、以下の画像を見ていただければ一発で理解できると思います。

IoU値

IoU値とは、画像の重なりの割合を表す値です。

IoU値が大きいほど、画像が重なっている状態ということになります。
IoU値が小さいほど、画像が重なっていない状態ということになります。

IoU値=0のとき、画像は全く重なっていない状態ということになります。
IoU値=0.5のとき、画像は半分重なっている状態ということになります。
IoU値=1.0のとき、画像は完全に重なっている状態ということになります。

さて、本テーマであるNon-Maximum Suppressionの話に戻ります。

重複している領域は、上で説明したIoU値を用いて行います。

例えば、右下の領域を基準として、IoU値の閾値を0.3とします。

右下の領域と他の２枚の領域のIoU値は、閾値よりも大きいのは明らかですよね？（重なりが多いことを意味しています。）

なので、他の２枚の領域は抑制（suppression）します。

すると、以下のようになります。

見事、領域が１つになりました！！
これこそが望む結果です！！

逆に、IoU値が閾値よりも低い領域は抑制せずに残しておくというわけです。

話をまとめます。

Non-Maximum Suppressionというのは難しいことをしているわけではありません。

ただ単に、重なりの大きい領域を抑制（削除）しているだけにすぎません。

抑制のためにIoU値という領域の重複具合を示す値を用いています。

IoU値が大きければ、領域の重なりが大きいとみなして一方の領域を抑制（削除）します。

逆に、IoU値が小さければ、領域の重なりが小さいとみなして両方の領域をそのままにしておきます。

ただ、これだけのことです。

このアルゴリズムを使うと何が良いのか？

最後に、このアルゴリズムの何が良いのかを考えてみましょう。

そのために、考えてもらいたいことがあります。

逆に、Non-Maximum Suppressionを使わないとすると、どのようにして領域を絞れば良いでしょうか？

パッと考えて思いつくのは、以下の画像の青枠のように、重なっている全ての領域を囲うことです。

（とりあえず、赤枠も残していますが、本番では消します。）

これならNon-Maximum Suprressionを使わなくても済むだろうと思ったあなた、甘いです！！w

これだと上手くいかない場合があるのです。

上手くいかない場合とは、以下のような場合です。

例えば、丁度よく２台の自動車が検出されたとします。

上の自動車２台を、ただ単純に囲うとどうなるでしょうか？

あら！？２台が１台として検出されてしまいましたね。

そうです、これではダメなんです。

ただ単純に囲うだけだと、２つ以上の同じ物体が近くにあると１つの物体として検出されてしまうのです。

なぜこうなってしまうのかというと、領域の重複具合を考慮していないからです。
そのためにNon-Maximum Suppressionでは、IoU値という数値を用いています。

Non-Maximum Suppressionを適用した場合、どうなるでしょうか？

当然、上手くいきます！

それぞれの領域とのIoU値は、閾値（例えば0.3）よりも明らかに小さいからです。

そういう場合は、抑制されないのでしたね。

以上がNon-Maximum Suppressionです。

サンプルのソースコード

Non-Maximum SuppressionのサンプルコードはこちらのブログにPythonで書かれたものが紹介されていました。

ぜひ、参考にしてみてください！

- 技術系

Comment

物体検出、セグメンテーションをMask R-CNNで理解してみる (勉強中) | IT技術情報局より:

2018年4月18日 15:52

[…] がある場合、IoUが閾値C以上の候補からIoUが最大となる候補だけ残しその他は除外するという手法です。 IoU、NMSについてはこちらを参考にしてください。参考：https://meideru.com/archives/3538 […]

返信
ディープラーニングを使った物体検知の大本となったR-CNNまとめ | 創造日記より:

2018年9月15日 01:00

[…] 物体検出におけるNon-Maximum Suppressionのアルゴリズム | meideru blog […]

返信
3_3 posenet – HIM.CO より:

2018年10月11日 15:55

[…] 厳密に正である必要がある。２つの部位は、互いにnmsRadiusピクセルよりも離れていない場合、抑制し合う。デフォルトは20。「物体検出におけるNon-Maximum Suppressionのアルゴリズム」参照。 […]

返信
Structured Domain Randomization: Bridging the Reality Gap by Context-Aware Synthetic Data を読み解く〜その2〜 | おとうとのものづくりブログより:

2019年8月25日 21:09

[…] IOUについてはこちらhttps://meideru.com/archives/3538 […]

返信
AI実装検定S級対策！「画像処理100本ノック」学習記録・カンペ | WATLAB -Python, 信号処理, AI- より:

2020年12月21日 23:49

[…] 外部サイト様：「Non-Maximum Suppressionを世界一わかりやすく解説する」 […]

返信
pythonでNMSを実装し、複数の矩形をマージする | PythonやAIの実装例やテクニックを紹介するブログ(Tensorflowとかnumpy等) より:

2021年2月6日 23:23

[…] 方がいらっしゃいますので、こちらの外部記事をご参照ください。 […]

返信

Message コメントをキャンセル

PREV: 「ゴースト・イン・ザ・シェル」が爆死した理由
NEXT: 10万円貰ったんだが何に使おうか