画像認識（物体検知）

　YOLOとは ”You Only Look Once: Unified, Real-Time Object Detection”の略でディープラーニングの内, いわゆるEnd-to-End(すべての工程をdeep neural networkで処理)の一手法になります*1。

　これまでの画像認識では, Regions with Convolutional Neural Networks(R-CNN)などの手法が用いられてきました。R-CNNなどで使われている手法では，物体らしさの高い領域を見つける手法であるSelective Searchなどを用います。画像中から物体と思われる領域を検出して, それをdeep neural networkの入力として識別処理を行うという流れで物体検出を行っていました。しかし本手法では抽出した領域全てをdeep neural networkの入力とするため，処理時間がかかる点がネックでした。一方でYOLOは非常に高速であり, R-CNNを含む他のすべての検出方法を大幅に上回ることが示されています。

*1 Redmon et al., You Only Look Once: Unified, Real-Time Object Detection, 2015

Fig.1 YOLOによる物体検出

Fig.2 実際の人間とforklift truckの識別