y1 y1 y1 1 Pedestrian Estimation Real-time Using Blob Features Satoshi Yoshinaga, y1 Atsushi Shimada y1 and Rin-ichiro Taniguchi y1 propose a system which estimates how many and where pedestrians are We video sequences" in real-time by following procedures. In the preprocess, in let the neural network learn training data which we generated by giving a we between a set of blob features and the number of pedestrians. correspondence the online process, first, candidate regions are segmented into blobs according In to background subtraction based on a background model. Second, a set of is extracted from each blob and a neural network estimates the number features pedestrians corresponding to each set of features. Background model in the of in which there is at least one person is not updated to prevent the human blob from being embedded in the background. region 1. 3 (1) (2) (3) (3) y1 kyushu University 1 cfl 29 Information Processing Society of Japan
SIG Technical Report IPSJ 2 3 4 5 2. 3 1 Viola 1) Zhao 2) 2 Antonini 3) 3 Kong 4) of mixture Chan texture 5) dynamic 28 6) 1 Kong 2 Kong Chan mixture of dynamic texture Homogeneity Energy Entropy Chan 28 Parzen 3. 1. 2 cfl 29 Information Processing Society of Japan
Input image Feature extraction Segmetation Shadow elimination Background subtraction 1 Neural network Pedestrian estimation Feedback to background model 5 3.1 Parzen 7) Parzen 1 Shadow detection 3.2 6 ( / ) Canny 1 Background subtraction YUV 8) 3.3 3 cfl 29 Information Processing Society of Japan
96 93 84 1132 65 Input signal X 1 X 2 Input layer Hidden layer Hidden layer Output layer Output signal Y Segmentation Plane perspective transformation 2 ( ) + X n -1 X n 3 2 1 1 ( (ROI) homography 3 3 H ) (u; v) (x; y) H ROI (1) 4 31x + h 32y + h 33) =h 11x + h 12y + h 13 u(h (1) + h 32y + h 33) =h 21x + h 22y + h 23 v(h 31x 2 a) (S ) b (S =S a) b (S psb a =S 2 2 3.4 3 n 1 n 4 n 2 2 2 n =6 3 n =7 RPROP 3.5 4 cfl 29 Information Processing Society of Japan
target target 14 14 12 12 8 6 4 8 6 4 (b) (a) 4 2 5 15 2 25 3 35 4 2 5 15 2 25 3 35 4 1 4 4. 1 3 2 1 1 4.1 1 PETS26 9) 24 32 32 235 32 7 431 5 29 4.1.1 2 3.3 1 False-Negative False-Positive 5 5 False-Positive False-Negative 1 False-Positive 1 False-Negative 2 2 False-Negative 4.1.2 3.3 3:2GHz CPU 2GB 1 Pentium4 (a) 1 (b) 2 5 cfl 29 Information Processing Society of Japan
1 1 2 Padestrians 1249 1249 Confirmed 77 199 False-Positive 84 78 False-Negative 161 277 Total-Error 87:1 77:8 Accuracy(%) 6 % 9% 8% 7% 6% 5% 4% 3% 2% % % 2 1 1 2 Segmentation(ms) 49:1 49:1 Pedestrian Estimation(ms) 39:2 3:9 Total(ms) 88:3 53: 2 Segmentation Pedestrian Estimation Total Segmentation Estimation Pedestrian Total 2 fps 2 1 2 2 4msec 1 4.1.3 1 2 1 2 6 1 2 1 2 7(a) 1 2 7(b) 7(a) 1 5% 75% 2 7(b) 1 2 1 6 cfl 29 Information Processing Society of Japan
情報処理学会研究報告 Normalization2 Normalization1 8 8 Accuracy (%) Accuracy (%) Normalization1 6 4 2 Normalization2 6 4 2 2 4 6 8 Range of use for y-axis (%) 図 3 2 2 4 6 8 得られる学習データの量が変化した場合 2 3 2 4. % %+ *%+ "", * %"%, + %,* "" * + ", ** " " 2 3 4.," % * " * )- のデータセットに対するクロスバリデーション! # $ &'' ' 3 学習データの変化に対する精度比較 表 986 Quantity of learning data (frame number) 歩行者が観測される領域に偏りがある場合 3 2 3 2 ' と 正規化法 のようにをスケールパラメータを用いることで ニューラルネットワークに 図 より内部的に特徴量を正規化する方法では 結果的に同じ処理が特徴ベクトルに対し行われ 2 3 4. * 2 3 4. を学習データとして用いた場合におけるフレーム毎の歩行者検出数 ていると考えられる また 図 ) 9 より正規化法 を用いた場合の提案手法では 全学習 データを用いた場合よりも 全体の " 割程度の学習データのみを用いた方が精度がかなり における提案手法の有効性を調べるため 実験 とは別のシーンの映像を用いて実験を行 高くなっていることがわかる これは 過学習が起こったためだと思われる このことは う 本節では らが用いている! +;! 1 / 7 7 < + ; のデー 図 9 で 正規化法 を用いた場合の歩行者数計測では学習データと重複する部分におい タセットを解像度,, にリサイズしたものを用いた このデータセットから, フ て 正規化法 を用いた場合と比べても かなり高い精度で歩行者数を推定出来ていること レーム分の画像を使用し 学習データを作成した 本節では 作成した学習データを, 枚 からも確認できる 以上より 正規化法 は 学習データへの依存度が高いことがわかる ずつ つのデータセット 6 6 に分割し これらのデータセットを用いてクロス 正規化法 を用いるためには 学習データとして用いる映像に注意を払う必要がある バリデーションを行うことで提案手法の有効性を検証する ブロブベースで精度を比較した 実験 提案手法の有効性 結果を表 実験 より 精度と必要とされる学習データの両面から考慮すると 正規化法 を用いた に示す また フレーム毎の歩行者検出数を図 に示す 図 において 網掛 けされている部分は 学習データと重複するフレームである 歩行者数計測が有効であることが分かった そこで実験 では 正規化法 を用いた場合 表 より 分割した つのデータセットのうちのどれを用いても,: 以上の精度で歩行 )**+! "!
Viola, P., Jones, M. and Snow, D.: Detecting pedestrians using patterns of motion 1) appearance", IJCV, Vol.63(2), pp.153 161 (25). and Zhao, T. and Nevatia, R.: Bayesian human segmentation in crowded situations", 2) Vol.2, pp.495 466 (23). CVPR, Antonini, G. and Thiran, J. P.: Counting Pedestrians in Video Sequences Using 3) Trajectory Clustering", IEEE Transactions on Circuits and Systems for Video Vol.16, pp.8 2 (26). Technology, Kong, D., Gray, D. andtao, H.: Counting pedestrians in crowds using viewpoint 4) training", British Machine Vision Conf. (25). invariant Chan, A.B. and Vasconcelos, N.: Mixtures of Dynamic Textures", IEEE Inter- 5) Conference on Computer Vision (25). national Chan, A.B., Liang, Z.-S.J. and Vasconcelos, N.: Privacy Preserving Crowd Moni- 6) Counting People without People Models or Tracking", IEEE Conf. on Computetoring: Vision and Pattern Recognition(CVPR) (28). (28). (141)245 (148)252 Schreer, O., Feldmann, I., Golz, U. and Kauff, P.: FAST AND ROBUST 8) DETECTION IN VIDEOCONFERENCE APPLICATION", 4th IEEE SHADOW Symposium on Video Proces. and Multimedia Comm, pp.371 375 (22). Intern. with IEEE Conference on Computer Vision, I. C. and 26, P. R.: Ninth IEEE 9) Workshop on Performance Evaluation of Tracking and Surveillance International SIG Technical Report IPSJ 3 8 data2 data3 3 data1 data4 data1 data4 3 5. 2 8% fps 1 1 homography 2 ROI 4 homography Parzen 7) Vol.62, pp. " (PETS 26)", http://ftp.pets.rdg.ac.uk/pets26/ ((accessed 28/1/15)). 8 cfl 29 Information Processing Society of Japan