物体検出とOCR

概要

物体検出はコンピュータビジョンの中でも最も基本的で重要な問題の一つであり，画像に映る物体の種類の判別と物体の位置の特定を行うタスクです．物体検出は自動運転・ロボットビジョン・家電・セキュリティ・拡張現実などに応用されています．今回はR-CNNに始まり2016年までの代表的な深層学習ベースの物体検出モデルの紹介とその仕組みについて説明します．また，画像内の文字をテキストデータに変換する技術であるOCRへの応用例も紹介しています．

目的

物体検出モデルが物体を検出する仕組みを理解する．
物体検出モデルのOCRへの応用例を見る．

発表日時

場所: オンライン (Zoom)
日時: 2020年5月24日 13時 - 15時

参考資料

[1] R. Girshick et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation. CVPR, 2014. [arXiv]
[2] K. He et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. ECCV, 2014. [arXiv]
[3] R. Girshick. Fast R-CNN. ICCV, 2015. [arXiv]
[4] S. Ren et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. 2015. [arXiv]
[5] J. Redmon et al. You Only Look Once: Unified, Real-Time Object Detection. CVPR, 2016. [arXiv]
[6] W. Liu et al. SSD: Single Shot MultiBox Detector. ECCV, 2016. [arXiv]
[7] B. Shi et al. Detecting Oriented Text in Natural Images by Linking Segments. CVPR, 2017 [arXiv]