Google Cloud Vision APIがどんなものか調べると、以下のものを検出できるようなので、動画もうまい具合にシーン検出して画像として抜き出して、タグ候補をバババババって出せそうな気がする。
* 画像内に写っている物体の検知、分類
* 画像中の文章の抽出(OCR機能)
* 画像に写っている顔情報、表情などの情報の検知
* 画像中の構造物などから、名所の検知
* 画像に含まれる有名なロゴの検知
* 画像に有害なコンテンツが含まれているかの判別
* 画像に関する情報(色情報など)を取得
#小ネタ
» Box、画像コンテンツ管理にグーグルの機械学習を導入 - CNET Japan https://japan.cnet.com/article/35105966/