ナレーションのテキスト化では限界 連載の前回で、NHKは番組のナレーションや台詞などをすべてテキスト化し、動画のメタデータとして利用しているということを書いた。その話だけを聞くと、番組の中で語られている言葉がすべてテキストデータ化されていれば、その番組の内容はおおむね網羅されて、あとから検索するのに不自由はないように思われる。 しかし、実はそうではない。 たとえば、誰かが動物のクマの動画を探しているとしよう。番組のメタデータを検索してみると、すぐに「クマが歩行者を襲う」「○○地域にクマが出没し、地元は警戒中」といったようなニュース番組の動画がヒットする。でもそのニュースの動画を見てみても、実はクマは出てこない。どちらのニュースも、歩行者を襲ったり出没したりしているクマを撮影はできておらず、おそらく動画に出てくるのは、襲撃現場の数時間後の何もない様子だったり、地域をパトロールしている消防団の