画像に関しては画像検索などの実績の積み重ねがあるし
基礎的な理論の積み重ねがあるけど
音声って基礎的な理論すら確立していないから
実現するの困難でAIで出来るのは最後だろうと考えられているくらいだぞ

将棋AIみたいな裏道が発見されれば大幅な
短縮できるかもしれないがそれでも7年くらいかかるだろう