音声認識とテープ起こし

音声認識を用いたテープ起こし

 


テープ起こしを始まる際に「このファイルを音声認識で勝手にテキスト化してくれればいいのに」と、一度は誰もが考えたことがあるはず。

自分でテープ起こしをやろうとするとどうしても時間がかかる。1時間のファイルにどんなに速い人もでも1時間かかる。もちろん、実際に1時間のファイルを1時間で起こせる人はほとんどいない。

だからこそ、パソコンで勝手に音声をテキスト化してくれればいいのにと思う。

こんなめんどうな作業は簡略化できればどんなにいいだろう、なんて。

幸いなことに音声認識の精度は年々、凄まじいスピードで成長を続けている。

スマートフォンについてるのも、その進化を伺わせる精度だ。

しかし、音声認識は現状として録音した音声をテキスト化するまでには至っていない。

そのメリット・デメリットについて考えてみた。

 


1 音声認識の活用法


まだ録音した音声を活字にする精度は確かではない。

だからといって音声認識がまるで使えないというわけではない。音声認識は異なる声で複数に喋られることに対する精度はまだまだだが、アナウンサーやニュース原稿などのはっきりとした口調で同じ人間が喋る音声に対しては、かなりの制度で聞き起こせると言っていいだろう。

それをテープ起こしに活かすためには、どうすればいいか。

複数の人間が同時にしゃべるのが駄目なら、その音声を一人の人間が順番に話すように変換してあげればいいわけだ。録音した音声を話し手がもう一度、発声して音声認識に吹き込むことで、精度の高いテープ起こしが行える。


2 音声認識とタイピングのスピード


音声認識とタイピングではやはり音声で文章を打ったほうが早くなることの方が多い。

タイピングに慣れた人ですら、5回/秒でしか打てない。ローマ字表記で大体1秒間に2文字起こせればいいほうだ。

10分間に普通の人間が喋る文字数は2000~2500と言われているから、タイピングで10分を起こすのにかかる時間は20分。変換などの作業を合わせると、その時間はもっと遅くなる。

しかし、音声なら同じ時間だけ喋っていればいいのだから、その作業が大体タイピングの半分ぐらいで済んでしまうわけだ。もちろん、それには音声認識の精度の高さも重要になってくるが。

音声認識はテープ起こしにかかる時間を短縮してくれることに繋がる。


3 音声認識デメリット


もちろん音声認識もいいことばかりではない。音声認識には自分の声や特徴などを覚えさせるために、時間をとる必要があるということだ。

文字の変換も違う文字で変換されると、その文字を修正するのに時間を取られてしまうし、自分の癖や文章の特徴などを覚えさせることが大事になってくる。日常的にテープ起こしを行う人間なら、その手間をかけても問題にならないかもしれないが、あまりテープ起こしを行わない人にとっては、タイピングで行う方が早く終わる可能性もある。


まとめ


タイピングと音声認識。

それぞれ用途を分けて、それぞれに適した状況で行うのが一番良いのかもしれない。

ただ音声認識の世界は今も進歩を続けているので、そのうちテープ起こしをしなくてもすむ時代が来てしまうのかもしれない。