ちょっと頭をそこまで使わなくてもいい作業をしてる時に、Youtubeでポッドキャスト的に話を聞いてることが多い。そのときに英語だと字幕がついててもみれないので、自動で日本語でしゃべってくれるものがほしいと思った。
そこで実験的にそれができるかどうかつくりはじめてみた。
結構できそうな感じがしてきたぞ・・・。
やってみるまで知らなかったことだけど、音声再生はあたりまえのようにGoogleのtext to speechを使うつもりだった。高くないけどお金はかかるのと、遅延が問題になりそうだなと思ってたんだけど、なんと!!!
Web Speech APIをつかえばブラウザの音声読み上げ機能が使える。つまりText to Speechなサービスを使わないので無料で実装できる!!!
めちゃくちゃうれしい発見だった。お金かからないし早い。これで十分だ。
そもそも、これに気づけたのも生成AIのおかげ。CursorでAIコーディングしてるので、音声を流すという指示をいれたらWeb Speech APIがチョイスされたのだった。実行していきなり音声が流れてびっくりしたという次第だ。
あとは話のスピード調整とかが苦労しそうなポイント。人によって違うので同じテンポだと結構ズレそうなのをどうするか。あとは連続でいれたURLを再生させたいとか、Youtubeみたいに検索してそのまま流したいとかはある。とかとか考えていくといつもの通り膨らんでいく。
まずはサクッとできるかどうか早めにつくって、使ってみたい。