AI技術の発展は、地球温暖化や先進国での少子高齢化と同じようなグローバルトレンドの一つだと捉えていたものの、仕事や生活の現場では、せいぜい翻訳AIの精度が高まってきたかな、というのが2年ほど前までの感覚だったように思う。
それが2023年の春前だったか、Chat GPTが一般利用できるようになって、画像生成や文書作成の局面で、「お、すごいじゃんコレ」という感触を持つことが増えてきた。それでも、実際に仕事に使うとなると、まだまだ応用が効かず、おもちゃとしては面白いけど、実用的ではないな、という時期がしばらく続いた。
とはいえ、エンジニアの友人に話を聞くと、もはやAIなしでは仕事にならないとの声が多数で、ああ、仕事の領域によってはすでに業務実装が進んでいるのだな、ただ、弁護士業にまでやってくるのはまだ先かな、と感じていた。
で、昨年の後半辺りから、翻訳AIの精度がいよいよ高まり、(私が理解できる範囲では)ほぼ完璧な文章を作ってくれるようになった。業務上も簡単な文章の下書きを任せられるようになり、GensparkやGemini Deep Researchあたりからは信頼できるソースを引っ張ってきて調査時間を大幅に短縮してくれるようになってきた。日常の仕事のプロセスの中に生成AIが自然と使われるようになっていった。
すくなくとも僕の周囲では、昨年末辺りから急激に「仕事のやり方の変化」を伴う形で、生成AIが使われるようになったと思う。これは、いよいよ本格的な「業務実装段階に入った」というのが、僕の正直な感覚である。
しかも、進化の速度がどんどん加速しているように思うのだ。朝、目を覚ますたびに、今度はどんなことが生成AIによって可能になったのだろう、とワクワクしながら起床する日々を過ごしている。
こういうときは、記録をつけておくに限る。気づいたらパラダイムがシフトしていたということが起こりそうなときこそ、思考のアンカーとしての記録に意味があるのだ。
というわけで、記録を開始する。
ここ数日、注目していた記事は以下のようなものだった。
◯ 日本語リアルタイム音声対話モデルJ-Moshi
会話のナチュラルさが段違い。Chat GPT 4oのAdvanced Voice modeでも十分滑らかだと感じていたが、このJ-Moshiの自然な相槌や、クッション言葉の挿入はあまりにも滑らかで、これが実はUserとなっているのがAIで、J-Moshiとなっているのが人間でした、と言われたとしても信じてしまいそうなレベルだと思った。
◯ Deepseek R1がすごいらしい
これは実際に自分では試せていないのだけど、色んな人がXのタイムラインで絶賛していて、上に引用したのはMarc Andreessen(Netscapeの創業者の一人で、著名ベンチャーキャピタルのアンドリーセン・ホロウィッツの創業者でもある)の驚きのコメント。
他にも、Deepseekと同じオープンソース戦略でOpen AIやGoogle、Antholopicに対抗しようとしていたMeta(Facebook)が、はるか後方から追い上げてきたDeepseekに一気に追い抜かれたことでパニックに陥っているなんてポストも見かけた。
真偽の程は定かではないが、自分のローカル環境で動かせるサイズ感で、性能が現在最先端とされるGPT o1 proと同等かそれを上回るレベル、ということなら、確かにそれは非常に魅力的だと思う。
中国の息のかかった?AIというと、どうしても国家監視を疑ってしまって気持ちよく使えないところがあり、これまでDeepseekを試すのを躊躇していたのだけど、ローカル環境で動かせるということなら、話が変わってくるようにも思う。
生成AIが凄いのはわかったから使ってみたいけど、情報管理の観点からクラウド上のAIを使うことに抵抗がある、という事業者も多いと思うので、この「データレベルで自分で管理できるAIかどうか」という点は、今後大きな判断ポイントの一つになっていくのではなかろうか。
◯ Open AIのAIエージェント、"Operator"が公開
上の2つの影に霞んでしまったけど、正月ころから「今年はAIエージェント元年だ」「Sam AltmanがAGIを示唆する投稿をした」「Operatorがその一歩じゃないか」とか大きな注目を集めてきたのが、いよいよリリース。
まだ自分では使ってみていないけど、「自分の代わりにPCを操作して目的を達成してくれる」というのは、掛け算でAIの社会実装の効果を高めるエポックメイキングな出来事だと思う。
あとは精度をどれだけ高めることができるかと、犯罪防止などの観点を含め、社会的合意が形成できるかどうか、だろう。