アプリケーションは、直接エンドユーザーが操作するのではなく、"エージェント"が操作するものに変わって行くのだろうか。rabbit r1 を見ているとそんな気がしてくる。そのとき、アプリ開発から見た"ユーザー"は、人間ではなく、LLM や今後出てくる "AI" 技術になるということだ。
rabbit はアプリケーションの UI 操作方法を学習するというアプローチを取っているが、API が公開されていれば、そちらのほうが扱いやすいものなのだろうか。そうであれば、アプリケーションの責任範囲は、エンドユーザーのための UI からエージェントのための API に変わる。ユーザーとのインターフェイスはすべて rabbit のようなデバイスが担う。もちろんその時代になれば iPhone も適応した形に変わるのだろう。そうなると、エージェントが学習しやすいインターフェイスを定義し、エージェントが学習しやすいドキュメント作ることがアプリケーション開発者の大事な仕事になる。まあドキュメントの作成はそれ専用のエージェントに任せるような時代になっていそうだが。
仮にそのようになったとしても、アプリケーション開発者が UI を作る役割は変わらない可能性もある。現在のアプリケーションサーバーの役割の一つは、ブラウザ向けに HTML を返すことであるが、エージェント向けに適した UI を返すことに変わるのである。それは HTML なのか、あるいは新しいマークアップなのか。いち開発者としては、一個だけ覚えれば良い世界になってほしいものだが。
「これからはいかに有効なプロンプトを作れるかが重要なスキルになる」といった話を聞いたことがあるが、それが本当であれば、エンドユーザーにそのスキルが求められる時代はすぐに終わってしまう気がする。すでに、プログラミングに関する最適なプロンプトは、GitHub Copilot の開発者が考えてくれている(のだろう)。エンドユーザーはそれを知ることもなくただ使うだけだ。
エージェント時代にもう一つ重要なのは、ユーザーとエージェントとのインターフェイスだ。オープンイヤー型や骨伝導型のイヤホンはよく売れるようになりそう。このようなタイプでおすすめのイヤホンがあれば知りたい。
エージェントへの入力に音声を使うとデモ動画はとても映えるが、オフィスでそれは使えないよねという気はする。結局そこはキーボードで文字を入力するのだろうか。脳から直接指示する時代は少し先だと思うので、そのつなぎとしてキーボードよりは進化したちょうどよい入力インターフェイスがある便利だが、凡人には思いつかない。
また、広告についても気になるところだ。今の広告モデルは、人間が見る以上、広告を出しおけば自然と目に入るから機能している部分が大きいのではないか。API を通じてエージェントに広告を渡すのだろうか?