ローカルLLM関連で、年末あたりから立て続けに面白い技術が出ている。まぁご家庭のGPUでもLLMをそれなりの精度で動かす事ができそうな技術が連発しているし、去年はコンテキスト長を伸ばす系の技術がいろいろ登場してきていた。
と、なると、何が起こるのか?
ローカルLLMが実用的な速度で動くということ。
そうなると、ローカルLLMを組み込んだローカルで動くアプリが登場するわけだ。まぁまだまだもう少し足りないが、その足りないピースが今年登場してくるはずだ。
速度の面以外では、LLMの出力制御が弱い(特に日本語LLMで)という問題はある。GPT-4ならプロンプトの指示に忠実に従うし、出力フォーマットの制御も完璧に近い(特にJSONモード以後のJSON)が、ローカルLLMではまだまだ期待できない。
速度と、LLMの出力制御が向上さえすれば、アプリに組み込むというのが現実的になる。まぁ、投機的実行とか、バッチ処理とか、最悪、「駄目だった結果を破棄する」という方法論もあるわけだが。
ここでいうアプリは、ゲームなんかも含まれる。
つまり2024年はローカルで動くLLMを組み込んだアプリやゲームがMacやWindowsでガシガシ動き始める年になるという事。
そうなってくると、再びElectronやFlutterや、他のデスクトップアプリを作る技術が見直されることだろう。
スマホにLLMを組み込むのは、今年か来年か。デスクトップアプリよりは遅れるだろう。