僕の予測: 今年・来年あたりでinput context長の増大が当たり前になる。
技術的にはinput context長を伸ばすためのテクニックは去年からどんどん出ているし、実際にローカルLLMでもクローズドLLMでもそれらが実装されている。もはやinput contextが100kを超えることが当たり前になってきた。
ここで問題は、クローズドLLMのAPIをたたく場合、input context長は、output contextのそれよりは安いものの従量課金なので、なるべくプロンプトを短くしたい。
ところが、ローカルLLMにおいてはinput contextに対しては計算量的には圧倒的に有利なため、ローカルLLMではinput contextを増大するメリットがとても大きい。context長が大きくなったときに精度さえ落ちなければだが、そのための技術革新は今後もずっと続くはずだ。
input context長が伸びると何がうれしいのか?RAGみたいな歪な技術を使う必要性が落ちる。もちろん何かしらのRetrieve自体は必要になるかもしれないが、chunkingのような現行の無理矢理なRAG実装は不要になるはず。
LLMの性能を上げる、ハルシネーションを防ぐ、様々な観点においてinput context長を伸ばすことは優位性となる。
ローカルLLMでinput context長を莫大にしたものがはやっていくと、クローズドLLMのinput contextに対しても値下げ圧が強まることになるだろう。
その結果、ローカル・クローズド問わず、input context長が増えることを前提として世界は進んでいくはずだ。という予測