2024.2.21 Google Gemini の理解力エグい でもRAGは終わらないかも〈注目英文ポスト翻訳〉

psymen
·

<前提情報>

  • Soraのインパクトをぶつけられてあまり話題になっていないが

  • 2/16にローンチしたGoogleのGemini Proすごいらしい

  • まだアーリーアクセス層しか触れないが、素晴らしい利用例が出てきている

  • 長大なコンテキストウインドウ、つまり100万トークンという、従来にない量のプロンプト一発入力に対して理解を示す

  • これは小説10巻分の文章量

  • 更にマルチモーダルなので1時間分の映画をまるごと放り込んでも理解する

  • こうなると、ここ1年研究されてきた「RAG」の手法が要らなくなるのではないか?という話もある

  • RAGとは、LLMの中に学習されていない、専門性、流動性、機密性の高いドメイン情報を外部から参照してLLMの回答に参照させる方法

<Google DeepMind 研究員/Oriol Vinyals氏の投稿>

Gemini 1.5 Proが先週にローンチされ、既にコミュニティから長いコンテキストを使用した素晴らしいインタラクションが生み出されています。

以下👇は、早期アクセスを得た人々からのハイライトやクールな投稿のいくつかです。これまでのコミュニティの議論や反応からのいくつかの考え方:

100万トークン以上のコンテキストウインドウを扱えるようになったわけですが、RAG("retrieval-augmented generation"、検索強化生成)の手法が終わったわけではありません。

RAGは、このGeminiの長大なコンテキストウインドウによって強化される利点があります。RAGはLLMが内部に持っていない付加情報を見つけてくることを可能にしますが、言語モデルの圧縮作用によってうまく働ききれていまませんでした。

Geminiの100万のコンテキストウインドウは、パソコンにおいて、CPUの中にあるL1/L2キャッシュが、メインメモリと一緒に動作するように、現在のRAGの能力不全を埋めるのに役立つかもしれません。

プロンプトに辞書レベルのデータベースをつっこんでから、それを元にさらに複雑な外部参照データを参照する、という事が可能になるかも、という推測のようです

マトリックスのように、専門のドメインデータをGeminiに読み込んで、それをもって、更に外部にあるなんらかの複雑なデータの処理作業をこなす、という使い道があるのかもしれません

いずれにせよ、コンテンツクリエションの領域ででいろんな事が試せる可能性がりそうので、新たな実験のためにGoogle AI Studioの用意をしておく必要がありそうです!

@psymen
ヨーグレットをすぐ噛み砕き、水が湧くまで砂場を掘る @PsymenJ