LLMとの対話は「ワインのテイスティング」に似ている？ - 望む答えを引き出すための「言葉選び」の技術

（これは私のx/twitterの呟きと以前のaiとの対話を入力として作成した生成された文章です。メイキングの章を後で追加するかもしれません（息切れ））

はじめに：AIの応答、なぜかみ合わない時があるのか 🗣️

大規模言語モデル（LLM）は、時に驚くほど人間らしい、そして深い洞察に満ちた応答を返してくれます。しかしその一方で、どうにも話が噛み合わない、期待した答えがなかなか得られない、という経験をした人も少なくないのではないでしょうか。「もっとこう、いい感じに答えてほしいのに…」そんな風に思ったことはありませんか？

このAIとのコミュニケーションにおける「すれ違い」は、実はLLMの根源的な特性と、私たちの言葉の使い方の間に横たわる、見過ごされがちなギャップに起因しているのかもしれません。それはまるで、高級ワインの繊細な風味を言葉で表現しようとする試みに似ています。適切な語彙と文脈を欠いては、その真価を捉えることも、他者と共有することも難しいのです。

本稿では、LLMから望ましい応答を引き出すために、なぜ「言葉選び」がこれほどまでに重要なのか、そしてそれが私たちの思考やAIの学習プロセスとどう関わっているのかを探っていきます。

第1章：「ソムリエの語彙」と「免許試験の言葉」- LLMが学習した世界の“言語” 💬

ある興味深い話があります。それは、「AIは非常に高い精度で病状を診断できる能力を持つにもかかわらず、人間がそのAIを使うと、診断の精度が著しく低下してしまう」というものです。（これは、実際に一般市民を対象とした研究で、LLM単体では94.9%の精度で関連病状を特定できたのに対し、人間がLLMを介して判断するとその精度が34.5%まで低下した、という報告に基づいています。）

なぜこのようなことが起こるのでしょうか。AIは高い知識を持っているはずなのに、人間が間に入ることで、その能力がスポイルされてしまうのは、非常にもったいない話です。

この現象を理解する一つのヒントは、AIが何を「学習」してきたか、という点にあります。LLMは、膨大なテキストデータを学習しますが、その中には専門的な文献や、特定の資格試験（例えば医師免許試験など）で用いられるような、高度に構造化され、専門用語で記述されたテキストが少なからず含まれています。つまり、LLMは、ある種の「専門家の言葉遣い」や「試験問題特有の論理構造」を、その解答パターンと共に学習しているのです。

これは、ワインソムリエが独自の専門語彙でワインの風味や特徴を評価するのに似ています。ソムリエは、「カシスのコンフィチュールのアロマに、腐葉土やなめし革のニュアンスが混じり合い、シルキーなタンニンと長い余韻が…」といったように、非常に具体的で訓練された者同士でしか完全には共有できないような言葉でワインを記述します。この専門語彙があるからこそ、ワインの微細な違いを客観的に評価し、記録し、伝達することができるのです。

同様に、医師免許試験で問われる病状の記述や診断のロジックも、臨床現場の生々しい多様性をある程度「正規化」し、標準化された語彙と論理で構成されています。LLMは、この「正規化された世界」の言語と論理を学習しているため、同じ言語と論理で質問されれば、非常に高い精度で応答できる可能性が高いのです。

しかし、一般の人が医師に症状を訴えるとき、あるいはLLMに質問するとき、そのような「正規化された言葉」を使うことは稀でしょう。「なんだかお腹が痛くて…」「最近、気分が沈みがちで…」といった日常的な言葉遣いになります。この日常語と、LLMが学習した「免許試験の言葉」との間には、大きなギャップがあります。LLMはこのギャップを埋めようとしますが、その翻訳がうまくいかなければ、ユーザーの意図を正確に汲み取れず、期待外れの応答をしてしまうのです。

つまり、LLMから望みの回答を引き出すためには、私たちがLLMの「母語」に近い、あるいはLLMが学習した文脈を的確に指し示せるような語彙と文脈で問いかける必要がある、ということです。それは、まるでソムリエに好みのワインを伝えるために、少しだけワインの専門用語を学んでみるような試みに似ているのかもしれません。

第2章：「要求分析」と「ユーザーインタビュー」- 言葉のズレを繋ぐ翻訳作業 🌉

この「言葉のズレ」の問題は、システム開発における「要求分析」と「ユーザーインタビュー」の関係にも通じるものがあります。

ユーザーインタビューでは、顧客は自身の課題や要望を、日常的な言葉や業務で使っている具体的な言葉で語ります。ここから得られるのは、いわば「生の語彙」です。一方で、要求分析や要件定義のフェーズでは、これらの「生の語彙」を整理し、より抽象的で、システム設計に落とし込めるような「定義された語彙」へと変換していく作業が必要になります。

もし、ユーザーインタビューで得られた「生の語彙」と、要求分析で用いる「定義された語彙」が大きく異なっているのであれば、その間を繋ぐ「翻訳」や「マッピング」の作業が不可欠です。この翻訳がうまくいかなければ、いくらLLM（あるいは開発チーム）に「考えさせた」としても、ユーザーが本当に望んでいるものとは異なる出力が得られてしまう可能性が高まります。

例えば、「もっと使いやすいシステムにしてほしい」というユーザーの「生の要望」があったとします。これをそのままLLMに伝えても、具体的な改善案は出てきにくいでしょう。「使いやすい」という言葉の解釈が多様だからです。しかし、ユーザーインタビューを深掘りし、「現在のシステムでは、〇〇の操作に5クリックかかるが、これを2クリック以内にしてほしい。また、△△の情報は常にトップ画面で見えるようにしてほしい」といった具体的な「要求」にまで落とし込み、それをLLMに伝えれば、より的確な提案が期待できるかもしれません。

LLMとの対話においても、私たちが無意識のうちに行っているのは、この「翻訳」作業なのかもしれません。自分の頭の中にある漠然とした問いやアイデアを、LLMが理解しやすいように、より具体的で、LLMが学習したであろう文脈に沿った言葉へと変換していく。このプロセスこそが、LLMの能力を引き出す鍵となるのです。

第3章：LLMとの「食い下がり」は、かつての検索術の探求に似ている 🕵️‍♀️

以前から、LLMとの対話で「食い下がる」こと、つまり、一度の応答で満足せず、質問の仕方を変えたり、追加の情報を与えたりしながら、より良い答えへと誘導していくプロセスが、かつての検索エンジンを使いこなすためのテクニック（いわゆる「検索術」）の探求に非常に似ていると感じていました。

検索エンジンで情報を探す際も、最初のキーワードで期待した結果が得られなければ、類義語を試したり、キーワードを組み合わせたり、検索オプションを駆使したりして、徐々に求める情報へと近づいていきました。この試行錯誤のプロセスで、どのキーワードが有効で、どのキーワードがノイズを生むのかを肌感覚で学んでいった経験は、多くの人にあるのではないでしょうか。

LLMとの対話も、これと全く同じです。最初のプロンプト（質問や指示）が、いわば最初の検索キーワードです。もし、そのプロンプトがLLMを不適切な文脈へと導いてしまったり、曖昧すぎて解釈の幅が広すぎたりすると、その後の対話セッション全体が「ゴミ」となり、使い物にならなくなってしまうことがあります。まるで、検索結果が広告ばかりだったり、全く関係のないページで埋め尽くされてしまったりするような状況です。

逆に、適切な語彙を見つけ出し、LLMを的確な文脈へと誘導できたとき、そこから得られる応答の質は劇的に向上します。この「適切な語彙を見つけようとする試み」自体が、一種のパズルを解くような楽しさであり、LLMの内部で何が起こっているのかを推測しながら、最適な言葉を探し当てる知的なゲームのようにも感じられます。

LLMの学習プロセスを考えると、これは非常に自然な話です。LLMは、入力されたプロンプトに含まれる単語やフレーズを手がかりに、自身が学習した膨大なデータの中から、最も関連性の高い情報やパターンを引き出し、それに基づいて応答を生成します。したがって、入力の質が、出力の質を大きく左右するのは当然のことなのです。

この「食い下がり」のプロセスは、単に忍耐強く対話を続けるということだけを意味するのではありません。それは、LLMの応答を注意深く観察し、そこからLLMが何を理解し、何を誤解しているのかを推測し、そして次の一手をどう打つべきかを戦略的に考える、という能動的な働きかけなのです。

第4章：「高階」や「メタ」ではない？LLMの思考の直線性と短期学習の感覚 🧠

LLMが見せる応答は、時に非常に複雑で、まるで人間のように多角的な視点から物事を考えているかのように見えることがあります。しかし、その「思考」の実態は、入力から出力へと向かう、ある種の「直線的」な処理の結果である、という感覚が拭えません。

仮にLLMが間接的な思考や、複数のステップを踏んだ推論を行っているように見えたとしても、それは多くの場合、過去の学習データの中にあった類似の多段階推論のパターンを「短期的に学習」し、それを現在の入力に対して「適用」している結果なのではないか、と感じるのです。

（これは、Appleの研究者らによる論文「The Illusion of In-Context Learning in Large Language Models」が示唆する内容とも通じるものがあります。この論文では、LLMが文脈内で少数の例から新しいタスクを学習しているように見える現象（In-Context Learning）が、実は真の学習ではなく、事前学習データ中の類似パターンを高度に検索・模倣しているに過ぎない可能性を指摘しています。特に、複数の推論ステップを要する漸化的なタスクにおいて、ステップ数が増えると性能が著しく低下するという実験結果は、LLMが深い論理構造を安定して扱えないことを示唆しています。）

この感覚は、例えばLLMにバグ調査のようなタスクを依頼したときの挙動からも見て取れます。LLMは、プログラムコードを読ませれば、そこに潜む可能性のあるバグを指摘したり、いくつかの修正方法を提案したりすることはできます。printデバッグのコードを挿入するような、比較的単純な試行錯誤も行うかもしれません。

しかし、「このバグを効率的に調査するために、まずはログを解析する小さなツールを作ってみて、そのツールの出力結果を元に、次にどの部分を重点的に調べるべきか戦略を立て、さらに別の仮説を検証するために新たなテストコードを書いてみる」といった、より高次的で、自己の行動計画を動的に修正しながら問題解決を進めるような思考は、現在のLLMにはまだ難しいように感じられます。

もちろん、このような複雑なタスクをLLMに「実行」させることは、技術的には可能かもしれません。しかし、それを安定して、かつ効率的に行わせるためには、非常に緻密なプロンプト設計や、外部ツールとの連携、そして何よりも「失敗したときにどう軌道修正するか」というフィードバックループの設計が不可欠になります。そして、多くの場合、そのような複雑なタスクを実行させようとすると、LLMは途中で混乱したり、無駄な試行を繰り返したりして、「負の報酬」に傾いてしまう（つまり、望ましい結果から遠ざかってしまう）可能性が高いのではないか、という懸念があります。

このLLMの「直線的な思考」や「短期学習の限界」を理解することは、LLMに何を期待でき、何を期待すべきでないのかを見極める上で、非常に重要です。

第5章：プロンプトエンジニアリングの役割と、「適切な語彙」の真の価値 🛠️

LLMとの対話において、「プロンプトエンジニアリング」という言葉が注目されています。これは、LLMから望ましい出力を得るために、入力（プロンプト）を工夫する技術のことです。しかし、このプロンプトエンジニアリングの機能は、しばしば誤解されているか、あるいは過度に期待されている側面があるように感じます。

いわゆる「チューニング」という意味でのプロンプトエンジニアリング、例えば、特定のモデル（特に比較的小さなモデル）でも特定のタスクで高い性能を発揮させるための職人的なプロンプト作成や、出力のフォーマット（JSON形式で、など）を指定したり、応答のトーン（フレンドリーに、専門的に、など）を固定したりする機能は、確かにある程度有効です。これらは、LLMの出力を制御し、特定の用途に合わせ込む上で役立ちます。

しかし、LLMを実際に活用する場面において、より本質的に重要なのは、そのような表面的な「チューニング」以上に、**「適切な語彙の利用による、適切な文脈の選択」**なのではないでしょうか。

つまり、LLMが学習した膨大な知識空間の中から、今まさに自分が求めている情報や思考の領域を、的確な言葉で「指し示す」こと。これこそが、LLMの能力を最大限に引き出す鍵であり、プロンプトエンジニアリングの真の価値であると感じています。

もちろん、この「適切な語彙」とは、必ずしも専門用語である必要はありません。重要なのは、LLMがその言葉を手がかりに、ユーザーの意図や背景にある文脈を正確に推測できるかどうか、という点です。学習データが豊富で、多様な表現に触れているLLMであれば、日常的な言葉遣いからでも、ユーザーの意図を汲み取れる可能性は高まります。しかし、それでもなお、より正確で、より曖昧性の少ない言葉を選ぶ努力は、LLMとの質の高い対話には不可欠です。

（少し面倒な話を付け加えると、厳密には「学習時に利用した語彙の周辺にたどり着ける語彙で入力するべき」というのが本質であり、必ずしも「専門的な見地からの言及が効果的」とは限りません。例えば、ある概念について、専門用語Aよりも、それに関連する日常的な比喩表現Bの方が、LLMの学習データ中での出現頻度や関連性の強さから、より豊かな応答を引き出す、というケースもあり得ます。とはいえ、一般的には、テクニカルタームを利用して文意を構成すれば、LLMが参照すべき知識領域を限定しやすいため、結果として適切な回答が得られる可能性は高くなると言えるでしょう。特に、その分野の学習データが豊富であれば、その傾向はより顕著になります。）

この「適切な語彙による文脈選択」は、単なるテクニックではなく、LLMという「知の道具」を使いこなすための基本的なリテラシーと言えるのかもしれません。

おわりに：LLMとの対話は、思考を映す鏡 🪞

LLMとの対話は、時に私たちの思考そのものを映し出す鏡のようです。自分が何を問い、どのような言葉を選び、どのような文脈を提示するかによって、返ってくる応答の質は大きく変わります。LLMが期待通りに賢くないと感じるとき、それはもしかしたら、私たち自身の問いの立て方や、言葉の選び方に改善の余地があるのかもしれません。

もちろん、LLMはまだ発展途上の技術であり、その能力には限界があります。しかし、その限界を理解した上で、LLMが持つ特性を最大限に活かすようなコミュニケーションを心がけることで、私たちはこの新しい「知の道具」から、より多くのものを引き出すことができるはずです。

LLMとの「言葉選び」の旅は、まだ始まったばかりです。それは、LLMの能力を探求する旅であると同時に、私たち自身の思考やコミュニケーションのあり方を見つめ直す旅でもあるのかもしれません。

URL

元の呟き https://x.com/podhmo/status/1935553517768544427

[論文自体を読んだふり]( https://gist.github.com/podhmo/3f4409a281335d1f3c6bd1455f24fc3c#file-llm-md )

gigazineではなく元の論文をURL contextで読ませたけどリンクはgigazineとかの方が良いか。

[AIは94.9％の精度で病状を診断できるが人間がAIを使うことで34.5％まで精度が急低下する - GIGAZINE]( https://gigazine.net/news/20250616-ai-underscores-miss-link-test/ )

[AppleがOpenAI「o3」のようなトップレベルのAIモデルや大規模推論モデルの限界を詳しく説明 - GIGAZINE]( https://gigazine.net/news/20250609-ai-thinking-model-limit/ )
[Appleが提唱した「AIの推論能力の限界」にAI専門家が反論 - GIGAZINE]( https://gigazine.net/news/20250616-the-illusion-of-the-illusion-of-thinking/ )

podhmo