自分がLLMに文章を書かせたい理由についてあるいはスマホ上のフリック入力への囚われ

podhmo
·
公開:2025/11/22

前提

昔は四六時中PCの前に座って、黒い画面のエディタに向かっていた。キーボードさえあれば思考をそれなりに手軽に記録しておけると思っていた。しかし生活スタイルが変わり、手元には常にスマートフォンがある。机に向かうのも億劫な布団の中などでかつての環境を取り戻そうと思うことが理由なのかもしれない。

📱 0次元の指先とフリック入力のジレンマ

スマートフォンでのテキスト入力、特にフリック入力について考えてみる。これを使っている時、私は極端に「カーソル移動」を嫌がっていることに気づく。画面をタップして位置を指定したり、長押しして拡大鏡を出したりする動作は、思考の流れをあまりにも頻繁に中断させる。

結果として、入力されるテキストはどうなるか。単なる単語の羅列というよりは、ダラダラと長く続く一文になることが多い。句読点で区切って整えるよりも、英語の関係代名詞のように言葉を継ぎ足していく感覚だ。あるいは、本来なら箇条書きにすべきところを、改行やMarkdownの記号(ハイフンやアスタリスク)を入力するためにキーボードのモードを切り替えるのが面倒で、「/」や「,」で区切って逃げる。

論理的な構造を作るための記号や、文章を整えるための推敲がおろそかになる。主語と述語がねじれていても、とりあえず最後まで打ち切ってしまう。戻って直すコストが高すぎるからだ。これは情報としては存在しているが、構造化されていない「生煮えの言葉の塊」だ。点(0次元)というよりは、絡まった糸くずのような状態と言えるかもしれない。

⌨️ キーボードという1次元の支配者

一方で、キーボードを使っていた頃の感覚を思い出してみる。そこではカーソル移動はコストではない。ショートカットキー一つで行を入れ替えたり、複数のファイルをマージしたり、順序を入れ替えたりする編集作業そのものが思考の一部だった。

私はマウスを触るのが嫌いだ。キーボードから手を離したくない。だからテキストエディタ上で完結する論理構成や整形の作業は苦ではないし、むしろ好んでやる。これはいわゆる「線(1次元)」の情報を操作する行為だ。

しかし、そこから一歩進んで「面(2次元)」の情報を扱うとなると話は変わる。PowerPointで図形を配置したり、画像の位置を調整したりする作業だ。これにはマウスやペンタブレットといったデバイスが必要になり、位置関係や整列、近接といったデザイン的なパラメータを気にしなくてはならない。多くの人が生成AIに期待しているのは、このテキスト(1次元)から画像やスライド(2次元)への変換だろう。

🚀 生成AIによる「リフト」の階層構造

世間は「テキストを入力してスライドを出力する」ことを求めているが、私の切実な願いはもっと手前にある。フリック入力しかできない環境で、キーボード入力相当の構造化された文章を得たいのだ。

デバイスごとの自然な出力と、AIに期待する「リフト(持ち上げ)」の関係は以下のようになる。

  1. **スマホ(フリック)**:関係代名詞的に継ぎ足された、あるいは記号で簡易的に区切られた言葉の塊。

  2. **キーボード(エディタ)**:整然と構成され、論理が通った文章やコード。

  3. **マウス・ペンタブレット**:スライド資料や画像などのビジュアル表現。

私がAIに求めているのは「1」から「2」への変換だ。スマホというデバイスの物理的な制約上、自分でやるにはコストがかかりすぎる「編集・整形」のプロセスをAIに肩代わりさせたい。

これは「楽をしたい」というよりは、インターフェースの限界を突破したいという欲求に近い。フリック入力で思考の種を蒔き、AIによってそれを構造化された文章へと開花させる。そうすることで、スマホしか持っていない状態でも、キーボードを叩いている時と同等の知的生産性を維持しようとしている。

🎙️ 音声入力が孕む「負の編集コスト」

この文脈で「音声入力」を使わない理由もはっきりする。音声入力は一見便利そうだが、私にとっては「編集」という行為を強制される最悪の入力手段だ。

音声入力でフィラー(「えー」や「あの」)を取り除いてくれるAIツールもある。しかし、それを使ったとしても、出力されるのは「確定されたテキスト」だ。話し言葉特有の冗長な言い回しや、意図と微妙に異なる表現がそこには残る。

これを修正するにはどうすればいいか。結局、スマホの画面上でカーソルを操作し、文字を削り、書き直さなければならない。私が最も避けたい「スマホでの編集作業」が発生するのだ。修正が必要なテキストを大量に生成されることは、私にとっては負担でしかない。

フリック入力で「構造の指示(キーワードや簡易的な区切り)」を与えて、AIに「構築」させるのは足し算の作業だ。一方で、音声入力で生成された文章を「修正」するのは引き算の作業だ。スマホというデバイスは、この引き算の編集作業に極めて向いていない。だから私は、不恰好でも自分の指で入力した言葉の塊をAIに渡し、それを整然とした文章に書き直してもらう道を選ぶ。それが、スマホに囚われた私が適応した、唯一の生存戦略なのだ。


メイキング

今回も開いた文章のようなものを意識して見ていた(漢字を開くと同様)。まぁでもなかなかどうして感傷的な表現を取り除くことが難しい。

今回のパラメーターはこんな感じだった。もう少し文体に関する情報を入れたほうが良い気がする。

あと細々とした気になった部分も捕捉事項として挙げてしまった。本当はこの手前の段階で捕捉事項の部分は解消しておくべきだった気がする。

いいですね。長くなっても構いません。必要なら記事を分割しても構いません。以下の形式に則って趣きを変えてください。

  • author profile, スマホがメインウェポンになってしまったエディタ狂信者としての自分(これらの言葉を使う必要はありません)

  • writing style, 自分はこう思うと言うような感覚の吐露。大げさな表現は不要。叙述的な比喩も不要。思考結果を残しておきたい。思考の過程を残しておきたい。

  • target reader, 思考を具現化したり言語化したりしたい人

  • 読後感, スマホに囚われてしまった人の哀れな適応への理解

そして今までの文章とは異なり先頭のfront matterは本題の文章への接続文にしてください。

元の章の構造は維持してください

## 捕捉事項

てにをはを省き言葉の羅列にするわけではないかもしれない。英語で言う関係代名詞のような形であるいは日本語で言えば読点をつなげまくるような形で、あるいは箇条書きのためのmarkdownを避け/や,区切りで逃げなるべく記号を使わずというのがフリック入力の実態に近いかも。

そして音声入力はフィラーを消すなどをLLMにやってもらえる話はあるがその後にテキストの編集という行為が必要になるのでキーボード上の操作ということになる。

元の文章や対話履歴などはgistに挙げる。

https://gist.github.com/podhmo/d2664acd60170a53f4ca3d35d6648ae4

感想

音声入力はでもコンテキストが絞り込まれた状態だとかなり便利だとは思う。あと会話の文字起こしなんかも議事録としては機能しないのだけどその時のことを思い出して連想する起点として使えたり随時録としては使える。ただし誰が何を言ったかの証拠にはならない感じ。ここではこれを修正する作業が編集作業になりPCでの作業が求められると言う感じ。

あと、自分はこう思う系の話をsizu.meに書いていこうと思った。