毎日仕事の仕方が少し（あるいは完全に）変わる

agent向けのtoolやskillの使用頻度を監視して棚卸しし、仕事のための仕事をするツールを作り、それらを使って本業の機能開発やリファクタリングを行い、過程で出た問題をツールへフィードバックしてさらに精度をあげ退勤し、次の日claude codeのバカみたいなリリース量に驚く人たちをみながら出勤する、というサイクルになってきた。

毎日前日とは違う働き方が生まれているといっても過言ではないかもしれない。有象無象の便利ツールの中から本質を筋よく解決しているものを見極めて取捨選択できないと、来週には「まだそんなことしてるの？」という状態に陥りかねない。

aiに振り回されて馬鹿らしいと思うかもしれないが、前日より明らかによくなっているものをガンガン取り入れて、それが成果として出るともうそれ自体が楽しいし刺激になる。ある種のドーパミン中毒のようなものだろう。

個人でも手数が出せるようになってきているので、実験的に入れたものも高速で検証できて、これはここがよくなったけどもっとこうしたいなぁ、という不満もすぐに出せる。そしてそれが解消されたりできたりすると、さらに試したくなる。自分はghosttyでペインを6つに割って（必要ならクイックターミナルでさらに動的に増やせる）それぞれで別のタスクを並列実行しているが、それぞれで使うskillなどのハーネスはすべて同じものだ。仕事をしている時に1ペインを趣味のゲーム開発に充てる、なども簡単にできるようになった。OSSのメンテも心理的なハードルはかなり下がったと思う。

そんなに自動化して精度出るんですか？という疑問もあるだろうし、もっともだと思うが、とにかくたくさん動かして精度が出ない部分を洗い出し、そこを直すということの速度を上げる方が、結果として強固な開発体験を生み出すと考えており、agentic codingではハーネスが機能した時のリターンがデカすぎるのでリスクは払い得だと感じている。

如何に自分が書くのと同じものがagentから出てくるようになるかが重要で、成果物から原因を特定してハーネスへフィードバックする、とにかくそこのイテレーション速度をあげる、というのが求められている。これができればどんどん個人が垂直にスケールする。

今のLLMは一般的な技術者よりも広範な知識とアーキテクチャに対する技術理解があるが、経験からくる信頼性、ドメイン知識の部分は人がフィードバックしてあげる必要はまだある。特にこのテストが通ればOKのような絶対的なテストスイートがない類のものは、ここを作り込むことが最優先事項になる。claude codeが10日でcコンパイラを作ったという話も、積み上げられた膨大なテストがあるからこそ機能している。SaaSの場合は歴史的経緯でレポやドキュメントが分散していたり、GUIを触る必要があったり、セッションやサブスクリプションプランなど様々な分岐があり、完全なテストを作ることは難しい。この点は明確に「まだAIが踏み込みきれていない」領域と言える。

別の話として、Opus4.6をClaude Codeから使うのか別のagentから使うのかでは結構性能差が出る。例えば商用agentであるFactory.aiのDroidでは以前、gpt5.2を使用したterminal benchで64.9%と報告されており、これはOpus4.6をClaude Codeから使った場合の性能に比肩していた。もしOpus4.6を使っていても、全然ダメじゃんと思う人は一回Claude Codeから試してみるといいかもしれない。

https://www.tbench.ai/leaderboard/terminal-bench/2.0

自分でどう書くかまで考えて、行単位で熟考しないと脳のしわに刻み込まれないというのはあり、おそらく自分がこれからコードをスラスラと書く能力というのは成長しないのだろうとは思う。

代わりにこのサービスや機能を成立させるにはどうすれば良いかという視点からトップダウンで物事を考える、複数のエージェントを並列で動かして多角的に検証する（そのためにはどこを決定論的に消費できるか考える）、のような方へスケールしていくのだろう。自分も登さんみたいにいつかはなりたかったが、agentを使ったとしても登さんの1日に生産するコード量へ及ばないことから、毛頭無理だったと気付かされた。

ushironoko

解放