Devinはまだ使ったことないけど、最近よくユーザーの感想を見かけるので以下の記事を読んでみた。
この記事は期待値より低くてガックリというトーン。ただ実際の20件中3件のタスクが正常に完了という結果は、自分が聞いていた評判からするとまずまずいいじゃんという印象だった。
Jeremy HowardとAnswerAIの人たちが最初に頼んだのは「Notion データベースから Google スプレッドシートにデータを取り込む」という簡単なお仕事にDevinは大成功
しかし「Railwayに複数アプリのデプロイ」を頼んだところ、そんな機能はないのに無限に解決策を調べ続けてループしていた(無理なこと頼むなや・・)
これはDevinに限らず、答えを出すことが目的の生成AIが「分かりません」とタスクを中断するのが難しい問題とつながる。
最大試行回数などの制約をつけるぐらいしか思いつかない。
次は「Braintrustの仕様どおりにデータを送信するというタスク」だったが、Devinの書いたコードが煮詰めたスープのような謎コードだった。このへんからもうDevinへの不信感が募っている。
「Google Scholar リンクをたどって、著者の最新の論文 25 件を取得するタスク」ではHTMLのパースで沼っていた
「動画の文字起こしをタイムスタンプ付きで要約」→ざっくり拾ってくるだけで重要な部分を判断してなくてガックリ
これは見た瞬間Transformerには困難な(想像)全体をまんべんなく見て特定の箇所に集中しないとこなせないタスクなのではと思った。
「DaisyUIテーマを作成するように依頼」→やった感あったがデフォルトテーマを納品してきただけだった
外国人フリーランスかよ(人種に配慮したツッコミ)
「Python プロジェクトを nbdev に移行するタスク」ドキュメントをめっちゃ用意するのがいいのではと思って頑張って書いた→Devinはドキュメントを理解できてないようだった
これはコンテキストウィンドウが溢れちゃうやつではないか。よくある。
「セキュリティ脆弱性を評価するよう依頼」→ハルシネーションして存在しない脆弱性を見つけてきた
しかし「Discord BOTをつくって」というタスクはDevinはそつなくこなしてくれたらしい。 このことから「ウェブ検索で答えが見つかるレベルの汎用的な技術的課題」は結構Devin向きだなという感想を持った。