追加でより多彩なワークフローを試してみたが、やっぱりこいつはFable / MythosではなくFuguという別のモデルだと考えた方が良さそう。
実装系タスク
・段階ごとにいろんなモデルの良さが合わさって出力される印象。
・計画→実行→実験→テストといったワークフローのそれぞれで的確に意図を考えてくれる
・ただし大規模な実装系を一度にやらせた場合、GPT-5.5 xhigh + /goal レベルの一貫性は見られない。自己崩壊を起こしたので中規模、トークン使用量を3m未満と見積もれるタスクに限定するのが賢い使い道かな。
・最も贅沢なのは、Fugu UltraをOrchestratorとして、Fugu UltraをSubAgentとして使用する使い方。一瞬でトークンは蒸発するがある程度低速なFuguでも爆速で進むし、自動で最適なモデルにルーティングするだけじゃなくて多段階でそれぞれ選んでくれるから良い。
デザイン分野
・使うべきでない。Fuguの速度が低速なのでイテレーションを回す速度が低く、またデザインは実装系とはことなって多段階のワークフローの中に人間が必須になるので難しい。
・GPT系、Claude系、Gemini系のデザインをそのまま返してくることが多い。またGPTもClaudeもGeminiも、既存のデザインがあればそれを破壊しないように調整するようにRLされているので、多段をかけてもあまり旨味がない。
・今後人間並みにUIのVisionセンスを判定できるモデルが出ることが待たれるが、Fableがまさにそれだったんだよな...(哀愁)
ゲーム分野
・複雑なゲームロジックの表現とSubAgentを用いた多角的なレビューで、ある程度の規模でもメンテナンスしやすいコードを書いてくれるイメージ。端的にいうと読みやすい。
・ただし現状、ゲームバランス調整が上手いAIモデルは存在しないためこちらも難しい。
・デザインは前述の通り。
・最適化タスクは極めて有用なので、既存のゲームで使用する用途が良さげかも知れない。
記事作成タスク
・GPTと大差ない。わざわざFuguを使う旨みが少ない
LM研究系タスク
・Kernel高速化 / 最適化はめっちゃすげぇ。
・新規アーキテクチャの探索についてはまだ検証中だが、とりあえず体感はよさそう......?実験の創出と検証がちょうど良い割合で混じるので賢い。
・複雑なTool Callで時々失敗する事例を目撃。多段階のToolCallと、長いターミナルコマンドが苦手そうだったがpythonファイルを作成してそれを叩くように提案したところ改善された。
全体を通して
・人間が不要な多段階タスクで無類の強さを発揮するモデル
・人間が必要な多段階タスクや、段階を踏まないタスクでは割高
・Fugu + SubAgentを使うと革命が起こるのでおすすめ(高いが)
・Skill Use, Tool, Terminalなどところどころで気になる部分はありつつも、ハーネスを整えれば全て改善可能なタスク。Sakana AI公式のハーネスの登場に期待
考察
現在のフロンティアAIのボトルネックはやっぱりDesign分野。良いデザインの作成ではなく、良いデザイン / 悪いデザインの分類ができるVisionモデルが市場で最も期待されているAIだと思われる。
とりあえず多段階タスクにおけるPrompt Engineerは廃業ということで、AI Design Engineerに転職してくださいってのと、まだまだこいつの真価を引き出せていない気がする......もっと特化型のAIがたくさん登場して、全部Fuguに載る未来を幻視したためSakana AIは応援していきたいと思っている。
追記:
OpenRouterのFusionとは使い心地が全然違うので、試すことを推奨します。あいつはまた違ったタスクで有効活用できそう......
Fuguをfableで進めてたリポジトリに導入して、とりあえず1時間使ってみた感想(長文注意↓)
1時間でできたこと
・Fable 5が発見できなかった27のバグを発見し、全て修正してくれました。コード品質は申し分なく、Gemini, Claude, GPT,