数学の代わりにマリオ:配管工はもはやピーチを節約しませんが、AIモデルがどれほど賢いかをテストします

Sakiko

マリオは常に多額のものでした。現在、AIベンチマークは彼のスキルセットに適合します。 (画像出典:Openaai |人類|ウィキペディア)

AIモデルのベンチマークはしばしば乾燥しています:数学、ロジックテスト、複雑なデータ分析。しかし、カリフォルニア州サンディエゴの研究者は新しいアプローチを選択しました - そして彼らのKISは単にどのようにしましょうTechSpotレポート

奇妙な実験のように聞こえますか?多分。しかし、タイミングが純粋なコンピューティング能力よりも重要な場合があることを示しています。

実験:AIコントローラーとしてのゲームエージェント

カリフォルニア大学サンディエゴ大学のHAO AIラボの研究者には、フレームワークゲームエージェントがあります。ギルブ)AIモデルがPythonコードを使用して配管工マリオを制御できる開発。

基礎は、NES上のスーパーマリオブラザーズのエミュレートバージョンでした。 KISは、次のような簡単な指示を受けましたこの相手の上に湧きますオリエンテーションのスクリーンショット。

目的は、モデルがアクションを計画し、リアルタイムで調整できることを調べることでした。

推奨される編集コンテンツ

この時点で、Twitterの外部コンテンツがあり、これが記事を補完します。
ワンクリックで表示して再度非表示にすることができます。

Twitterのコンテンツが表示されることに同意します。

個人データは、第3パーティプラットフォームに送信できます。私たちのこれについては詳細です。

へのリンクTwitterコンテンツ

Claude 3.7は、GPT-4o Stolpertを支配しています

結果はあなたを驚かせるかもしれません:人類のクロード3.7は、最高のパフォーマンスを示しました。それは正確なジャンプを習得し、敵に道を譲り、全体的に自信を持って行動しました。

彼の前任者でさえクロード3.5それほど印象的ではないにしても、よくカットしてください。

OpenaiとGoogleのGemini 1.5 ProのGPT-4O一方、それは非常に違って見えました。強い論理的思考能力で実際に知られているモデルは困難でした。

彼らはしばしば基本的なゲームのメカニズムのために失敗し、しばしば制御されていない方法でギャップに飛びつきたり、対戦相手に見舞われたりしました。

タイミングはロジックを打ち負かします

テストが表示されましたその速い反射は、複雑な論理よりも重要です - 少なくともマリオと遊ぶ。

一部のAIモデルは状況を「熟考」しようとしますが、このアプローチは長い遅延につながりました。

結局のところ、スーパーマリオブラザーズの数ミリ秒は、成功したジャンプと失敗した試みの違いを補うことができます。

研究者は、GPT-4oなどの「思考」モデルが長すぎると疑っています彼らが行動する前に、したがってボイドに飛び込む。

KIベンチマークなどのレトロゲーム?

もちろん、このようなテストがどれほど意味があるかは問題のままです。ビデオゲームのフィギュアを倒すAIモデルは、マリオが現実世界の複雑なタスクに自動的に適していません。それにもかかわらず、この実験は刺激的な知識を提供します。コンピューティングパワーが決定するだけでなく、迅速で直感的な決定も決定します。