数学の代わりにマリオ:配管工はもはやピーチを節約しませんが、AIモデルがどれほど賢いかをテストします
AIモデルのベンチマークはしばしば乾燥しています:数学、ロジックテスト、複雑なデータ分析。しかし、カリフォルニア州サンディエゴの研究者は新しいアプローチを選択しました - そして彼らのKISは単にどのようにしましょうTechSpotレポート。
奇妙な実験のように聞こえますか?多分。しかし、タイミングが純粋なコンピューティング能力よりも重要な場合があることを示しています。
実験:AIコントローラーとしてのゲームエージェント
カリフォルニア大学サンディエゴ大学のHAO AIラボの研究者には、フレームワークゲームエージェントがあります。ギルブ)AIモデルがPythonコードを使用して配管工マリオを制御できる開発。
基礎は、NES上のスーパーマリオブラザーズのエミュレートバージョンでした。 KISは、次のような簡単な指示を受けましたこの相手の上に湧きます
オリエンテーションのスクリーンショット。
目的は、モデルがアクションを計画し、リアルタイムで調整できることを調べることでした。
推奨される編集コンテンツ
この時点で、Twitterの外部コンテンツがあり、これが記事を補完します。
ワンクリックで表示して再度非表示にすることができます。
Twitterのコンテンツが表示されることに同意します。
個人データは、第3パーティプラットフォームに送信できます。私たちのこれについては詳細です。
へのリンクTwitterコンテンツ
Claude 3.7は、GPT-4o Stolpertを支配しています
結果はあなたを驚かせるかもしれません:人類のクロード3.7は、最高のパフォーマンスを示しました。それは正確なジャンプを習得し、敵に道を譲り、全体的に自信を持って行動しました。
彼の前任者でさえクロード3.5それほど印象的ではないにしても、よくカットしてください。
でOpenaiとGoogleのGemini 1.5 ProのGPT-4O一方、それは非常に違って見えました。強い論理的思考能力で実際に知られているモデルは困難でした。
彼らはしばしば基本的なゲームのメカニズムのために失敗し、しばしば制御されていない方法でギャップに飛びつきたり、対戦相手に見舞われたりしました。
タイミングはロジックを打ち負かします
テストが表示されましたその速い反射は、複雑な論理よりも重要です - 少なくともマリオと遊ぶ。
一部のAIモデルは状況を「熟考」しようとしますが、このアプローチは長い遅延につながりました。
結局のところ、スーパーマリオブラザーズの数ミリ秒は、成功したジャンプと失敗した試みの違いを補うことができます。
研究者は、GPT-4oなどの「思考」モデルが長すぎると疑っています彼らが行動する前に、したがってボイドに飛び込む。
KIベンチマークなどのレトロゲーム?
もちろん、このようなテストがどれほど意味があるかは問題のままです。ビデオゲームのフィギュアを倒すAIモデルは、マリオが現実世界の複雑なタスクに自動的に適していません。それにもかかわらず、この実験は刺激的な知識を提供します。コンピューティングパワーが決定するだけでなく、迅速で直感的な決定も決定します。
サブスクリプション
サイトの新着記事を購読し、新着投稿の通知をメールで受け取るには、メールアドレスを入力してください。