単純なテキスト追加が高度なAI推論モデルを騙す: 'CatAttack'がセキュリティ上の懸念を引き起こす

研究者によると、「面白い事実: 猫はほとんどの時間を寝て過ごす」といった無関係なフレーズを数学問題に追加することで、高度なAI推論モデルが正しくない答えを導き出すことがあると報告されています。

最新の更新 20252025-07-06T03:22:11Z

最新の研究によると、数学の問題に「面白い事実: 猫はほとんどの時間を寝て過ごす」といった無関係なフレーズを追加することで、最先端のAI推論モデルが通常より300%以上高い確率で誤った答えを出すことが分かりました。この技術は「CatAttack」と名付けられ、Collinear AI、ServiceNow、スタンフォード大学のチームによって発見されました。CatAttackは、DeepSeek R1やOpenAIのo1ファミリーを含む推論モデルの脆弱性を利用しています。

この手法は、数学問題の意味を変更せずに問題に対して機能するため、特にセキュリティアプリケーションにとって深刻な懸念を引き起こします。AI推論の正確性を試す上で重要な警告を示しており、さらなる対策が必要とされています。

単純なテキスト追加が高度なAI推論モデルを騙す: 'CatAttack'がセキュリティ上の懸念を引き起こす

好きかもしれない