たとえば、以下はGPT-5・o3・GPT-4oによるSWE-benchのベンチマーク結果を並べたグラフで、記事作成時点でOpenAIのリリースページで公開されているものです。 そして発表直後に公開されたベンチマーク結果のグラフがこれ。GPT-5の通常モデル(薄いピンク)が52.8 ...