Wydajność Specyficzna dla Zadań
W teście porównawczym układanek „Połączenia NYT” O3-Mini zdobywa 72,4 punktów, przewyższając DeepSeek-R1, który ma 54,4 punktów, co pokazuje jego doskonałe zdolności rozwiązywania problemów. W globalnej średniej LiveBench, O3-Mini również prowadzi z 73,94 w porównaniu do 71,38 dla DeepSeek-R1. Jednak w zadaniach matematycznych DeepSeek-R1 wykazuje silniejsze zdolności rozumowania numerycznego, zdobywając 79,54 punktów w porównaniu do 65,65 O3-Mini.