5 Dinge Chatgpt O3-Mini besser als andere KI-Modelle

blank
Von
Jugo Mobile
Jugo Mobile ist eine Plattform, die sich hochwertigem Inhalt in den Bereichen Gaming, Sport und Technik widmet. Engagieren Sie sich mit hochwertigem Inhalt und vernetzen Sie...
6 Minuten Lesezeit

OpenAI startete schließlich sein Frontier O3-Mini-Modell als Reaktion auf Chinas Deek R1-Argumentationsmodell an diesem Wochenende. Die Modelle der O3 wurde im Dezember letzten Jahres angekündigt. OpenAI hat keine Zeit verschwendet und O3-Mini und O3-Mini-High startete, um seine Führung im KI-Rennen zu halten. Wir waren also neugierig auf all die Dinge, die Chatgpt O3-Mini besser macht als andere KI-Modelle, und wir haben es getestet. Wir haben seine Codierungskenntnisse getestet und verschiedene Benchmarks rigoros diskutiert. Lassen Sie uns in diesem Sinne eintauchen.

1. Außergewöhnliche Codierungsleistung

Laut OpenAI liefert O3-Mini eine außergewöhnliche Leistung bei Codierungsaufgaben, während die Kosten niedrig bleiben und eine hohe Geschwindigkeit aufrechterhalten. Vor dem O3-Mini-Modell war das Claude 3.5-Sonett von Anthropic das Anlaufmodell für Programmierabfragen. Das ändert sich jedoch mit der O3-Mini-Version, insbesondere mit dem O3-Mini-hohen Modell, das Chatgpt Plus und Pro-Benutzern zur Verfügung steht.

Erstellen eines autonomen Schlangenspiels mit O3 Mini

Ich habe die getestet O3-Mini-hohes Modell und bat es, ein Python -Schlangenspiel zu erstellen, bei dem mehrere autonome Schlangen miteinander konkurrieren. Das o3-mini-hohe Modell dachte 1 Minute und 10 Sekunden lang nach und erzeugte den Python-Code in einer Aufnahme.

Ich habe den Code ausgeführt und er lief reibungslos ohne Probleme. Es hat Spaß gemacht zu sehen, wie autonome Schlangen ihre Bewegungen unternehmen, und es war absolut präzise, ​​genau wie Menschen spielen!

Autonomes Schlangenspiel, das von O3 Mini entwickelt wurde

Immerhin hat das O3-Mini-hohe Modell einen ELO-Score von 2.130 auf der Codeforces-Programmierungsplattform erreicht. Dies bringt das O3-Mini-Modell unter die 2500 Programmierer der Welt. Abgesehen davon, in der SWE-Bench verifizierten Benchmark, der die Funktionen zur Lösung realer Softwareprobleme bewertet, erreichte O3-Mini-Hoch, was eine Genauigkeit von 49,3% erreichte, was ist Noch höher als das größere O1 -Modell (48,9%).

Für die AI-Codierungshilfe denke ich, dass das O3-Mini-hohe Modell Ihnen die beste Leistung bietet, bis das vollständige O3-Modell herauskommt, was Sam Altman in einigen Wochen kommt.

2. Fragen Sie herausfordernde mathematische Probleme

Neben der Codierung ist Mathematik eine weitere Disziplin, bei der das O3-Mini-Modell andere KI-Modelle übertrifft. In der prestigeträchtigen 2024 American Invitational Mathematics Examination (AIMe), die Fragen aus Zahlentheorie, Wahrscheinlichkeit, Algebra, Geometrie usw. hat, erreichte das O3-Mini-hohe 87,3% wieder ein höheres O1-Modell.

O3 Mini Aime 2024 Benchmark

In der strengen Grenzemath-Benchmark mit Expertenmathematikproblemen führender Mathematiker, Fields-Medaillengewinner und Professoren aus der ganzen Welt erreichten O3-Mini-Hoch nach acht Versuchen 20%. Selbst bei einem einzigen Versuch erzielte es 9,2%, was immer noch signifikant ist.

Um dies in die richtige Perspektive zu rücken, hat der renommierte Mathematiker Terence Tao die Probleme in der Grenzmath -Benchmark als „äußerst herausfordernd“ beschrieben. Es kann Stunden und Tage dauern, um sie zu lösen, selbst für Expertenmathematiker. Andere ChatGPT -Alternativen haben es in diesem Benchmark nur nur 2% erreicht.

3.. Ihr Wissenschaftsexperte auf Doktorandenebene

Das O3-Mini-Hochmodell zeichnet sich auch auf wissenschaftliche Fragen auf, die andere KI-Modelle mit einem signifikanten Rand übertreffen. GPQA Diamond ist ein fortschrittlicher Benchmark, der die Fähigkeiten von KI -Modellen in spezialisierten wissenschaftlichen Bereichen bewertet. Es besteht aus fortgeschrittenen Fragen aus den Bereichen Biologie, Physik und Chemie.

O3 Mini GPQA Diamond Benchmark

Im GPQA Diamond Benchmark erzielte O3-Mini-High bemerkenswerte 79,7%, was das größere O1-Modell (78,0%) übertrat. Zum Vergleich könnte das neueste Gemini 2.0 Flash Thinking (EXP-01-21) von Google 73,3%verwalten. Sogar das neue Claude 3.5 -Sonnet -Modell liegt bei 65% im GPQA Diamond Benchmark.

Es wird gezeigt, dass das kleinere O3-Mini-Modell von OpenAI, wenn sie mehr Zeit und Berechnung zum Nachdenken gegeben haben, andere KI-Modelle auf naturwissenschaftlichen Fragen auf Expertenebene übertreffen kann.

4. Allgemeinwissen

In allen allgemeinen Wissensdomänen wird erwartet, dass O3-Mini größere Modelle nicht schlagen würde, da es kleiner und auf Codierung, Mathematik und Naturwissenschaften spezialisiert ist. Trotz seiner kleineren Größe kommt es jedoch sehr nahe an den mit größeren Modellen. In der MMLU-Benchmark, die die Leistung von KI-Modellen in einer Vielzahl von Probanden bewertet, zahlt O3-Mini-Hoch zu 86,9%, während das Openai-eigene GPT-4O-Modell 88,7% erzielt.

O3 Mini MMLU -Benchmark

Das bevorstehende größere O3 -Modell würde jedoch leicht alle KI -Modelle über allgemeine Wissensbereiche hinweg schlagen. Ich sage das, weil das vollständige O1 -Modell bereits 92,3% auf dem MMLU -Benchmark erreicht hat. Jetzt müssen wir auf das vollständige O3 -Modell warten, das den Benchmark vollständig sättigen könnte.

5. O3-Mini mit Websuche

Verwenden von O3 Mini mit Websuche

Der Wissensgrenzwert von O3-Mini ist Oktober 2023, der zu diesem Zeitpunkt ziemlich alt ist. OpenAI hat jedoch die Unterstützung der Websuche für das O3-Mini-Modell hinzugefügt, sodass das Argumentationsmodell die neuesten Informationen aus dem Web extrahieren und erweiterte Argumentation durchführen kann. Deepseek R1 tut dies ebenfalls, aber bei keinem anderen Argumentationsmodell können Sie auf das Web zugreifen, um weitere Argumentation zu erhalten.

Dies sind also einige der fortschrittlichen Fähigkeiten des O3-Mini-Modells. Während kostenlose Chatgpt-Benutzer auch auf O3-Mini zugreifen können, die Die Argumentationsanstrengungen sind auf „Medium“ festgelegt das verwendet weniger Berechnung.

Ich würde empfehlen, für das ChatGPT Plus-Abonnement zu bezahlen, das 20 US-Dollar pro Monat kostet, um das mächtige Modell von ‚O3-Mini-Hoch‘ freizuschalten. Für professionelle Codierer, Forscher und MINT-Studierende im Grundstudium kann das O3-Mini-hohe Modell von großem Nutzen sein.

Diesen Artikel teilen
Folgen
Jugo Mobile ist eine Plattform, die sich hochwertigem Inhalt in den Bereichen Gaming, Sport und Technik widmet. Engagieren Sie sich mit hochwertigem Inhalt und vernetzen Sie sich mit anderen Enthusiasten und Experten. Entdecken Sie die neuesten Trends und Innovationen in unserer lebendigen Community. Treten Sie uns bei und erleben Sie die Zukunft noch heute!