Ich habe Google Gemini 1.5 ein Video der totalen Sonnenfinsternis gegeben und es gebeten, ein Lied zu schreiben – so klingt es

blank
Von
Jugo Mobile
Jugo Mobile ist eine Plattform, die sich hochwertigem Inhalt in den Bereichen Gaming, Sport und Technik widmet. Engagieren Sie sich mit hochwertigem Inhalt und vernetzen Sie...
7 Minuten Lesezeit

Google Gemini Pro 1.5 ist ein bahnbrechender Moment für multimodale künstliche Intelligenz. Es ermöglicht Ihnen, ihm eine Video-, Audio- oder Bilddatei zuzuführen und Fragen zum Inhalt zu stellen.

Um zu sehen, wie gut es funktioniert, habe ich Gemini Pro 1.5 ein völlig stilles Video vom Moment der Totalität der jüngsten totalen Sonnenfinsternis gegeben, die in ganz Nordamerika zu sehen war.

Durch die Arbeit auf der Google Cloud-Plattform VertexAI konnte ich Gemini neben dem Videoclip auch einige Anweisungen geben. Ich habe es gebeten, den Text zu schreiben und einen AI-Musikgenerator aufzufordern, einen Song zu erstellen, der vom Inhalt des Videos inspiriert ist.

Dann habe ich die Eingabeaufforderung und den Text in Udio eingegeben, um den Song zu erstellen, und den kompletten Titel wieder in Gemini Pro 1.5 eingespeist und es gebeten, den Titel anzuhören und ein Musikvideo zu planen.

Was ist Google Gemini Pro 1.5?

Google hat im November seine Gemini-Modellfamilie herausgebracht, beginnend mit dem winzigen Nano, der auf einigen Android-Handys verfügbar ist. Anschließend wurde Pro aufgegeben, das jetzt den Gemini-Chatbot unterstützt, und schließlich wurde im Januar der leistungsstarke Gemini Ultra auf GPT-4-Ebene veröffentlicht.

Letzten Monat veröffentlichte der Suchriese sein erstes Update für die Gemini-Familie und stellte Gemini Pro 1.5 vor, das über ein riesiges Millionen-Token-Kontextfenster, eine Mischung aus Expertenarchitektur zur Verbesserung der Reaktionsfähigkeit und Genauigkeit sowie echte multimodale Funktionen verfügt.

Während es derzeit nur für Entwickler über einen API-Aufruf oder die VertexAI-Cloud-Plattform verfügbar ist, wird diese erweiterte Funktionalität voraussichtlich bald im Gemini-Chatbot verfügbar sein.

Zu den Funktionen gehört die Möglichkeit, eine Audiodatei wie ein Lied oder eine Rede, eine Videodatei von jemandem beim Training oder einer Sonnenfinsternis hochzuladen und Gemini Fragen zu der Datei zu stellen.

Aus einem Video einen Song erstellen

Gemini Pro 1.5

(Bildnachweis: Gemini Pro 1.5)

Während Sie mit Gemini Pro 1.5 kein Musikstück direkt generieren können – Google verfügt über andere KI-Modelle zum Erstellen von Musik und Videos –, können Sie Aufforderungen und Liedtexte erstellen.

Ich gab dem KI-Modell einen kurzen 25-Sekunden-Clip, der den totalen Moment der jüngsten totalen Sonnenfinsternis zeigte, die von den USA aus sichtbar war, und bat es, mir sowohl den Text als auch eine Aufforderung zu geben, die ich in einen KI-Musikgenerator einspeisen konnte, um einen inspirierten Song zu erstellen durch das Video.

Dies gab mir den Anstoß für Udio: „Ein episches Orchesterstück mit drei unterschiedlichen Sätzen, wobei der erste in Spannung und Vorfreude aufbaut, während sich die Sonnenfinsternis der Totalität nähert, der zweite langsamer wird und während der Totalität ätherisch und geheimnisvoll wird, und der dritte wieder aufbaut.“ zu einem triumphalen Crescendo, wenn die Sonne hinter dem Mond hervortritt.“

Dies war der Liedtext für den Refrain: „Die Sonnenfinsternis ist da, ein himmlisches Schauspiel. Ein Moment der Dunkelheit, bevor das Licht wachsen wird. Die Sterne kommen heraus, um am Mittagshimmel zu spielen. Ein einmaliger Anblick, während die Welt vorbeizieht.“ .“

Ich glaube nicht, dass Gemini Pro 1.5 so kreativ ist wie Claude 3, ChatGPT oder Gemini Ultra. Texte von diesen Plattformen sind in der Regel einfallsreicher, aber die Möglichkeit, ein Video zu analysieren, ist enorm. Es war in der Lage, die verschiedenen Momente im Video zu bewerten, die Veränderungen zu erfassen und sie in den Texten widerzuspiegeln.

Aus einem Lied ein Musikvideo erstellen

Pika Labs

(Bildnachweis: Pika Labs)

Eines der neuesten Updates für Google Gemini 1.5 ist die Möglichkeit, einen Song oder ein beliebiges Audiostück aufzunehmen und seinen Inhalt zu analysieren. Ich habe festgestellt, dass dies besonders nützlich ist, wenn ich Ideen für ein Musikvideo zu diesem Song plane – vor allem, wenn ich schnell arbeite.

Ich nahm den Song, den ich in Udio mit der Gemini Pro 1.5-Eingabeaufforderung und dem Liedtext generiert hatte, und bat das KI-Modell, auf der Grundlage der Audiodatei ein einzelnes Musikvideo zu entwerfen.

Es gab mir eine Reihe von 5-Sekunden-Aufnahmen für jeden Teil des Songs, einschließlich Intro und Refrain. Für jeden Abschnitt gab es mir eine Aufforderung wie „Erstelle eine wunderschöne Landschaft mit Sonnenaufgang und fliegenden Vögeln“. Die Eingabeaufforderungen habe ich dann in Pika Labs eingespeist.

Dies könnte einem Roboter die Möglichkeit geben, völlig unabhängig zu agieren, indem er lediglich ein Mikrofon und eine Kamera benötigt.

Dies ist zwar ein ungewöhnliches Beispiel für die Verwendung von Gemini Pro 1.5, es ist jedoch ein Hinweis darauf, was möglich sein könnte oder sogar was von einem Drittentwickler erstellt werden könnte. Beispielsweise könnten Sie Gemini Pro 1.5 als Zwischenschicht zwischen einem KI-Musikgenerator und einer KI-Videoplattform wie LTX Studio oder Runway verwenden, um mit einem Klick einen Song und ein Musikvideo zu erstellen.

Der wahre Vorteil größerer Kontextfenster wird sich zeigen, wenn KI-Anwendungen wie die Datenbrille von Meta oder der Rabbit R1 auf den Markt kommen. Wenn Google das Latenzproblem lösen kann, könnte die KI die Masse realer Daten analysieren und Live-Feedback und Informationen geben.

Dies könnte genutzt werden, um einem blinden Menschen das Durchschauen von Audiodeskriptionen zu erleichtern, den ersten Schritt zu wirklich fahrerlosen Fahrzeugen zu schaffen oder einem Roboter die Fähigkeit zu geben, völlig unabhängig zu agieren, indem er lediglich ein Mikrofon und eine Kamera benötigt.

  • ChatGPT Plus vs. Copilot Pro – welcher Premium-Chatbot ist besser?
  • Ich habe Google Bard mit Gemini Pro gegen ChatGPT antreten lassen – hier ist der Gewinner
  • Runway vs. Pika Labs – welches ist das beste KI-Videotool?
Diesen Artikel teilen
Folgen
Jugo Mobile ist eine Plattform, die sich hochwertigem Inhalt in den Bereichen Gaming, Sport und Technik widmet. Engagieren Sie sich mit hochwertigem Inhalt und vernetzen Sie sich mit anderen Enthusiasten und Experten. Entdecken Sie die neuesten Trends und Innovationen in unserer lebendigen Community. Treten Sie uns bei und erleben Sie die Zukunft noch heute!