Apple veröffentlicht “MGIE”, ein revolutionäres KI-Modell für anweisungsbasierte Bildbearbeitung

Create an illustration in 3:2 aspect ratio representing the major themes of the article. Include an image of a innovative AI model called MGIE, depicted as a smart helper interacting with a photo editing software interface. Make sure to depict the software performing complex image edits based on written text instructions, showcasing pixel-level manipulations like color adjustments and object manipulation. The illustration should reflect a positive, light-hearted, and whimsical style, highlighting the revolutionary and transformative potential of MGIE. Add a globe icon to symbolize the tool's accessibility and universal use. Lastly, include a sign or banner reading 'Open Source', reflecting MGIE's availability on GitHub.

Apple hat ein neues Open-Source-KI-Modell namens MGIE veröffentlicht, das Bilder auf der Grundlage von Anweisungen in natürlicher Sprache bearbeiten kann. MGIE wurde in Zusammenarbeit mit Forschern der University of California, Santa Barbara, entwickelt und nutzt multimodale große Sprachmodelle (MLLMs), um Benutzerbefehle zu interpretieren und Manipulationen auf Pixelebene durchzuführen. Das Modell kann verschiedene Bearbeitungsaspekte handhaben, darunter Modifikationen im Stil von Photoshop, globale Fotooptimierung und lokale Bearbeitung. MGIE integriert MLLMs in den Bildbearbeitungsprozess, indem es aus den Benutzereingaben aussagekräftige Anweisungen ableitet und visuelle Vorstellungen für die gewünschten Bearbeitungen erzeugt. Es kann eine breite Palette von Bearbeitungsszenarien durchführen, von einfachen Farbanpassungen bis hin zu komplexen Objektmanipulationen. MGIE steht als Open-Source-Projekt auf GitHub zur Verfügung, wobei Code, Daten und vortrainierte Modelle bereitgestellt werden. Benutzer können MGIE auch online über eine Webdemo ausprobieren, die auf Hugging Face Spaces gehostet wird. MGIE ist ein Durchbruch in der anweisungsbasierten Bildbearbeitung, der das Potenzial von MLLMs demonstriert und neue Möglichkeiten für die cross-modale Interaktion eröffnet. Es handelt sich um ein praktisches Werkzeug für verschiedene Zwecke, das den Benutzern die Möglichkeit gibt, Bilder zu erstellen, zu verändern und zu optimieren. MGIE zeigt die wachsenden Fähigkeiten von Apple in der KI-Forschung und -Entwicklung. Auch wenn es noch viel zu tun gibt, um multimodale KI-Systeme zu verbessern, zeigt die Veröffentlichung von MGIE den raschen Fortschritt in diesem Bereich und das Potenzial für unterstützende KI, ein unverzichtbarer kreativer Helfer zu werden.

Ganzer Artikel

Einen Kommentar hinterlassen