Konsistenz großer Sprachmodelle: Eine Familie von effizienten parallelen Decodern

An illustration for an article on Consistency Large Language Models (CLLMs). The image consists of a futuristic lab setting with a framed 3:2 ratio picture of several virtual, computer generated decoders illustrated in a cheerful and positive light. These decoder tokens are in the shape of different characters, each linked with parallel lines demonstrating parallel decoding. Some are solving large non-linear equations representing the Jacobi decoding method. Others show various process states symbolizing global consistency (GC) loss, local consistency (LC) loss, and traditional AR loss. Additionally, some tokens appear to predict their evolution, underlining the capability of CLLMs to predict correct tokens preemptively.

Das Dokument stellt Consistency Large Language Models (CLLMs) vor, eine neue Familie paralleler Dekodierer, die eine n-Token-Sequenz pro Inferenzschritt effizient dekodieren können und so die Latenzzeit verringern. CLLMs werden so trainiert, dass sie eine parallele Dekodierung durchführen, indem sie jede zufällig initialisierte n-Token-Sequenz in so wenigen Schritten wie möglich auf das gleiche Ergebnis abbilden, das durch autoregressive (AR) Dekodierung erzielt wird. Die vorgeschlagene Methode zeigt erhebliche Verbesserungen in der Generierungsgeschwindigkeit, vergleichbar mit anderen schnellen Inferenztechniken wie Medusa2 und Eagle, ohne zusätzliche Speicherkosten zu verursachen. Es wird die Jacobi-Dekodierungsmethode erörtert, die den sequentiellen Generierungsprozess in ein System von n nichtlinearen Gleichungen umwandelt, die parallel gelöst werden können. Das Dokument beschreibt auch den Trainingsprozess für CLLMs, einschließlich des globalen Konsistenzverlusts (GC), des lokalen Konsistenzverlusts (LC) und des traditionellen AR-Verlusts. Es wird hervorgehoben, dass CLLMs eine signifikante Beschleunigung in spezialisierten Domänen und bei Konversationsherausforderungen in offenen Domänen mit moderaten Feinabstimmungskosten erreichen. Darüber hinaus zeigen CLLMs die Fähigkeit, korrekte Token präventiv vorherzusagen und erwerben durch das Ziel der Konsistenzgenerierung Kompetenz in zahlreichen Kollokationen.

Ganzer Artikel

Related Posts

Einen Kommentar hinterlassen