Konsistensi Model Bahasa Besar: Keluarga Dekoder Paralel yang Efisien

An illustration for an article on Consistency Large Language Models (CLLMs). The image consists of a futuristic lab setting with a framed 3:2 ratio picture of several virtual, computer generated decoders illustrated in a cheerful and positive light. These decoder tokens are in the shape of different characters, each linked with parallel lines demonstrating parallel decoding. Some are solving large non-linear equations representing the Jacobi decoding method. Others show various process states symbolizing global consistency (GC) loss, local consistency (LC) loss, and traditional AR loss. Additionally, some tokens appear to predict their evolution, underlining the capability of CLLMs to predict correct tokens preemptively.

Dokumen ini memperkenalkan Consistency Large Language Models (CLLMs), sebuah keluarga baru decoder paralel yang dapat secara efisien memecahkan kode urutan n-token per langkah inferensi, sehingga mengurangi latensi. Dijelaskan bahwa CLLM dilatih untuk melakukan decoding paralel dengan memetakan urutan n-token yang diinisialisasi secara acak ke hasil yang sama yang dihasilkan oleh decoding autoregresif (AR) dalam beberapa langkah sesedikit mungkin. Metode yang diusulkan menunjukkan peningkatan yang signifikan dalam kecepatan pembangkitan, sebanding dengan teknik inferensi cepat lainnya seperti Medusa2 dan Eagle, tanpa memerlukan biaya memori tambahan. Metode decoding Jacobi dibahas, yang mengubah proses pembangkitan berurutan menjadi sistem n persamaan non-linear yang dapat diselesaikan secara paralel. Dokumen ini juga merinci proses pelatihan untuk CLLM, termasuk kehilangan konsistensi global (GC), kehilangan konsistensi lokal (LC), dan kehilangan AR tradisional. Dokumen ini menyoroti bahwa CLLM mencapai percepatan yang signifikan dalam domain khusus dan tantangan percakapan domain terbuka, dengan biaya fine-tuning yang moderat. Selain itu, CLLM menunjukkan kemampuan untuk memprediksi token yang benar secara preemptive dan memperoleh kemahiran dalam berbagai kolokasi melalui tujuan pembuatan konsistensi.

Artikel lengkap

Related Posts

Tinggalkan Balasan