Kemampuan Teks Panjang Model Besar Ditingkatkan Lagi: Dari 4000 Menjadi 400000 Token
Model besar sedang meningkatkan kemampuan pemrosesan teks panjangnya dengan kecepatan yang mengagumkan. Teks panjang tampaknya telah menjadi standar baru bagi produsen model besar.
Menurut statistik, saat ini banyak perusahaan model besar dan lembaga penelitian terkemuka di dalam dan luar negeri menjadikan perluasan panjang konteks sebagai arah peningkatan yang penting. Sebagian besar perusahaan ini adalah kesayangan pasar modal dan telah mendapatkan investasi besar.
Perusahaan model besar berkomitmen untuk mengatasi teknologi teks panjang, apa artinya memperluas panjang konteks 100 kali lipat?
Secara superficial, ini berarti panjang teks yang dapat dimasukkan meningkat secara signifikan, kemampuan baca model telah meningkat secara substansial. Dari yang awalnya hanya dapat membaca sebuah artikel pendek, kini dapat membaca seluruh novel panjang.
Lebih dalam lagi, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian. Bidang-bidang ini memiliki kebutuhan mendesak untuk kemampuan pengolahan dokumen panjang, ringkasan, dan pemahaman bacaan.
Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak sama dengan hasil yang lebih baik, kunci terletak pada bagaimana model menggunakan konten konteks.
Saat ini, eksplorasi panjang teks baik di dalam maupun luar negeri masih jauh dari batas. 400.000 token mungkin hanya sebuah awal.
Mengapa harus "menggulir" teks panjang?
Seorang pendiri perusahaan model besar menyatakan bahwa keterbatasan panjang input telah menyebabkan banyak kesulitan dalam penerapan aplikasi model besar. Ini juga merupakan alasan mengapa saat ini banyak perusahaan yang fokus pada teknologi teks panjang.
Teknologi teks panjang dapat mengatasi beberapa masalah awal model besar, meningkatkan fungsi tertentu, dan juga merupakan teknologi kunci untuk lebih mendorong implementasi aplikasi industri. Ini menandakan bahwa pengembangan model besar umum telah memasuki tahap baru - dari LLM ke era Long LLM.
Teknologi teks panjang akan membawa berbagai fungsi peningkatan untuk model besar:
Melakukan ekstraksi, ringkasan, dan analisis informasi kunci dari teks yang sangat panjang
Mengubah teks langsung menjadi kode, mewujudkan reproduksi dari makalah ke kode
Melakukan peran dalam skenario dialog panjang, mewujudkan percakapan yang dipersonalisasi
Fungsi-fungsi ini menunjukkan bahwa robot percakapan sedang berkembang ke arah yang lebih profesional, personal, dan mendalam, diharapkan dapat menjadi alat baru untuk mendorong aplikasi industri.
Namun, saat ini masih ada ruang untuk perbaikan dalam percakapan teks panjang. Misalnya, beberapa produk tidak mendukung koneksi internet untuk mendapatkan informasi terbaru, tidak dapat dijeda untuk mengedit selama proses pembuatan, dan bahkan dengan dukungan materi latar belakang, kesalahan masih dapat terjadi.
Dilema "Segitiga Tidak Mungkin" dari Teks Panjang
Teks panjang menghadapi dilema "segitiga mustahil" terkait panjang teks, perhatian, dan daya komputasi:
Semakin panjang teks, semakin sulit untuk menarik perhatian yang cukup
Di bawah batas perhatian, teks pendek sulit untuk sepenuhnya memahami informasi yang kompleks
Memproses teks panjang memerlukan banyak daya komputasi, meningkatkan biaya
Ini terutama disebabkan oleh struktur Transformer yang digunakan oleh sebagian besar model. Mekanisme perhatian diri di dalamnya membuat jumlah perhitungan tumbuh secara kuadrat seiring dengan panjang konteks.
Saat ini ada tiga solusi utama:
Menggunakan alat eksternal untuk membantu memproses teks panjang
Mengoptimalkan perhitungan mekanisme perhatian diri
Menggunakan metode optimasi model
Dilema "segitiga tak mungkin" dari teks panjang saat ini belum dapat sepenuhnya diselesaikan. Penyedia model besar perlu mencari titik keseimbangan antara panjang teks, perhatian, dan daya komputasi, agar dapat memproses informasi yang cukup, sekaligus mempertimbangkan efisiensi komputasi dan batasan biaya.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
19 Suka
Hadiah
19
5
Bagikan
Komentar
0/400
CryptoAdventurer
· 07-09 02:48
Ini adalah tingkat pengembalian pajak IQ saya setelah sepuluh tahun mengerjakan pekerjaan kasar.
Kemampuan teks panjang model besar meningkat 100 kali lipat, prospek aplikasi di bidang profesional sangat luas.
Kemampuan Teks Panjang Model Besar Ditingkatkan Lagi: Dari 4000 Menjadi 400000 Token
Model besar sedang meningkatkan kemampuan pemrosesan teks panjangnya dengan kecepatan yang mengagumkan. Teks panjang tampaknya telah menjadi standar baru bagi produsen model besar.
Menurut statistik, saat ini banyak perusahaan model besar dan lembaga penelitian terkemuka di dalam dan luar negeri menjadikan perluasan panjang konteks sebagai arah peningkatan yang penting. Sebagian besar perusahaan ini adalah kesayangan pasar modal dan telah mendapatkan investasi besar.
Perusahaan model besar berkomitmen untuk mengatasi teknologi teks panjang, apa artinya memperluas panjang konteks 100 kali lipat?
Secara superficial, ini berarti panjang teks yang dapat dimasukkan meningkat secara signifikan, kemampuan baca model telah meningkat secara substansial. Dari yang awalnya hanya dapat membaca sebuah artikel pendek, kini dapat membaca seluruh novel panjang.
Lebih dalam lagi, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian. Bidang-bidang ini memiliki kebutuhan mendesak untuk kemampuan pengolahan dokumen panjang, ringkasan, dan pemahaman bacaan.
Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak sama dengan hasil yang lebih baik, kunci terletak pada bagaimana model menggunakan konten konteks.
Saat ini, eksplorasi panjang teks baik di dalam maupun luar negeri masih jauh dari batas. 400.000 token mungkin hanya sebuah awal.
Mengapa harus "menggulir" teks panjang?
Seorang pendiri perusahaan model besar menyatakan bahwa keterbatasan panjang input telah menyebabkan banyak kesulitan dalam penerapan aplikasi model besar. Ini juga merupakan alasan mengapa saat ini banyak perusahaan yang fokus pada teknologi teks panjang.
Teknologi teks panjang dapat mengatasi beberapa masalah awal model besar, meningkatkan fungsi tertentu, dan juga merupakan teknologi kunci untuk lebih mendorong implementasi aplikasi industri. Ini menandakan bahwa pengembangan model besar umum telah memasuki tahap baru - dari LLM ke era Long LLM.
Teknologi teks panjang akan membawa berbagai fungsi peningkatan untuk model besar:
Fungsi-fungsi ini menunjukkan bahwa robot percakapan sedang berkembang ke arah yang lebih profesional, personal, dan mendalam, diharapkan dapat menjadi alat baru untuk mendorong aplikasi industri.
Namun, saat ini masih ada ruang untuk perbaikan dalam percakapan teks panjang. Misalnya, beberapa produk tidak mendukung koneksi internet untuk mendapatkan informasi terbaru, tidak dapat dijeda untuk mengedit selama proses pembuatan, dan bahkan dengan dukungan materi latar belakang, kesalahan masih dapat terjadi.
Dilema "Segitiga Tidak Mungkin" dari Teks Panjang
Teks panjang menghadapi dilema "segitiga mustahil" terkait panjang teks, perhatian, dan daya komputasi:
Ini terutama disebabkan oleh struktur Transformer yang digunakan oleh sebagian besar model. Mekanisme perhatian diri di dalamnya membuat jumlah perhitungan tumbuh secara kuadrat seiring dengan panjang konteks.
Saat ini ada tiga solusi utama:
Dilema "segitiga tak mungkin" dari teks panjang saat ini belum dapat sepenuhnya diselesaikan. Penyedia model besar perlu mencari titik keseimbangan antara panjang teks, perhatian, dan daya komputasi, agar dapat memproses informasi yang cukup, sekaligus mempertimbangkan efisiensi komputasi dan batasan biaya.