Kemampuan teks panjang model besar meningkat 100 kali lipat, prospek aplikasi di bidang profesional sangat luas.

robot
Pembuatan abstrak sedang berlangsung

Kemampuan Teks Panjang Model Besar Ditingkatkan Lagi: Dari 4000 Menjadi 400000 Token

Model besar sedang meningkatkan kemampuan pemrosesan teks panjangnya dengan kecepatan yang mengagumkan. Teks panjang tampaknya telah menjadi standar baru bagi produsen model besar.

Menurut statistik, saat ini banyak perusahaan model besar dan lembaga penelitian terkemuka di dalam dan luar negeri menjadikan perluasan panjang konteks sebagai arah peningkatan yang penting. Sebagian besar perusahaan ini adalah kesayangan pasar modal dan telah mendapatkan investasi besar.

Perusahaan model besar berkomitmen untuk mengatasi teknologi teks panjang, apa artinya memperluas panjang konteks 100 kali lipat?

Secara superficial, ini berarti panjang teks yang dapat dimasukkan meningkat secara signifikan, kemampuan baca model telah meningkat secara substansial. Dari yang awalnya hanya dapat membaca sebuah artikel pendek, kini dapat membaca seluruh novel panjang.

Lebih dalam lagi, teknologi teks panjang sedang mendorong penerapan model besar di bidang profesional seperti keuangan, hukum, dan penelitian. Bidang-bidang ini memiliki kebutuhan mendesak untuk kemampuan pengolahan dokumen panjang, ringkasan, dan pemahaman bacaan.

Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa dukungan model untuk input konteks yang lebih panjang tidak sama dengan hasil yang lebih baik, kunci terletak pada bagaimana model menggunakan konten konteks.

Saat ini, eksplorasi panjang teks baik di dalam maupun luar negeri masih jauh dari batas. 400.000 token mungkin hanya sebuah awal.

Mengapa harus "menggulir" teks panjang?

Seorang pendiri perusahaan model besar menyatakan bahwa keterbatasan panjang input telah menyebabkan banyak kesulitan dalam penerapan aplikasi model besar. Ini juga merupakan alasan mengapa saat ini banyak perusahaan yang fokus pada teknologi teks panjang.

Teknologi teks panjang dapat mengatasi beberapa masalah awal model besar, meningkatkan fungsi tertentu, dan juga merupakan teknologi kunci untuk lebih mendorong implementasi aplikasi industri. Ini menandakan bahwa pengembangan model besar umum telah memasuki tahap baru - dari LLM ke era Long LLM.

Teknologi teks panjang akan membawa berbagai fungsi peningkatan untuk model besar:

  • Melakukan ekstraksi, ringkasan, dan analisis informasi kunci dari teks yang sangat panjang
  • Mengubah teks langsung menjadi kode, mewujudkan reproduksi dari makalah ke kode
  • Melakukan peran dalam skenario dialog panjang, mewujudkan percakapan yang dipersonalisasi

Fungsi-fungsi ini menunjukkan bahwa robot percakapan sedang berkembang ke arah yang lebih profesional, personal, dan mendalam, diharapkan dapat menjadi alat baru untuk mendorong aplikasi industri.

Namun, saat ini masih ada ruang untuk perbaikan dalam percakapan teks panjang. Misalnya, beberapa produk tidak mendukung koneksi internet untuk mendapatkan informasi terbaru, tidak dapat dijeda untuk mengedit selama proses pembuatan, dan bahkan dengan dukungan materi latar belakang, kesalahan masih dapat terjadi.

Dilema "Segitiga Tidak Mungkin" dari Teks Panjang

Teks panjang menghadapi dilema "segitiga mustahil" terkait panjang teks, perhatian, dan daya komputasi:

  • Semakin panjang teks, semakin sulit untuk menarik perhatian yang cukup
  • Di bawah batas perhatian, teks pendek sulit untuk sepenuhnya memahami informasi yang kompleks
  • Memproses teks panjang memerlukan banyak daya komputasi, meningkatkan biaya

Ini terutama disebabkan oleh struktur Transformer yang digunakan oleh sebagian besar model. Mekanisme perhatian diri di dalamnya membuat jumlah perhitungan tumbuh secara kuadrat seiring dengan panjang konteks.

Saat ini ada tiga solusi utama:

  1. Menggunakan alat eksternal untuk membantu memproses teks panjang
  2. Mengoptimalkan perhitungan mekanisme perhatian diri
  3. Menggunakan metode optimasi model

Dilema "segitiga tak mungkin" dari teks panjang saat ini belum dapat sepenuhnya diselesaikan. Penyedia model besar perlu mencari titik keseimbangan antara panjang teks, perhatian, dan daya komputasi, agar dapat memproses informasi yang cukup, sekaligus mempertimbangkan efisiensi komputasi dan batasan biaya.

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • 5
  • Bagikan
Komentar
0/400
CryptoAdventurervip
· 07-09 02:48
Ini adalah tingkat pengembalian pajak IQ saya setelah sepuluh tahun mengerjakan pekerjaan kasar.
Lihat AsliBalas0
CountdownToBrokevip
· 07-09 02:45
Biaya Daya Komputasi ini, ayo cari tambang.
Lihat AsliBalas0
ForkItAllvip
· 07-09 02:35
Data pertumbuhan yang keras dan panas
Lihat AsliBalas0
PoetryOnChainvip
· 07-09 02:30
Daya Komputasi ini sangat nyata.
Lihat AsliBalas0
OnchainHolmesvip
· 07-09 02:22
token ini naik tidak beretika
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)