La capacidad de texto largo de los grandes modelos ha aumentado 100 veces, y las perspectivas de aplicación en campos profesionales son amplias.

robot
Generación de resúmenes en curso

La capacidad de texto largo del modelo grande se actualiza nuevamente: de 4000 a 400,000 tokens

Los grandes modelos están mejorando su capacidad de procesamiento de textos largos a una velocidad asombrosa. Los textos largos parecen haberse convertido en un nuevo estándar para los proveedores de grandes modelos.

Según estadísticas, actualmente hay varias empresas de modelos grandes y agencias de investigación de primer nivel en el país y en el extranjero que han puesto la expansión de la longitud del contexto como una dirección de actualización clave. La mayoría de estas empresas son las favoritas del mercado de capitales y han recibido grandes inversiones.

Las empresas de modelos grandes se dedican a superar la tecnología de texto largo, ¿qué significa ampliar la longitud del contexto 100 veces?

A simple vista, esto significa que la longitud del texto que se puede ingresar ha aumentado considerablemente, y la capacidad de lectura del modelo ha mejorado significativamente. Desde que inicialmente solo podía leer un breve ensayo, hasta ahora puede leer una novela completa.

Desde una perspectiva más profunda, la tecnología de texto largo está impulsando la aplicación de grandes modelos en campos profesionales como las finanzas, el derecho y la investigación científica. Estos campos tienen una necesidad urgente de capacidades para el procesamiento de documentos largos, la síntesis de resúmenes y la comprensión de lectura.

Sin embargo, la longitud del texto no siempre es mejor. Los estudios muestran que el hecho de que el modelo soporte entradas de contexto más largas no implica que el rendimiento sea mejor, lo clave es cómo el modelo utiliza el contenido del contexto.

Actualmente, la exploración de la longitud del texto tanto a nivel nacional como internacional aún está lejos de alcanzar su límite. 400,000 tokens pueden ser solo un comienzo.

¿Por qué "enrollar" texto largo?

Un fundador de una empresa de modelos grandes ha declarado que, debido a las limitaciones de longitud de entrada, se ha generado una gran dificultad para la implementación de muchas aplicaciones de modelos grandes. Esta es también la razón por la que actualmente muchas empresas se enfocan en la tecnología de texto largo.

La tecnología de texto largo puede resolver algunos problemas tempranos de los grandes modelos, mejorar ciertas funciones y también es la tecnología clave para avanzar en la implementación de aplicaciones industriales. Esto marca la entrada en una nueva etapa en el desarrollo de modelos grandes generales: de LLM a la era de Long LLM.

La tecnología de texto largo traerá múltiples funciones de actualización para los grandes modelos:

  • Extracción, resumen y análisis de información clave de textos muy largos
  • Convertir directamente el texto en código, logrando la reproducción de un artículo a código.
  • Realizar un juego de roles en escenarios de conversación largos para lograr diálogos personalizados

Estas descripciones de funciones indican que los chatbots están avanzando hacia una especialización, personalización y profundización, y se espera que se conviertan en una nueva palanca para impulsar aplicaciones industriales.

Sin embargo, actualmente hay espacio para optimizar los diálogos de texto largos. Por ejemplo, algunos productos no soportan la conexión a Internet para obtener la información más reciente, no se puede pausar y modificar durante el proceso de generación, y aunque haya material de fondo, aún pueden surgir errores.

La "tríada imposible" del texto largo

El texto largo enfrenta el dilema del "triángulo imposible" de la longitud del texto, la atención y la computación:

  • Cuanto más largo es el texto, más difícil es concentrar la atención suficiente.
  • Bajo la limitación de atención, los textos cortos son difíciles de interpretar completamente la información compleja
  • Procesar texto largo requiere mucha potencia de cálculo, aumentando los costos

Esto se debe principalmente a la estructura Transformer adoptada por la mayoría de los modelos. El mecanismo de autoatención dentro de ellos hace que la carga computacional crezca de manera cuadrática con la longitud del contexto.

Actualmente hay tres soluciones principales:

  1. Utilizar herramientas externas para ayudar a procesar textos largos
  2. Optimización del cálculo del mecanismo de autoatención
  3. Utilizando métodos de optimización de modelos

El dilema de la "tríada imposible" en textos largos aún no se puede resolver por completo. Los fabricantes de modelos grandes necesitan encontrar un punto de equilibrio entre la longitud del texto, la atención y la potencia de cálculo, para poder manejar suficiente información y al mismo tiempo considerar la eficiencia computacional y las limitaciones de costos.

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 5
  • Compartir
Comentar
0/400
CryptoAdventurervip
· 07-09 02:48
Este es el rendimiento del impuesto a la inteligencia que he obtenido tras diez años de trabajar duro.
Ver originalesResponder0
CountdownToBrokevip
· 07-09 02:45
Este costo de potencia computacional, ve a minar.
Ver originalesResponder0
ForkItAllvip
· 07-09 02:35
datos de crecimiento duros y calientes
Ver originalesResponder0
PoetryOnChainvip
· 07-09 02:30
La potencia computacional es muy real.
Ver originalesResponder0
OnchainHolmesvip
· 07-09 02:22
Este token sube sin escrúpulos.
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)