La capacité des grands modèles à traiter de longs textes a augmenté de 100 fois, et les perspectives d'application dans des domaines professionnels sont vastes.

robot
Création du résumé en cours

Amélioration des capacités de texte long des grands modèles : de 4000 à 400 000 tokens

Les grands modèles améliorent leur capacité à traiter des longs textes à une vitesse incroyable. Les longs textes semblent être devenus une nouvelle norme pour les fournisseurs de grands modèles.

Selon les statistiques, de nombreuses entreprises de modèles de pointe et instituts de recherche, tant nationaux qu'internationaux, ont choisi l'extension de la longueur du contexte comme direction de mise à niveau prioritaire. Ces entreprises sont pour la plupart les chouchous du marché des capitaux et ont reçu d'énormes investissements.

Les entreprises de grands modèles s'efforcent de conquérir la technologie des longs textes. Que signifie une augmentation de 100 fois de la longueur du contexte ?

En surface, cela signifie que la longueur du texte pouvant être saisie a considérablement augmenté, et la capacité de lecture du modèle a été significativement améliorée. Passant de la capacité de lire uniquement un court texte à celle de lire un roman entier.

À un niveau plus profond, la technologie des longs textes pousse l'application des grands modèles dans des domaines professionnels tels que la finance, le droit et la recherche scientifique. Ces domaines ont un besoin urgent de capacités de traitement de longs documents, de résumé et de compréhension de la lecture.

Cependant, la longueur du texte n'est pas toujours un indicateur de qualité. Des études montrent que le fait qu'un modèle supporte des entrées contextuelles plus longues ne signifie pas nécessairement de meilleures performances, l'important est de savoir comment le modèle utilise le contenu contextuel.

Actuellement, l'exploration de la longueur des textes, tant au niveau national qu'international, n'a pas encore atteint ses limites. 400 000 tokens ne sont peut-être qu'un début.

Pourquoi "rouler" les longs textes ?

Un fondateur d'une entreprise de modèles de grande taille a déclaré que c'est à cause des limitations de longueur d'entrée que de nombreuses applications de modèles de grande taille rencontrent des difficultés de mise en œuvre. C'est aussi la raison pour laquelle de nombreuses entreprises se concentrent actuellement sur la technologie des longs textes.

La technologie des longs textes peut résoudre certains problèmes des grands modèles à leurs débuts, renforcer certaines fonctionnalités et constitue également une technologie clé pour faire avancer l'application industrielle. Cela marque l'entrée du développement des grands modèles généraux dans une nouvelle phase - de LLM à l'ère du Long LLM.

La technologie des longs textes apportera plusieurs fonctionnalités de mise à niveau aux grands modèles :

  • Extraction, résumé et analyse des informations clés à partir de textes très longs
  • Convertir directement le texte en code, réaliser la reproduction d'un article en code.
  • Jouer des rôles dans des scénarios de dialogue longs pour réaliser des conversations personnalisées

Ces fonctionnalités indiquent que les robots de conversation évoluent vers une spécialisation, une personnalisation et une profondeur accrues, et devraient devenir un nouvel levier pour les applications industrielles.

Cependant, il y a encore de l'espace pour optimiser les dialogues longs. Par exemple, certains produits ne prennent pas en charge la connexion pour obtenir les dernières informations, il n'est pas possible de suspendre et de modifier le processus de génération, et même avec un soutien de documents de fond, des erreurs peuvent encore survenir.

Le dilemme du "triangle impossible" des longs textes

Le texte long fait face au dilemme du "triangle impossible" de la longueur du texte, de l'attention et de la puissance de calcul :

  • Plus le texte est long, plus il est difficile de concentrer l'attention.
  • Sous des limites d'attention, il est difficile de comprendre des informations complexes dans de courts textes.
  • Le traitement de longs textes nécessite une grande puissance de calcul, ce qui augmente les coûts.

Cela provient principalement de la structure Transformer adoptée par la plupart des modèles. Le mécanisme d'attention auto-référent fait que la charge de calcul augmente de manière quadratique avec la longueur du contexte.

Actuellement, il existe principalement trois solutions :

  1. Utiliser des outils externes pour aider à traiter de longs textes
  2. Optimiser le calcul du mécanisme d'attention auto
  3. Utiliser des méthodes d'optimisation de modèle

Le dilemme du "triangle impossible" pour les longs textes n'est actuellement pas complètement résolu. Les fournisseurs de grands modèles doivent trouver un équilibre entre la longueur du texte, l'attention et la puissance de calcul, afin de pouvoir traiter suffisamment d'informations tout en tenant compte de l'efficacité du calcul et des contraintes de coût.

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • 6
  • Partager
Commentaire
0/400
GasGasGasBrovip
· Il y a 23h
Ce n'est qu'une barrette de mémoire qui a été ajoutée.
Voir l'originalRépondre0
CryptoAdventurervip
· 07-09 02:48
C'est le taux de retour de l'impôt sur l'intelligence que j'ai payé pour dix ans de travail acharné.
Voir l'originalRépondre0
CountdownToBrokevip
· 07-09 02:45
Ce coût de puissance de calcul, va miner.
Voir l'originalRépondre0
ForkItAllvip
· 07-09 02:35
données de hausse dures et brûlantes
Voir l'originalRépondre0
PoetryOnChainvip
· 07-09 02:30
La puissance de calcul est très réelle.
Voir l'originalRépondre0
OnchainHolmesvip
· 07-09 02:22
Ce token a une hausse incroyable.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)