A capacidade de textos longos de grandes modelos aumentou 100 vezes, com amplas perspectivas de aplicação em áreas profissionais.

robot
Geração de resumo em curso

A capacidade de longo texto dos grandes modelos é atualizada novamente: de 4000 para 400.000 tokens

Os grandes modelos estão a melhorar a sua capacidade de processamento de longos textos a uma velocidade impressionante. Textos longos parecem ter-se tornado o novo padrão para os fornecedores de grandes modelos.

De acordo com estatísticas, atualmente já existem várias empresas e instituições de pesquisa de topo, tanto nacionais como internacionais, que estão a focar a expansão do comprimento do contexto como uma direção de atualização prioritária. A maioria dessas empresas são queridas do mercado de capitais, tendo recebido investimentos significativos.

As empresas de grandes modelos estão empenhadas em superar a tecnologia de textos longos. O que significa aumentar o comprimento do contexto em 100 vezes?

À primeira vista, isso significa que o comprimento do texto que pode ser inserido aumentou significativamente, e a capacidade de leitura do modelo melhorou consideravelmente. De inicialmente conseguir ler apenas um pequeno texto, agora pode ler um romance inteiro.

Em um nível mais profundo, a tecnologia de textos longos está impulsionando a aplicação de grandes modelos em áreas profissionais como finanças, direito e pesquisa científica. Esses campos têm uma necessidade urgente de capacidades de processamento de documentos longos, resumo e compreensão de leitura.

No entanto, o comprimento do texto não significa que quanto mais longo, melhor. Estudos mostram que o suporte do modelo para entradas de contexto mais longas não é igual a um desempenho melhor; o crucial é como o modelo utiliza o conteúdo do contexto.

Atualmente, a exploração do comprimento do texto, tanto nacional quanto internacionalmente, ainda está longe de atingir os limites. 400.000 tokens podem ser apenas o começo.

Por que "enrolar" textos longos?

Um fundador de uma empresa de grandes modelos afirmou que, devido à limitação do comprimento de entrada, muitos aplicativos de grandes modelos enfrentam dificuldades para serem implementados. Esta é também a razão pela qual várias empresas estão a concentrar-se na tecnologia de texto longo.

A tecnologia de texto longo pode resolver alguns problemas iniciais dos grandes modelos, aprimorar certas funcionalidades e também é uma tecnologia chave para avançar na implementação de aplicações industriais. Isso marca a entrada do desenvolvimento de grandes modelos gerais em uma nova fase - da era LLM para a era Long LLM.

A tecnologia de texto longo trará várias funcionalidades de atualização para grandes modelos:

  • Extração, resumo e análise de informações-chave de textos muito longos
  • Converter diretamente texto em código, realizando a reprodução de artigos em código.
  • Realizar um papel em cenas de diálogo longas, implementando diálogos personalizados

Estas funcionalidades indicam que os robôs de conversa estão a evoluir em direcção à especialização, personalização e profundidade, e têm potencial para se tornarem uma nova alavanca para a aplicação na indústria.

No entanto, atualmente ainda há espaço para otimização em diálogos de texto longo. Por exemplo, alguns produtos não suportam a obtenção de informações mais recentes pela internet, o que impossibilita a pausa e a modificação durante o processo de geração, e mesmo com suporte de informações de fundo, ainda podem ocorrer erros.

O dilema do "triângulo impossível" em textos longos

A tecnologia de texto longo enfrenta o dilema do "triângulo impossível" de comprimento do texto, atenção e poder computacional:

  • Quanto mais longo o texto, mais difícil é manter a atenção plena.
  • Sob limitações de atenção, textos curtos são difíceis de interpretar completamente informações complexas.
  • Processar textos longos requer muito poder de computação, aumentando os custos

Isto deve-se principalmente à estrutura Transformer adotada pela maioria dos modelos. O mecanismo de autoatenção faz com que a carga computacional cresça quadraticamente com o comprimento do contexto.

Atualmente, existem três soluções principais:

  1. Usar ferramentas externas para ajudar a processar textos longos
  2. Otimizar o cálculo do mecanismo de autoatenção
  3. Utilizando métodos de otimização de modelos

O dilema do "triângulo impossível" para textos longos ainda não pode ser completamente resolvido. Os fornecedores de grandes modelos precisam encontrar um ponto de equilíbrio entre o comprimento do texto, a atenção e o poder computacional, de modo a poder processar informações suficientes, ao mesmo tempo que consideram a eficiência computacional e as limitações de custo.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 6
  • Partilhar
Comentar
0/400
GasGasGasBrovip
· 07-12 01:52
Não é só adicionar um módulo de memória?
Ver originalResponder0
CryptoAdventurervip
· 07-09 02:48
Este é o retorno do imposto sobre a inteligência que paguei ao longo de dez anos de trabalho árduo.
Ver originalResponder0
CountdownToBrokevip
· 07-09 02:45
Este custo de poder de computação, vá minerar.
Ver originalResponder0
ForkItAllvip
· 07-09 02:35
dados de crescimento duros e quentes
Ver originalResponder0
PoetryOnChainvip
· 07-09 02:30
Poder de computação esta parte é muito real.
Ver originalResponder0
OnchainHolmesvip
· 07-09 02:22
Este token sobe sem respeito pelas regras.
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)