A capacidade de longo texto dos grandes modelos é atualizada novamente: de 4000 para 400.000 tokens
Os grandes modelos estão a melhorar a sua capacidade de processamento de longos textos a uma velocidade impressionante. Textos longos parecem ter-se tornado o novo padrão para os fornecedores de grandes modelos.
De acordo com estatísticas, atualmente já existem várias empresas e instituições de pesquisa de topo, tanto nacionais como internacionais, que estão a focar a expansão do comprimento do contexto como uma direção de atualização prioritária. A maioria dessas empresas são queridas do mercado de capitais, tendo recebido investimentos significativos.
As empresas de grandes modelos estão empenhadas em superar a tecnologia de textos longos. O que significa aumentar o comprimento do contexto em 100 vezes?
À primeira vista, isso significa que o comprimento do texto que pode ser inserido aumentou significativamente, e a capacidade de leitura do modelo melhorou consideravelmente. De inicialmente conseguir ler apenas um pequeno texto, agora pode ler um romance inteiro.
Em um nível mais profundo, a tecnologia de textos longos está impulsionando a aplicação de grandes modelos em áreas profissionais como finanças, direito e pesquisa científica. Esses campos têm uma necessidade urgente de capacidades de processamento de documentos longos, resumo e compreensão de leitura.
No entanto, o comprimento do texto não significa que quanto mais longo, melhor. Estudos mostram que o suporte do modelo para entradas de contexto mais longas não é igual a um desempenho melhor; o crucial é como o modelo utiliza o conteúdo do contexto.
Atualmente, a exploração do comprimento do texto, tanto nacional quanto internacionalmente, ainda está longe de atingir os limites. 400.000 tokens podem ser apenas o começo.
Por que "enrolar" textos longos?
Um fundador de uma empresa de grandes modelos afirmou que, devido à limitação do comprimento de entrada, muitos aplicativos de grandes modelos enfrentam dificuldades para serem implementados. Esta é também a razão pela qual várias empresas estão a concentrar-se na tecnologia de texto longo.
A tecnologia de texto longo pode resolver alguns problemas iniciais dos grandes modelos, aprimorar certas funcionalidades e também é uma tecnologia chave para avançar na implementação de aplicações industriais. Isso marca a entrada do desenvolvimento de grandes modelos gerais em uma nova fase - da era LLM para a era Long LLM.
A tecnologia de texto longo trará várias funcionalidades de atualização para grandes modelos:
Extração, resumo e análise de informações-chave de textos muito longos
Converter diretamente texto em código, realizando a reprodução de artigos em código.
Realizar um papel em cenas de diálogo longas, implementando diálogos personalizados
Estas funcionalidades indicam que os robôs de conversa estão a evoluir em direcção à especialização, personalização e profundidade, e têm potencial para se tornarem uma nova alavanca para a aplicação na indústria.
No entanto, atualmente ainda há espaço para otimização em diálogos de texto longo. Por exemplo, alguns produtos não suportam a obtenção de informações mais recentes pela internet, o que impossibilita a pausa e a modificação durante o processo de geração, e mesmo com suporte de informações de fundo, ainda podem ocorrer erros.
O dilema do "triângulo impossível" em textos longos
A tecnologia de texto longo enfrenta o dilema do "triângulo impossível" de comprimento do texto, atenção e poder computacional:
Quanto mais longo o texto, mais difícil é manter a atenção plena.
Sob limitações de atenção, textos curtos são difíceis de interpretar completamente informações complexas.
Processar textos longos requer muito poder de computação, aumentando os custos
Isto deve-se principalmente à estrutura Transformer adotada pela maioria dos modelos. O mecanismo de autoatenção faz com que a carga computacional cresça quadraticamente com o comprimento do contexto.
Atualmente, existem três soluções principais:
Usar ferramentas externas para ajudar a processar textos longos
Otimizar o cálculo do mecanismo de autoatenção
Utilizando métodos de otimização de modelos
O dilema do "triângulo impossível" para textos longos ainda não pode ser completamente resolvido. Os fornecedores de grandes modelos precisam encontrar um ponto de equilíbrio entre o comprimento do texto, a atenção e o poder computacional, de modo a poder processar informações suficientes, ao mesmo tempo que consideram a eficiência computacional e as limitações de custo.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
22 gostos
Recompensa
22
6
Partilhar
Comentar
0/400
GasGasGasBro
· 07-12 01:52
Não é só adicionar um módulo de memória?
Ver originalResponder0
CryptoAdventurer
· 07-09 02:48
Este é o retorno do imposto sobre a inteligência que paguei ao longo de dez anos de trabalho árduo.
A capacidade de textos longos de grandes modelos aumentou 100 vezes, com amplas perspectivas de aplicação em áreas profissionais.
A capacidade de longo texto dos grandes modelos é atualizada novamente: de 4000 para 400.000 tokens
Os grandes modelos estão a melhorar a sua capacidade de processamento de longos textos a uma velocidade impressionante. Textos longos parecem ter-se tornado o novo padrão para os fornecedores de grandes modelos.
De acordo com estatísticas, atualmente já existem várias empresas e instituições de pesquisa de topo, tanto nacionais como internacionais, que estão a focar a expansão do comprimento do contexto como uma direção de atualização prioritária. A maioria dessas empresas são queridas do mercado de capitais, tendo recebido investimentos significativos.
As empresas de grandes modelos estão empenhadas em superar a tecnologia de textos longos. O que significa aumentar o comprimento do contexto em 100 vezes?
À primeira vista, isso significa que o comprimento do texto que pode ser inserido aumentou significativamente, e a capacidade de leitura do modelo melhorou consideravelmente. De inicialmente conseguir ler apenas um pequeno texto, agora pode ler um romance inteiro.
Em um nível mais profundo, a tecnologia de textos longos está impulsionando a aplicação de grandes modelos em áreas profissionais como finanças, direito e pesquisa científica. Esses campos têm uma necessidade urgente de capacidades de processamento de documentos longos, resumo e compreensão de leitura.
No entanto, o comprimento do texto não significa que quanto mais longo, melhor. Estudos mostram que o suporte do modelo para entradas de contexto mais longas não é igual a um desempenho melhor; o crucial é como o modelo utiliza o conteúdo do contexto.
Atualmente, a exploração do comprimento do texto, tanto nacional quanto internacionalmente, ainda está longe de atingir os limites. 400.000 tokens podem ser apenas o começo.
Por que "enrolar" textos longos?
Um fundador de uma empresa de grandes modelos afirmou que, devido à limitação do comprimento de entrada, muitos aplicativos de grandes modelos enfrentam dificuldades para serem implementados. Esta é também a razão pela qual várias empresas estão a concentrar-se na tecnologia de texto longo.
A tecnologia de texto longo pode resolver alguns problemas iniciais dos grandes modelos, aprimorar certas funcionalidades e também é uma tecnologia chave para avançar na implementação de aplicações industriais. Isso marca a entrada do desenvolvimento de grandes modelos gerais em uma nova fase - da era LLM para a era Long LLM.
A tecnologia de texto longo trará várias funcionalidades de atualização para grandes modelos:
Estas funcionalidades indicam que os robôs de conversa estão a evoluir em direcção à especialização, personalização e profundidade, e têm potencial para se tornarem uma nova alavanca para a aplicação na indústria.
No entanto, atualmente ainda há espaço para otimização em diálogos de texto longo. Por exemplo, alguns produtos não suportam a obtenção de informações mais recentes pela internet, o que impossibilita a pausa e a modificação durante o processo de geração, e mesmo com suporte de informações de fundo, ainda podem ocorrer erros.
O dilema do "triângulo impossível" em textos longos
A tecnologia de texto longo enfrenta o dilema do "triângulo impossível" de comprimento do texto, atenção e poder computacional:
Isto deve-se principalmente à estrutura Transformer adotada pela maioria dos modelos. O mecanismo de autoatenção faz com que a carga computacional cresça quadraticamente com o comprimento do contexto.
Atualmente, existem três soluções principais:
O dilema do "triângulo impossível" para textos longos ainda não pode ser completamente resolvido. Os fornecedores de grandes modelos precisam encontrar um ponto de equilíbrio entre o comprimento do texto, a atenção e o poder computacional, de modo a poder processar informações suficientes, ao mesmo tempo que consideram a eficiência computacional e as limitações de custo.