O recente desenvolvimento da indústria de inteligência artificial é visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos de linguagem elevou significativamente a eficiência em diversos setores, com estimativas de que melhorou cerca de 20% a eficiência do trabalho nos EUA. Ao mesmo tempo, a capacidade de generalização dos grandes modelos é considerada um novo paradigma de design de software; em comparação com o design de código preciso do passado, o software atual tende a incorporar estruturas de grandes modelos generalizados, permitindo uma ampla variedade de entradas e saídas de modalidades. A tecnologia de aprendizado profundo realmente trouxe uma nova onda de prosperidade para a indústria de IA, e essa onda também impactou a indústria de criptomoedas.
Neste relatório, iremos explorar detalhadamente a evolução da indústria de IA, as classificações tecnológicas e o impacto da tecnologia de aprendizado profundo na indústria. Em seguida, analisaremos profundamente o estado atual e as tendências do desenvolvimento da cadeia de suprimentos da indústria em aprendizado profundo, incluindo GPU, computação em nuvem, fontes de dados e dispositivos de borda. Por fim, iremos explorar essencialmente a relação entre a indústria de Crypto e a de IA, delineando o panorama da cadeia de suprimentos de AI relacionada a Crypto.
História do desenvolvimento da indústria de IA
A indústria de IA começou na década de 1950. Para realizar a visão da inteligência artificial, o mundo acadêmico e a indústria desenvolveram várias correntes de realização da inteligência artificial em diferentes épocas e contextos disciplinares.
A tecnologia moderna de inteligência artificial utiliza principalmente o termo "aprendizagem de máquina", cuja ideia é permitir que as máquinas melhorem o desempenho do sistema ao iterar repetidamente em tarefas com base em dados. Os principais passos são enviar dados para o algoritmo, treinar o modelo com esses dados, testar e implantar o modelo, e usar o modelo para completar tarefas de previsão automatizada.
Atualmente, a aprendizagem de máquina tem três principais correntes, que são o conexionismo, o simbolismo e o behaviorismo, imitando respectivamente o sistema nervoso humano, o pensamento e o comportamento.
Atualmente, o conexionismo, representado por redes neurais, está em vantagem ( também conhecido como aprendizado profundo ), a principal razão é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Assim que o número de camadas e o número de neurônios ( parâmetros ) forem suficientes, haverá uma oportunidade adequada para ajustar tarefas complexas de forma geral. Através da entrada de dados, é possível ajustar continuamente os parâmetros dos neurônios, e após várias iterações de dados, esse neurônio alcançará o estado ótimo ( parâmetros ), que também é a origem da palavra "profundo" - um número suficiente de camadas e neurônios.
Por exemplo, pode-se entender de forma simples como a construção de uma função, onde ao inserir X=2, temos Y=3; ao inserir X=3, Y=5. Se quisermos que essa função funcione para todos os X, será necessário continuar adicionando o grau da função e seus parâmetros. Por exemplo, uma função que satisfaça essa condição pode ser Y = 2X - 1. No entanto, se houver um dado onde X=2 e Y=11, será necessário reestruturar uma função que se ajuste a esses três pontos de dados. Usando GPU para uma força bruta, descobrimos que Y = X² - 3X + 5 é bastante adequado, mas não precisa coincidir exatamente com os dados, apenas respeitar o equilíbrio e ter uma saída aproximadamente similar. Aqui, X², X e X₀ representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.
Neste momento, se introduzirmos uma grande quantidade de dados na rede neural, podemos aumentar os neurônios e iterar os parâmetros para ajustar os novos dados. Assim, conseguiremos ajustar todos os dados.
E a tecnologia de aprendizado profundo baseada em redes neurais também teve várias iterações e evoluções técnicas, como as redes neurais mais antigas, redes neurais feedforward, RNN, CNN, GAN, até evoluir para grandes modelos modernos como o GPT, que utilizam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor ( Transformer ), para codificar os dados de todas as modalidades (, como áudio, vídeo, imagens, etc. ) em valores correspondentes para representação. Esses dados são então inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, realizando multimodalidade.
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda ocorreu na década de 1960, uma década após a introdução da tecnologia de IA. Esta onda foi impulsionada pelo desenvolvimento da tecnologia simbolista, que resolveu problemas de processamento de linguagem natural e diálogo homem-máquina. Nesse mesmo período, surgiram os sistemas especialistas, sendo o sistema especialista DENRAL, concluído sob a supervisão da NASA por uma universidade americana. Este sistema possui um vasto conhecimento químico e é capaz de inferir respostas semelhantes às de um especialista em química através de perguntas. Este sistema de especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 1990, o cientista e filósofo americano de origem israelita Judea Pearl propôs as redes bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks apresentou a robótica baseada em comportamento, marcando o nascimento do behaviorismo.
Em 1997, um programa de xadrez de uma empresa de tecnologia venceu o campeão mundial de xadrez Kasparov por 3,5 a 2,5, e essa vitória foi vista como um marco para a inteligência artificial, marcando o auge de uma segunda onda de desenvolvimento da tecnologia de IA.
A terceira onda de tecnologias de IA ocorreu em 2006. Os três gigantes do deep learning, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de deep learning, um algoritmo que utiliza redes neurais artificiais como arquitetura para realizar aprendizado de representação de dados. Após isso, os algoritmos de deep learning evoluíram gradualmente, desde RNN, GAN até Transformer e Stable Diffusion, sendo que esses dois últimos algoritmos moldaram a terceira onda tecnológica, e este também é o auge do conexionismo.
Muitos eventos icônicos também surgiram gradualmente acompanhados pela exploração e evolução da tecnologia de aprendizado profundo, incluindo:
Em 2011, um sistema de inteligência artificial venceu os humanos e conquistou o campeonato no programa de quiz "Perigo".
Em 2014, Goodfellow propôs a GAN(, uma rede generativa adversarial), que aprende através da competição entre duas redes neurais, sendo capaz de gerar fotos tão realistas que são indistinguíveis das verdadeiras. Ao mesmo tempo, Goodfellow escreveu um livro chamado "Deep Learning", que se tornou um dos principais livros introdutórios na área de aprendizado profundo.
Em 2015, Hinton e outros propuseram algoritmos de aprendizado profundo, provocando uma enorme repercussão na academia e na indústria.
Em 2015, a OpenAI foi criada, recebendo um investimento conjunto de 1 bilhão de dólares de vários investidores renomados.
Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, enfrentou o campeão mundial de Go e jogador profissional de nove dan, Lee Sedol, vencendo por 4 a 1.
Em 2017, um robô humanoide chamado Sophia, desenvolvido por uma empresa de tecnologia, obteve cidadania, possuindo uma ampla gama de expressões faciais e habilidades de compreensão da linguagem humana.
Em 2017, o Google publicou o artigo "A Atenção é Tudo o que Você Precisa" que propôs o algoritmo Transformer, marcando o início do surgimento de modelos de linguagem em grande escala.
Em 2018, a OpenAI lançou o GPT, um modelo de linguagem construído com base no algoritmo Transformer, que era um dos maiores modelos de linguagem da época.
Em 2018, a DeepMind lançou o AlphaFold, baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande avanço no campo da inteligência artificial.
Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhões de parâmetros.
Em 2020, o GPT-3 desenvolvido pela OpenAI possui 175 bilhões de parâmetros, 100 vezes mais que a versão anterior GPT-2. Este modelo foi treinado com 570 GB de texto e pode alcançar desempenho de ponta em várias tarefas de PLN.
Em 2021, a OpenAI lançou o GPT-4, que possui 1,76 trilião de parâmetros, sendo 10 vezes mais que o GPT-3.
A aplicação ChatGPT baseada no modelo GPT-4 foi lançada em janeiro de 2023, atingindo cem milhões de utilizadores em março, tornando-se a aplicação que alcançou mais rapidamente os cem milhões de utilizadores na história.
Em 2024, a OpenAI lançará o GPT-4 omni.
Cadeia de Indústria de Aprendizado Profundo
Atualmente, os modelos de linguagem grandes utilizam métodos de aprendizado profundo baseados em redes neurais. Liderados pelo GPT, os grandes modelos geraram uma onda de entusiasmo em inteligência artificial, com muitos jogadores entrando nesta corrida. Também observamos uma explosão na demanda do mercado por dados e poder computacional. Portanto, nesta parte do relatório, exploramos principalmente a cadeia industrial dos algoritmos de aprendizado profundo, como são compostos os setores upstream e downstream na indústria de IA dominada por algoritmos de aprendizado profundo, e como a situação atual e a relação de oferta e demanda, bem como o desenvolvimento futuro, se apresentam.
Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs, liderados pelo GPT com base na tecnologia Transformer (, é dividido em três etapas.
Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, e esse processo é chamado de "Tokenization". Depois, esses valores são chamados de Token. De acordo com a regra geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado um Token, enquanto cada caractere chinês pode ser grosseiramente considerado dois Tokens. Esta também é a unidade básica usada para a precificação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer um número suficiente de pares de dados à camada de entrada, semelhante ao exemplo mencionado na primeira parte do relatório )X,Y(, para encontrar os melhores parâmetros para cada neurônio sob este modelo, é necessário um grande volume de dados, e esse processo também é o mais exigente em termos de poder computacional, pois envolve a iteração repetida dos neurônios tentando vários parâmetros. Após o término do treinamento de um lote de pares de dados, geralmente utiliza-se o mesmo lote de dados para um segundo treinamento a fim de iterar os parâmetros.
O segundo passo é o ajuste fino. O ajuste fino consiste em fornecer um lote menor, mas com dados de muito alta qualidade, para treinar; essa alteração fará com que a saída do modelo tenha uma qualidade superior, uma vez que o pré-treinamento requer uma grande quantidade de dados, mas muitos dados podem conter erros ou serem de baixa qualidade. O passo de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.
O terceiro passo é o aprendizado por reforço. Primeiro, será criado um modelo completamente novo, que chamamos de "modelo de recompensa". O objetivo deste modelo é muito simples, que é classificar os resultados da saída, portanto, a implementação deste modelo será relativamente simples, pois o cenário de negócios é bastante vertical. Depois, usamos este modelo para determinar se a saída do nosso grande modelo é de alta qualidade, assim podemos usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ) No entanto, às vezes, também é necessária a participação humana para avaliar a qualidade da saída do modelo (.
Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a potência de cálculo de GPU necessária também é a maior, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros. O aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensa para produzir resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto da sua capacidade de generalização. Por exemplo, no exemplo que usamos com a função Y = aX + b, na verdade, existem dois neurônios, X e X0. Portanto, como os parâmetros variam, os dados que podem ser ajustados são extremamente limitados, porque sua essência ainda é uma linha reta. Se houver mais neurônios, será possível iterar mais parâmetros, permitindo ajustar mais dados. Esta é a razão pela qual grandes modelos produzem resultados surpreendentes e também é por isso que o nome popular "grande modelo" é utilizado, essencialmente consistindo em uma quantidade massiva de neurônios e parâmetros, além de uma quantidade imensa de dados, que também requer uma enorme capacidade computacional.
Portanto, o desempenho de grandes modelos é principalmente determinado por três aspectos: número de parâmetros, quantidade e qualidade dos dados, e poder computacional. Esses três aspectos afetam conjuntamente a qualidade dos resultados e a capacidade de generalização do grande modelo. Suponhamos que o número de parâmetros seja p, a quantidade de dados seja n) calculada em termos de número de Tokens(, então podemos calcular a quantidade de computação necessária através de uma regra geral, permitindo assim estimar a quantidade de poder computacional a ser adquirida e o tempo de treinamento necessário.
A capacidade computacional é geralmente medida em Flops, que representa uma operação de ponto flutuante. Operações de ponto flutuante referem-se a adições, subtrações, multiplicações e divisões de valores não inteiros, como 2.5 + 3.557, onde ponto flutuante representa a capacidade de incluir casas decimais, e FP16 representa a precisão que suporta decimais, enquanto FP32 é uma precisão mais comum. Com base em regras práticas, o pré-treinamento )Pre-traning( é geralmente realizado várias vezes ) em um grande modelo, e requer cerca de 6np Flops, onde 6 é conhecido como uma constante da indústria. E a inferência (Inference é o processo em que inserimos um dado e aguardamos a saída do grande modelo ), dividido em duas partes: entrada de n tokens e saída de n tokens, requerendo aproximadamente um total de 2np Flops.
No início, usava-se chips CPU para treinamento, proporcionando suporte de poder computacional, mas depois começou-se a usar gradualmente GPUs como substitutos, como os chips A100 e H100 da Nvidia. Isso porque a CPU existe como computação geral, mas a GPU pode atuar como especializada.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
8 Curtidas
Recompensa
8
4
Repostar
Compartilhar
Comentário
0/400
TokenDustCollector
· 08-13 22:14
Outra onda de fazer as pessoas de parvas chegou, não é?
Ver originalResponder0
ThesisInvestor
· 08-13 22:09
Não fique a exagerar com a IA, vai saber depois de cair.
AI e Ativos de criptografia: a nova configuração da cadeia industrial sob a inovação tecnológica
AI x Crypto: Do zero ao auge
Introdução
O recente desenvolvimento da indústria de inteligência artificial é visto por alguns como a quarta revolução industrial. O surgimento de grandes modelos de linguagem elevou significativamente a eficiência em diversos setores, com estimativas de que melhorou cerca de 20% a eficiência do trabalho nos EUA. Ao mesmo tempo, a capacidade de generalização dos grandes modelos é considerada um novo paradigma de design de software; em comparação com o design de código preciso do passado, o software atual tende a incorporar estruturas de grandes modelos generalizados, permitindo uma ampla variedade de entradas e saídas de modalidades. A tecnologia de aprendizado profundo realmente trouxe uma nova onda de prosperidade para a indústria de IA, e essa onda também impactou a indústria de criptomoedas.
Neste relatório, iremos explorar detalhadamente a evolução da indústria de IA, as classificações tecnológicas e o impacto da tecnologia de aprendizado profundo na indústria. Em seguida, analisaremos profundamente o estado atual e as tendências do desenvolvimento da cadeia de suprimentos da indústria em aprendizado profundo, incluindo GPU, computação em nuvem, fontes de dados e dispositivos de borda. Por fim, iremos explorar essencialmente a relação entre a indústria de Crypto e a de IA, delineando o panorama da cadeia de suprimentos de AI relacionada a Crypto.
História do desenvolvimento da indústria de IA
A indústria de IA começou na década de 1950. Para realizar a visão da inteligência artificial, o mundo acadêmico e a indústria desenvolveram várias correntes de realização da inteligência artificial em diferentes épocas e contextos disciplinares.
A tecnologia moderna de inteligência artificial utiliza principalmente o termo "aprendizagem de máquina", cuja ideia é permitir que as máquinas melhorem o desempenho do sistema ao iterar repetidamente em tarefas com base em dados. Os principais passos são enviar dados para o algoritmo, treinar o modelo com esses dados, testar e implantar o modelo, e usar o modelo para completar tarefas de previsão automatizada.
Atualmente, a aprendizagem de máquina tem três principais correntes, que são o conexionismo, o simbolismo e o behaviorismo, imitando respectivamente o sistema nervoso humano, o pensamento e o comportamento.
Atualmente, o conexionismo, representado por redes neurais, está em vantagem ( também conhecido como aprendizado profundo ), a principal razão é que essa arquitetura possui uma camada de entrada, uma camada de saída, mas várias camadas ocultas. Assim que o número de camadas e o número de neurônios ( parâmetros ) forem suficientes, haverá uma oportunidade adequada para ajustar tarefas complexas de forma geral. Através da entrada de dados, é possível ajustar continuamente os parâmetros dos neurônios, e após várias iterações de dados, esse neurônio alcançará o estado ótimo ( parâmetros ), que também é a origem da palavra "profundo" - um número suficiente de camadas e neurônios.
Por exemplo, pode-se entender de forma simples como a construção de uma função, onde ao inserir X=2, temos Y=3; ao inserir X=3, Y=5. Se quisermos que essa função funcione para todos os X, será necessário continuar adicionando o grau da função e seus parâmetros. Por exemplo, uma função que satisfaça essa condição pode ser Y = 2X - 1. No entanto, se houver um dado onde X=2 e Y=11, será necessário reestruturar uma função que se ajuste a esses três pontos de dados. Usando GPU para uma força bruta, descobrimos que Y = X² - 3X + 5 é bastante adequado, mas não precisa coincidir exatamente com os dados, apenas respeitar o equilíbrio e ter uma saída aproximadamente similar. Aqui, X², X e X₀ representam diferentes neurônios, enquanto 1, -3 e 5 são seus parâmetros.
Neste momento, se introduzirmos uma grande quantidade de dados na rede neural, podemos aumentar os neurônios e iterar os parâmetros para ajustar os novos dados. Assim, conseguiremos ajustar todos os dados.
E a tecnologia de aprendizado profundo baseada em redes neurais também teve várias iterações e evoluções técnicas, como as redes neurais mais antigas, redes neurais feedforward, RNN, CNN, GAN, até evoluir para grandes modelos modernos como o GPT, que utilizam a tecnologia Transformer. A tecnologia Transformer é apenas uma direção de evolução das redes neurais, adicionando um conversor ( Transformer ), para codificar os dados de todas as modalidades (, como áudio, vídeo, imagens, etc. ) em valores correspondentes para representação. Esses dados são então inseridos na rede neural, permitindo que a rede neural se ajuste a qualquer tipo de dado, ou seja, realizando multimodalidade.
O desenvolvimento da IA passou por três ondas tecnológicas. A primeira onda ocorreu na década de 1960, uma década após a introdução da tecnologia de IA. Esta onda foi impulsionada pelo desenvolvimento da tecnologia simbolista, que resolveu problemas de processamento de linguagem natural e diálogo homem-máquina. Nesse mesmo período, surgiram os sistemas especialistas, sendo o sistema especialista DENRAL, concluído sob a supervisão da NASA por uma universidade americana. Este sistema possui um vasto conhecimento químico e é capaz de inferir respostas semelhantes às de um especialista em química através de perguntas. Este sistema de especialista em química pode ser visto como uma combinação de um banco de dados de conhecimento químico e um sistema de inferência.
Após os sistemas especialistas, na década de 1990, o cientista e filósofo americano de origem israelita Judea Pearl propôs as redes bayesianas, que também são conhecidas como redes de crença. Na mesma época, Brooks apresentou a robótica baseada em comportamento, marcando o nascimento do behaviorismo.
Em 1997, um programa de xadrez de uma empresa de tecnologia venceu o campeão mundial de xadrez Kasparov por 3,5 a 2,5, e essa vitória foi vista como um marco para a inteligência artificial, marcando o auge de uma segunda onda de desenvolvimento da tecnologia de IA.
A terceira onda de tecnologias de IA ocorreu em 2006. Os três gigantes do deep learning, Yann LeCun, Geoffrey Hinton e Yoshua Bengio, propuseram o conceito de deep learning, um algoritmo que utiliza redes neurais artificiais como arquitetura para realizar aprendizado de representação de dados. Após isso, os algoritmos de deep learning evoluíram gradualmente, desde RNN, GAN até Transformer e Stable Diffusion, sendo que esses dois últimos algoritmos moldaram a terceira onda tecnológica, e este também é o auge do conexionismo.
Muitos eventos icônicos também surgiram gradualmente acompanhados pela exploração e evolução da tecnologia de aprendizado profundo, incluindo:
Em 2011, um sistema de inteligência artificial venceu os humanos e conquistou o campeonato no programa de quiz "Perigo".
Em 2014, Goodfellow propôs a GAN(, uma rede generativa adversarial), que aprende através da competição entre duas redes neurais, sendo capaz de gerar fotos tão realistas que são indistinguíveis das verdadeiras. Ao mesmo tempo, Goodfellow escreveu um livro chamado "Deep Learning", que se tornou um dos principais livros introdutórios na área de aprendizado profundo.
Em 2015, Hinton e outros propuseram algoritmos de aprendizado profundo, provocando uma enorme repercussão na academia e na indústria.
Em 2015, a OpenAI foi criada, recebendo um investimento conjunto de 1 bilhão de dólares de vários investidores renomados.
Em 2016, o AlphaGo, baseado em tecnologia de aprendizado profundo, enfrentou o campeão mundial de Go e jogador profissional de nove dan, Lee Sedol, vencendo por 4 a 1.
Em 2017, um robô humanoide chamado Sophia, desenvolvido por uma empresa de tecnologia, obteve cidadania, possuindo uma ampla gama de expressões faciais e habilidades de compreensão da linguagem humana.
Em 2017, o Google publicou o artigo "A Atenção é Tudo o que Você Precisa" que propôs o algoritmo Transformer, marcando o início do surgimento de modelos de linguagem em grande escala.
Em 2018, a OpenAI lançou o GPT, um modelo de linguagem construído com base no algoritmo Transformer, que era um dos maiores modelos de linguagem da época.
Em 2018, a DeepMind lançou o AlphaFold, baseado em aprendizado profundo, capaz de prever a estrutura de proteínas, sendo considerado um grande avanço no campo da inteligência artificial.
Em 2019, a OpenAI lançou o GPT-2, que possui 1,5 bilhões de parâmetros.
Em 2020, o GPT-3 desenvolvido pela OpenAI possui 175 bilhões de parâmetros, 100 vezes mais que a versão anterior GPT-2. Este modelo foi treinado com 570 GB de texto e pode alcançar desempenho de ponta em várias tarefas de PLN.
Em 2021, a OpenAI lançou o GPT-4, que possui 1,76 trilião de parâmetros, sendo 10 vezes mais que o GPT-3.
A aplicação ChatGPT baseada no modelo GPT-4 foi lançada em janeiro de 2023, atingindo cem milhões de utilizadores em março, tornando-se a aplicação que alcançou mais rapidamente os cem milhões de utilizadores na história.
Em 2024, a OpenAI lançará o GPT-4 omni.
Cadeia de Indústria de Aprendizado Profundo
Atualmente, os modelos de linguagem grandes utilizam métodos de aprendizado profundo baseados em redes neurais. Liderados pelo GPT, os grandes modelos geraram uma onda de entusiasmo em inteligência artificial, com muitos jogadores entrando nesta corrida. Também observamos uma explosão na demanda do mercado por dados e poder computacional. Portanto, nesta parte do relatório, exploramos principalmente a cadeia industrial dos algoritmos de aprendizado profundo, como são compostos os setores upstream e downstream na indústria de IA dominada por algoritmos de aprendizado profundo, e como a situação atual e a relação de oferta e demanda, bem como o desenvolvimento futuro, se apresentam.
Primeiro, precisamos esclarecer que, ao realizar o treinamento de grandes modelos LLMs, liderados pelo GPT com base na tecnologia Transformer (, é dividido em três etapas.
Antes do treinamento, como é baseado em Transformer, o conversor precisa transformar a entrada de texto em valores numéricos, e esse processo é chamado de "Tokenization". Depois, esses valores são chamados de Token. De acordo com a regra geral, uma palavra ou caractere em inglês pode ser grosseiramente considerado um Token, enquanto cada caractere chinês pode ser grosseiramente considerado dois Tokens. Esta também é a unidade básica usada para a precificação do GPT.
Primeiro passo, pré-treinamento. Ao fornecer um número suficiente de pares de dados à camada de entrada, semelhante ao exemplo mencionado na primeira parte do relatório )X,Y(, para encontrar os melhores parâmetros para cada neurônio sob este modelo, é necessário um grande volume de dados, e esse processo também é o mais exigente em termos de poder computacional, pois envolve a iteração repetida dos neurônios tentando vários parâmetros. Após o término do treinamento de um lote de pares de dados, geralmente utiliza-se o mesmo lote de dados para um segundo treinamento a fim de iterar os parâmetros.
O segundo passo é o ajuste fino. O ajuste fino consiste em fornecer um lote menor, mas com dados de muito alta qualidade, para treinar; essa alteração fará com que a saída do modelo tenha uma qualidade superior, uma vez que o pré-treinamento requer uma grande quantidade de dados, mas muitos dados podem conter erros ou serem de baixa qualidade. O passo de ajuste fino pode melhorar a qualidade do modelo através de dados de alta qualidade.
O terceiro passo é o aprendizado por reforço. Primeiro, será criado um modelo completamente novo, que chamamos de "modelo de recompensa". O objetivo deste modelo é muito simples, que é classificar os resultados da saída, portanto, a implementação deste modelo será relativamente simples, pois o cenário de negócios é bastante vertical. Depois, usamos este modelo para determinar se a saída do nosso grande modelo é de alta qualidade, assim podemos usar um modelo de recompensa para iterar automaticamente os parâmetros do grande modelo. ) No entanto, às vezes, também é necessária a participação humana para avaliar a qualidade da saída do modelo (.
Em resumo, durante o processo de treinamento de grandes modelos, o pré-treinamento tem uma exigência muito alta em relação à quantidade de dados, e a potência de cálculo de GPU necessária também é a maior, enquanto o ajuste fino requer dados de maior qualidade para melhorar os parâmetros. O aprendizado por reforço pode iterar os parâmetros repetidamente através de um modelo de recompensa para produzir resultados de maior qualidade.
Durante o processo de treinamento, quanto mais parâmetros houver, maior será o teto da sua capacidade de generalização. Por exemplo, no exemplo que usamos com a função Y = aX + b, na verdade, existem dois neurônios, X e X0. Portanto, como os parâmetros variam, os dados que podem ser ajustados são extremamente limitados, porque sua essência ainda é uma linha reta. Se houver mais neurônios, será possível iterar mais parâmetros, permitindo ajustar mais dados. Esta é a razão pela qual grandes modelos produzem resultados surpreendentes e também é por isso que o nome popular "grande modelo" é utilizado, essencialmente consistindo em uma quantidade massiva de neurônios e parâmetros, além de uma quantidade imensa de dados, que também requer uma enorme capacidade computacional.
Portanto, o desempenho de grandes modelos é principalmente determinado por três aspectos: número de parâmetros, quantidade e qualidade dos dados, e poder computacional. Esses três aspectos afetam conjuntamente a qualidade dos resultados e a capacidade de generalização do grande modelo. Suponhamos que o número de parâmetros seja p, a quantidade de dados seja n) calculada em termos de número de Tokens(, então podemos calcular a quantidade de computação necessária através de uma regra geral, permitindo assim estimar a quantidade de poder computacional a ser adquirida e o tempo de treinamento necessário.
A capacidade computacional é geralmente medida em Flops, que representa uma operação de ponto flutuante. Operações de ponto flutuante referem-se a adições, subtrações, multiplicações e divisões de valores não inteiros, como 2.5 + 3.557, onde ponto flutuante representa a capacidade de incluir casas decimais, e FP16 representa a precisão que suporta decimais, enquanto FP32 é uma precisão mais comum. Com base em regras práticas, o pré-treinamento )Pre-traning( é geralmente realizado várias vezes ) em um grande modelo, e requer cerca de 6np Flops, onde 6 é conhecido como uma constante da indústria. E a inferência (Inference é o processo em que inserimos um dado e aguardamos a saída do grande modelo ), dividido em duas partes: entrada de n tokens e saída de n tokens, requerendo aproximadamente um total de 2np Flops.
No início, usava-se chips CPU para treinamento, proporcionando suporte de poder computacional, mas depois começou-se a usar gradualmente GPUs como substitutos, como os chips A100 e H100 da Nvidia. Isso porque a CPU existe como computação geral, mas a GPU pode atuar como especializada.