ИИ и Криптоактивы: новая структура развивающейся отрасли в условиях технологической революции

ИИ x Крипто: от нуля до вершины

Введение

Недавнее развитие отрасли искусственного интеллекта некоторыми людьми рассматривается как четвертая промышленная революция. Появление крупных языковых моделей значительно повысило эффективность в различных отраслях, по оценкам, увеличив рабочую эффективность в США примерно на 20%. В то же время, обобщающая способность больших моделей считается новой парадигмой проектирования программного обеспечения: в отличие от прошлых точных проектирований кода, современное программное обеспечение больше включает в себя интеграцию обобщающей рамки больших моделей, что поддерживает более широкий диапазон входных и выходных модальностей. Технология глубокого обучения действительно принесла новый этап процветания в отрасли ИИ, и эта волна также повлияла на отрасль криптовалют.

В этом отчете мы подробно рассмотрим историю развития отрасли ИИ, классификацию технологий, а также влияние технологий глубокого обучения на отрасль. Затем мы углубимся в анализ текущего состояния и тенденций в цепочке поставок, связанных с GPU, облачными вычислениями, источниками данных, краевыми устройствами и другими аспектами глубокого обучения. Наконец, мы исследуем суть взаимосвязи между криптовалютой и отраслью ИИ, обрисовав структуру цепочки поставок ИИ, связанной с криптовалютой.

! Новичок в науке丨AI x Crypto: от нуля до пика

История развития AI-индустрии

AI-отрасль началась в 1950-х годах. Для реализации видения искусственного интеллекта академическое и промышленное сообщества в разные времена и с различным научным фоном разработали множество направлений для достижения искусственного интеллекта.

Современные технологии искусственного интеллекта в основном используют термин "машинное обучение", идея которого заключается в том, чтобы позволить машинам повторно итеративно улучшать производительность системы на основе данных в задачах. Основные шаги включают подачу данных в алгоритм, обучение модели на этих данных, тестирование и развертывание модели, а также использование модели для выполнения автоматизированных предсказательных задач.

В настоящее время в машинном обучении существует три основных направления: соединительный подход, символизм и бихевиоризм, которые имитируют человеческую нервную систему, мышление и поведение.

! Новичок в популярной науке丨AI x Crypto: от нуля до пика

В настоящее время соединительная теория, представляемая нейронными сетями, имеет преимущество (, также известную как глубокое обучение ), основная причина этого заключается в том, что такая архитектура имеет один входной слой, один выходной слой, но несколько скрытых слоев. Как только количество слоев и нейронов (, а также параметры ) становятся достаточно большими, появляется возможность точно подстраиваться под сложные универсальные задачи. Путем ввода данных можно постоянно настраивать параметры нейронов, и после множества данных этот нейрон достигнет оптимального состояния ( параметров ), что также объясняет происхождение слова "глубокий" — достаточное количество слоев и нейронов.

Например, можно просто понять это как построение функции, где при вводе X=2, Y=3; при X=3, Y=5. Если мы хотим, чтобы эта функция работала для всех X, то нужно постоянно добавлять степень этой функции и её параметры. Например, можно построить функцию, удовлетворяющую этому условию, как Y = 2X - 1. Но если есть данные, где X=2, Y=11, то нужно заново построить функцию, подходящую для этих трех точек данных. Используя GPU для грубой силы, мы обнаружили, что Y = X2 - 3X + 5 более подходит, но не нужно полностью совпадать с данными, достаточно соблюдать баланс и чтобы выход был примерно схожим. Здесь X2, X и X0 представляют разные нейроны, а 1, -3 и 5 являются их параметрами.

В этот момент, если мы вводим большое количество данных в нейронную сеть, мы можем увеличить количество нейронов и итеративно настраивать параметры, чтобы подогнать новые данные. Таким образом, мы можем подогнать все данные.

На основе технологий глубокого обучения, основанных на нейронных сетях, произошло несколько итераций и эволюций технологий, начиная с самых ранних нейронных сетей, затем следуют сети прямого распространения, RNN, CNN, GAN и, наконец, современные большие модели, такие как GPT, использующие технологию Transformer. Технология Transformer - это лишь одно направление эволюции нейронных сетей, в котором добавляется преобразователь ( Transformer ), предназначенный для кодирования данных всех модальностей (, таких как аудио, видео, изображения и т.д. ) в соответствующие числовые представления. Затем эти данные вводятся в нейронную сеть, что позволяет нейронной сети подстраиваться под любые типы данных, то есть реализовать мультимодальность.

Развитие ИИ прошло через три технологические волны. Первая волна пришлась на 60-е годы XX века, через десять лет после появления технологий ИИ. Эта волна была вызвана развитием символистских технологий, которые решали проблемы универсальной обработки естественного языка и диалога человека с компьютером. В то же время появились экспертные системы, одна из которых, система DENRAL, была разработана при содействии одной из американских университетов под руководством NASA. Эта система обладает очень глубокими знаниями в области химии и делает выводы на основе вопросов, чтобы генерировать ответы, аналогичные ответам химического эксперта. Эту химическую экспертную систему можно рассматривать как сочетание химической базы знаний и системы вывода.

После экспертных систем в 1990-х годах израильско-американский ученый и философ Джеффри Перл предложил байесовские сети, которые также известны как сети верований. В то же время Брукс предложил поведенческую робототехнику, что ознаменовало появление бихевиоризма.

В 1997 году международная шахматная программа компании технологии одержала победу над шахматным чемпионом Каспаровым со счетом 3.5:2.5, эта победа считается вехой в области искусственного интеллекта, технологии ИИ пережили вторую волну развития.

Третья волна технологий ИИ произошла в 2006 году. Три гиганта глубокого обучения Янг ЛеКун, Джеффри Хинтон и Йошуа Бенгио предложили концепцию глубокого обучения, алгоритма, основанного на архитектуре искусственных нейронных сетей, для представления данных. Затем алгоритмы глубокого обучения постепенно эволюционировали от RNN, GAN до Transformer и Stable Diffusion; эти два алгоритма совместно сформировали третью волну технологий, и это также было время расцвета коннекционизма.

Многие знаковые события также постепенно возникают в ходе исследования и эволюции технологий глубокого обучения, включая:

  • В 2011 году искусственный интеллект победил человека и стал чемпионом в викторине «На грани опасности».

  • В 2014 году Goodfellow предложил GAN( генеративные состязательные сети), которые обучаются путем противостояния двух нейронных сетей, позволяя генерировать фотореалистичные изображения. В то же время Goodfellow написал книгу "Глубокое обучение", ставшую одной из важных вступительных книг в области глубокого обучения.

  • В 2015 году Хинтон и др. предложили алгоритмы глубокого обучения, которые немедленно вызвали огромный резонанс в академических кругах и индустрии.

  • В 2015 году OpenAI была создана и получила совместные инвестиции в размере 1 миллиарда долларов от нескольких известных инвесторов.

  • В 2016 году AlphaGo, основанный на технологиях глубокого обучения, выиграл у чемпиона мира по го, профессионального девятого дана Ли Сидао, со счетом 4:1 в исторической битве человек против машины.

  • В 2017 году гуманоидный робот София, разработанный технологической компанией, получил гражданство и обладает богатой мимикой и способностью понимать человеческий язык.

  • В 2017 году Google опубликовал статью «Внимание — это все, что вам нужно», в которой был представлен алгоритм Transformer, и начали появляться крупномасштабные языковые модели.

  • В 2018 году OpenAI выпустила GPT, построенный на алгоритме Transformer, который был одной из крупнейших языковых моделей на тот момент.

  • В 2018 году DeepMind выпустила AlphaFold на основе глубокого обучения, который способен предсказывать структуру белков и считается огромным достижением в области искусственного интеллекта.

  • В 2019 году OpenAI выпустила GPT-2, эта модель обладает 1,5 миллиарда параметров.

  • В 2020 году OpenAI разработала GPT-3, которая имеет 175 миллиардов параметров, что в 100 раз больше, чем у предыдущей версии GPT-2. Эта модель была обучена на 570 ГБ текста и может достигать передовых результатов в нескольких задачах NLP.

  • В 2021 году OpenAI выпустила GPT-4, эта модель обладает 1,76 триллиона параметров, что в 10 раз больше, чем у GPT-3.

  • Приложение ChatGPT на основе модели GPT-4 было выпущено в январе 2023 года, в марте достигло ста миллионов пользователей, став приложением, которое быстрее всего достигло ста миллионов пользователей в истории.

  • В 2024 году OpenAI выпустит GPT-4 omni.

! Newcomer Science丨AI x Crypto: от нуля до пика

Цепочка поставок в сфере глубокого обучения

В настоящее время языковые модели большого масштаба используют методы глубокого обучения на основе нейронных сетей. Модели, возглавляемые GPT, создали волну ажиотажа в области искусственного интеллекта, и большое количество игроков хлынуло в эту нишу. Мы также заметили, что на рынке резко возрос спрос на данные и вычислительные мощности. Поэтому в этой части отчета мы в основном исследуем цепочку поставок алгоритмов глубокого обучения: как устроены верхние и нижние уровни в AI-индустрии, управляемой алгоритмами глубокого обучения, и каковы текущее состояние, соотношение спроса и предложения, а также будущее развития этих уровней.

Прежде всего, нам нужно прояснить, что при обучении больших моделей LLMs на основе GPT с использованием технологии Transformer (, существует три этапа.

Перед обучением, поскольку он основан на Transformer, преобразователь должен преобразовать текстовый ввод в числовой формат, этот процесс называется "Tokenization", после чего эти числовые значения называются токенами. В соответствии с общим правилом, одно английское слово или символ можно грубо считать одним токеном, а каждый китайский иероглиф можно грубо считать двумя токенами. Это также является основной единицей, используемой для оценки GPT.

Первый шаг, предобучение. Путем предоставления входному слою достаточного количества пар данных, аналогичных примерам, приведенным в первой части отчета, )X,Y(, необходимо найти оптимальные параметры для каждого нейрона в модели. В этот момент требуется огромное количество данных, и этот процесс также является наиболее ресурсоемким, поскольку необходимо многократно итеративно пытаться различные параметры для нейронов. После завершения обучения одной партии данных, обычно используется та же самая партия данных для повторного обучения с целью итерации параметров.

Шаг второй, дообучение. Дообучение — это обучение на небольшой, но очень качественной выборке данных, что позволит повысить качество вывода модели, поскольку предварительное обучение требует большого объема данных, но многие из них могут содержать ошибки или быть низкокачественными. Этап дообучения может улучшить качество модели за счет высококачественных данных.

Шаг третий, обучение с подкреплением. Сначала будет создана совершенно новая модель, которую мы называем "моделью вознаграждения". Цель этой модели очень проста: упорядочить результаты вывода, поэтому реализация этой модели будет относительно простой, так как бизнес-сценарий довольно узкий. Затем с помощью этой модели мы будем определять, является ли вывод нашей большой модели качественным, таким образом, мы можем использовать модель вознаграждения для автоматической итерации параметров большой модели. ) Но иногда также требуется человеческое участие для оценки качества вывода модели (.

Короче говоря, в процессе обучения больших моделей предобучение требует очень большого объема данных, а необходимая вычислительная мощность GPU также максимальна. В то время как дообучение требует более качественных данных для улучшения параметров, обучение с подкреплением может повторно итеративно настраивать параметры с помощью модели вознаграждения для получения более качественных результатов.

В процессе обучения, чем больше параметров, тем выше потолок его обобщающей способности. Например, если мы возьмем пример с функцией Y = aX + b, то на самом деле есть два нейрона X и X0. Поэтому изменения параметров ограничены, поскольку по своей сути это все равно прямая линия. Если нейронов больше, то можно итеративно настраивать больше параметров, что позволяет подстраивать больше данных. Вот почему большие модели могут творить чудеса, и именно поэтому их называют большими моделями — по сути, это огромное количество нейронов и параметров, а также огромное количество данных, что требует колоссальных вычислительных ресурсов.

Таким образом, производительность больших моделей в основном определяется тремя факторами: количеством параметров, объемом и качеством данных, а также вычислительной мощностью. Мы предполагаем, что количество параметров равно p, объем данных — n), рассчитываемый по количеству токенов(, тогда мы можем рассчитать необходимую вычислительную мощность с помощью общих эмпирических правил, что позволит нам приблизительно оценить необходимую вычислительную мощность и время обучения.

Мощность вычислений обычно измеряется в Flops, что представляет собой одну операцию с плавающей запятой. Операции с плавающей запятой - это общее название для арифметических операций с нецелыми числами, таких как 2.5+3.557. Плавающая запятая подразумевает возможность использования десятичных дробей, а FP16 обозначает поддержку дробной точности, FP32 является более распространенной точностью. Согласно эмпирическим правилам на практике, предварительная тренировка ) Pre-traning ( один раз ) обычно требует множественной тренировки ( больших моделей, примерно 6np Flops, где 6 называется отраслевым постоянным значением. А вывод ) Inference - это процесс, когда мы вводим данные и ждем вывода от большой модели (, который делится на две части: ввод n токенов и вывод n токенов, так что в общей сложности потребуется около 2np Flops.

На ранних этапах для тренировки использовались процессорные чипы для обеспечения вычислительной мощности, но затем начали постепенно заменять их графическими процессорами, такими как чипы Nvidia A100, H100 и другие. Потому что CPU существует как универсальный вычислительный инструмент, в то время как GPU может использоваться как специализированный.

GPT2.48%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 4
  • Репост
  • Поделиться
комментарий
0/400
TokenDustCollectorvip
· 08-13 22:14
Снова пришла волна, чтобы разыгрывать людей как лохов.
Посмотреть ОригиналОтветить0
ThesisInvestorvip
· 08-13 22:09
Не надо хвастаться ИИ, падение покажет всё.
Посмотреть ОригиналОтветить0
GasFeeBarbecuevip
· 08-13 22:08
рост цены лучше, чем рост IQ
Посмотреть ОригиналОтветить0
AirdropHunter007vip
· 08-13 22:01
Снова хвастаются и создают концепции
Посмотреть ОригиналОтветить0
  • Закрепить