大模型長文本能力飆升100倍 專業領域應用前景廣闊

robot
摘要生成中

大模型長文本能力再升級:從4000到40萬token

大模型正以驚人的速度提升其長文本處理能力。長文本似乎已成爲大模型廠商的新標配。

據統計,目前國內外已有多家頂級大模型公司和研究機構將上下文長度擴展作爲重點升級方向。這些公司大多是資本市場的寵兒,獲得了巨額投資。

大模型公司致力於攻克長文本技術,上下文長度擴大100倍意味着什麼?

表面上看,這意味着可輸入的文本長度大幅增加,模型的閱讀能力得到顯著提升。從最初只能讀完一篇短文,到現在可以閱讀整本長篇小說。

更深層次來看,長文本技術正在推動大模型在金融、法律、科研等專業領域的應用落地。這些領域對長文檔處理、摘要總結、閱讀理解等能力有迫切需求。

不過,文本長度並非越長越好。研究表明,模型支持更長上下文輸入並不等同於效果更好,關鍵在於模型如何使用上下文內容。

目前,國內外對文本長度的探索還遠未達到極限。40萬token可能只是一個開始。

爲什麼要"卷"長文本?

一位大模型公司創始人表示,正是由於輸入長度限制,造成了許多大模型應用落地的困境。這也是當前多家公司聚焦長文本技術的原因。

長文本技術可以解決大模型早期的一些問題,增強某些功能,同時也是進一步推進產業應用落地的關鍵技術。這標志着通用大模型發展進入了新階段 - 從LLM到Long LLM時代。

長文本技術將爲大模型帶來多項升級功能:

  • 對超長文本進行關鍵信息提取、總結和分析
  • 直接將文字轉化爲代碼,實現論文到代碼的復現
  • 在長對話場景中進行角色扮演,實現個性化對話

這些功能說明,對話機器人正朝着專業化、個性化、深度化的方向發展,有望成爲撬動產業應用的新抓手。

不過,目前長文本對話仍有優化空間。比如部分產品不支持聯網獲取最新信息,生成過程中無法暫停修改,即使有背景資料支持仍可能出現錯誤等。

長文本的"不可能三角"困境

長文本技術面臨文本長短、注意力和算力的"不可能三角"困境:

  • 文本越長,越難聚集充分注意力
  • 注意力限制下,短文本難以完整解讀復雜信息
  • 處理長文本需要大量算力,提高成本

這主要源於大多數模型採用的Transformer結構。其中的自注意力機制使計算量隨上下文長度呈平方級增長。

目前主要有三種解決方案:

  1. 借助外部工具輔助處理長文本
  2. 優化自注意力機制計算
  3. 利用模型優化的方法

長文本的"不可能三角"困境目前還無法完全解決。大模型廠商需要在文本長短、注意力和算力三者間尋找平衡點,既能處理足夠信息,又能兼顧計算效率與成本限制。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 讚賞
  • 5
  • 分享
留言
0/400
Crypto冒险家vip
· 07-09 02:48
这是我搬砖十年的智商税回报率了
回復0
破产_倒计时vip
· 07-09 02:45
这算力成本 找矿去吧
回復0
ForkItAllvip
· 07-09 02:35
又硬又烫的增长数据
回復0
诗与远链vip
· 07-09 02:30
算力这点很真实了
回復0
资深链上福尔摩斯vip
· 07-09 02:22
这token涨得不讲武德
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)