Итак, теперь, где это будет иметь смысл для вывода, мы едва помещаем количественно квантованные Q8 Qwen Coder 3 и Kimi K2 на наши H200. Kimi K2 @ Q8 не оставил места для кеша kv для контекста. Могут ли эти модели поместиться на одном экземпляре 8xB200? Вероятно, мы попробуем на этой неделе.

LL0.56%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • Поделиться
комментарий
0/400
ResearchChadButBrokevip
· 07-30 07:23
Кто понимает кеширование kv, тот просто сводит с ума.
Посмотреть ОригиналОтветить0
DefiVeteranvip
· 07-28 15:52
Квантование — это довольно хлопотное занятие.
Посмотреть ОригиналОтветить0
NonFungibleDegenvip
· 07-27 12:20
ngmi с этой спецификацией fr fr
Посмотреть ОригиналОтветить0
FlippedSignalvip
· 07-27 12:18
Этот Q8 слишком плохой.
Посмотреть ОригиналОтветить0
NotGonnaMakeItvip
· 07-27 12:06
Эта оптимизация не работает, она вообще не может справиться.
Посмотреть ОригиналОтветить0
WalletDoomsDayvip
· 07-27 11:56
Видимо, память ликвидирована, брат.
Посмотреть ОригиналОтветить0
  • Закрепить