腾讯推出 Hunyuan-Large 开源大模子:389B 总参数、52B 激活参数
IT之家 11 月 5 日音问,腾讯本日告示推出 Hunyuan-Large 大模子,官方暗示这是现在业界仍是开源的基于 Transformer 的最大 MoE 模子,领有 3890 亿总参数(389B)和 520 亿激活参数(52B)。
腾讯本日在 Hugging Face 开源了 Hunyuan-A52B-Pretrain 、 Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8。并发布了工夫论述和考试推理操作手册,详备先容了模子智商和考试与推理的操作。
其中模子工夫上风如下:
高质料合成数据:通过合成数据增强考试,Hunyuan-Large 概况学习到更丰富的暗示,解决长落魄文输入,并更好地泛化到未见数据
KV 缓存压缩:摄取分组查询提防力(GQA)和跨层提防力(CLA)政策,显贵减少了 KV 缓存的内存占用和琢磨支出,提高了推理概括
内行特定学习率缩放:为不同内行缔造不同的学习率,确保每个子模子皆能有用地从数据中学习,并为合座性能作念出孝顺
长落魄文解决智商:预考试模子支柱高达 256K 的文本序列,Instruct 模子支柱 128K 的文本序列,显贵晋升了长落魄文任务的解决智商
平凡的基准测试:在多种讲话和任务上进行平凡实际,考证了 Hunyuan-Large 的本色掌握效力和安全性
IT之家附关系聚会如下:
论文:https://arxiv.org/pdf/2411.02265
Github:https://github.com/Tencent/Tencent-Hunyuan-Large
Huggingface:https://huggingface.co/tencent/Tencent-Hunyuan-Large
腾讯云:https://cloud.tencent.com/product/hunyuan