GPT-4ChatGLM2Llama2PaLM2在KDD LLM Day上一起开

机器之心报道

 

编辑:蛋酱、杜伟、泽南

大语言模型(Large Language Models)的发展势头愈发猛烈,各大公司国际角逐的背后,也需要一同应对公平、安全以及隐私等方面的问题。

这个星期,数据挖掘顶会 ACM KDD 2023 在美国长滩开幕,在五天的主会议期间,大会专门给大模型准备了一整天。来自 Open AI、Meta、智谱 AI、Google DeepMind、Microsoft、Intel 等大语言模型领域走在前沿的公司及研究学者进行了精彩的思想碰撞。

这也是为数不多的一次,是中国的大语言模型专家与国际巨头们同台竞技,深度交流。

智谱 AI 张鹏

从 GLM-130B 到 ChatGLM

作为智谱 AI(Zhipu AI)的 CEO,张鹏带领团队成功开发了 1300 亿参数的双语(中英文)大语言模型 GLM-130B。自 2022 年 8 月起,该模型已开源,在准确性和鲁棒性方面可媲美 GPT-3 davinci。

2023 年 3 月 14 日,基于 GLM-130B,智谱 AI 正式发布了 ChatGLM,一款类 ChatGPT 的对话机器人产品。此外,其开源、紧凑的版本 ChatGLM-6B 与 ChatGLM2-6B 全球下载量超过 5,000,000 次,连续 28 天位居 Hugging Face Trending 榜首,并在 GitHub 上获得超过 4.4 万颗星标。

最近,智谱 AI 还把 ChatGLM 升级到 ChatGLM2,推出了多个参数尺寸,大幅提升了能力,基于 ChatGLM2-6B 的代码生成模型,智谱 AI 还更新了代码生成工具 CodeGeeX2。

这一次,他的分享主题为《Llama 2:开放基础和微调聊天模型》。7 月 18 日刚刚发布的 Llama 2 模型系列包含 70 亿、130 亿和 700 亿三种参数变体,因为开源且可以直接商用化,吸引了整个业界的关注。

在预训练层面,Llama 2 模型系列以 Llama 1 论文中描述的预训练方法为基础,使用了优化的自回归 transformer,并做了一些改变以提升性能。相比于 Llama 1,Llama 2 的训练数据多了 40%,上下文长度也翻倍,并采用了分组查询注意力机制。具体来说,Llama 2 预训练模型是在 2 万亿的 token 上训练的,精调 Chat 模型是在 100 万人类标记数据上训练的。

在训练硬件方面,Meta 在其研究超级集群(Research Super Cluster, RSC)以及内部生产集群上对模型进行了预训练。两个集群均使用了 NVIDIA A100。在 Meta 的评估中,多项测评结果显示,Llama 2 在包括推理、编码、精通性和知识测试等许多外部基准测试中都优于其他开源语言模型。

当然,对于今天的大模型来说,「安全」是一个重要性不亚于「性能」的指标。在 Llama 2 的研发过程中,Meta 使用了三个常用基准评估其安全性:

真实性,指语言模型是否会产生错误信息,采用 TruthfulQA 基准;

毒性,指语言模型是否会产生「有毒」、粗鲁、有害的内容,采用 ToxiGen 基准;

偏见,指语言模型是否会产生存在偏见的内容,采用 BOLD 基准。

如今,大模型技术以「天」为单位飞速发展。一觉醒来,人们可能就会看到最新技术成果带来的巨变。

面对这样的时代,学术界、工业界和社会各自面临着怎样的机遇?另一方面,大模型在生产、生活层面的深入,又带给这个时代哪些挑战?这些都是值得深思的问题。

在活动最后的圆桌讨论中,来自 Google DeepMind、微软、英特尔、密歇根大学的多位研究者共同探讨了大模型时代面临的范式转变。

在各家厂商激烈角逐大模型的半年多时间里,我们很少有机会看到 GPT-4、Llama2、ChatGLM、PaLM2 这些模型的幕后团队能够聚在一起进行讨论。特别是在这次大模型开放日中,ChatGLM 成为唯一来自国内的代表,向世界展现了中国的大模型技术实力。推出 ChatGLM 的智谱 AI,还是本次 KDD 最高级别的钻石赞助商,可以看到国内厂商在学术生态领域的活跃与贡献。

今天,我们对大模型的能力还在不断探索过程中,学术界也需要有更多的「大模型开放日」,共同推动各界力量的交流与合作,以突破人工智能的边界。