新浪网

张俊林:当前炼制“大语言模型”的两个现象

DataFunTalk

关注

确定不再关注此人吗

开篇引言

每天出现一个大语言模型这种繁荣景象,这个现象好吗?

导读:本文转载自张俊林老师首发在知乎的文章《当前炼制“大语言模型”的两个现象》,文章从现象出发,分享了大模型开源的意义与建议。“人类有很强的羊群效应,一个处于高产出期的流派会吸引绝大部分的研究者。很少独立反思一个技术路径天然的能力边界,以及独立在宏观的层面寻找有更大价值的研究方向”,希望本文能对大家有所启发~

以下是文章原文:

先说第一个现象。

自从 LLaMA 和 ChatGLM 开源后,再加上各种五花八门的“Self Instruct”数据在网上逐渐汇合,大模型两大要素都齐备了,基座模型有了,命令调教数据也越来越多了。于是,最近新冒出的大模型与日俱增。也许,我们可以重新定义新阶段的大模型“涌现能力”:当开源模型与 instruct 数据数量小于一定规模的时候,就几乎看不到新的大模型出现,而当开源模型及 instruct 数据数量达到一定规模,新的“大模型”数量就会以指数速度增长,进而达到“人手一个大模型”的阶段。现在大家发愁的不是没有“大模型”,而是发愁给大模型起个啥名字才好,起名字的时间成本可能要高于炼大模型的时间成本,貌似动物园里动物的名字快被用光了,需要换个赛道起名字了。

当然,我是举双手赞成大模型的各种形式的开源的,开源促进生态繁荣,毫无疑问是个好事情,虽然我不认为通过开源可以复制出 GPT 4 这种水准的大模型。但是,对于目前每天一个大模型的现象,个人感觉“既有意义也没意义”,要分两头来看

1.  “有意义”之处在于:每个人都能通过这种方式来练练手试试水,感知下大模型这个新物种,而且可以利用这种方式,去构建或测试一些对模型能力要求不那么高的垂直场景的应用效果。

2. “没有意义”之处在于:如果大家都是拿个 LLaMA 7B/ChatGLM 6B 基座,之后再从网上下载 instruct 数据去 instruct fine-tune 模型,然后起个名字发出来,作为新的开源模型。这种做法意思不大,自己练练手就得了,没必要起个名字再发出来,除非与当前已经开源的模型比真有独特的优点,或新的增益。

我觉得可以做下面几件事情,然后开源出来,意义相对比较大:

其一,最起码的,把基座模型规模再往大放一放,比如把 LLaMA 放到 30B 甚至 65B,再加上目前能收集到最全的 instruct,再把模型推理方面对资源需求降低些,起个名字,开源放出来,也有意义。

其二,在 LLaMA 这种中文支持不太好的模型,加上一个中文数据继续预训练过程(很可能会损害基座模型的能力),把中文能力做个大幅提升,再加上最全的 Instruct 去 Fine-tune。通过这种方式,构建一个虽然小,但是中文能力相对比较强的大模型,也挺有意义。

其三,在当前开源的大模型基础上,结合某些垂直领域的数据,改造出开源的领域大模型,这个很有意义。

其四,在 LLaMA+instruct 之后,或者 ChatGLM 基础上,探索点新的技术改进路线,为 LLM 社区提供些技术启发,这个是很有意义的。

接下来说第二个现象。

目前来看,构建全面的权威中文 LLM 评测集合,是个当务之急。正因为不存在这种评测数据,再加上上面说的第一个现象,复现出一个看着貌似效果还可以的大模型成本很低,才会出现我们现在看到的现象:每天一个新模型冒出来,很多都说自己效果特别好,反正没有标准答案,我就挑自己的一两个优点来说,或者自己挑选几个比 ChatGPT 回答得好的例子发出来,然后说自制的大模型效果接近于 ChatGPT 的效果,别人除了说“没毛病”外,确实也说不出啥。这个现象好吗?肯定是不好的,因为对于那些真正效果好的大模型来说很不公平,它们会被淹没在众多嘈杂的声音中,完全得不到本该有的关注度,而且公众的热情也会被消耗殆尽。比如,现在您看看,还有多少人有热情去参与各种新模型的公测?我估计已经不太多了,这对于真正效果好的大模型后续收集用户反馈进一步迭代,冲击是很大的。

如果有一个权威的 LLM 中文评测集,我相信对于解决目前的现象是有极大帮助的,估计再过两个月会出来一批中文评测集,而再过一阵子,估计下半年,那个或那几个好的评测集合会跑出来。新的大模型效果好不好,大家都拿权威评测集合来说话,而不是目前自说自话的状态。

当然,构建好的 LLM 评测集合,本身其实也很有难度,比如选择哪些评测维度?评测指标怎么设计?评测数据如何而来?怎样保证这些评测数据不会出现在大模型的预训练数据里?而当你发布评测结果的时候,评测例子要不要给出来?如果给出来,那么下一个新的大模型会不会把它拿来放到训练数据里?或者专门拿这种类型的数据去强化自己的模型?这都是问题,也很考验LLM评测设计者的水平。

而且最好是有两套评测数据,一套是评测基座模型各项能力的,另外一套是测试带上instruct调试之后能力的。因为根据目前的情况看,如果只能测试带 Instruct 之后的模型,就像上面提到的,很可能很多基座能力强的模型,都没机会和足够的关注度,去拿到用户的反馈数据,都走不到第二阶段。如果能有单独的一个基座能力测试,就会好很多,起码基座能力强的,可能还有些机会。否则,大家做大模型,很可能即使基座大模型效果很强,但没法拿到用户反馈数据进入第二阶段,就只能落入拿 GPT 4 接口收集“Self Instruct”的怪圈,如果那样,恐怕想赶上 GPT 4,难比登天。

无论如何,目前百花齐放的情景总体而言还是挺好的,虽然有些混沌,但是大概也是作为技术追赶者必经的阶段。

今天的分享就到这里,谢谢大家。

作者:张俊林@知乎

发布于:北京

特别声明:以上文章内容仅代表作者本人观点,不代表 新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发布后的30日内与 新浪网联系。
全红婵正面回应体重变化影响动作401万
美国有人开始囤货了400万
朝鲜平壤国际马拉松现场画面382万
村委会称去世驴友吃完面突然倒地377万
美国关税政策引发全球反击323万
网红李美越被打码321万
查看全部实时热点
请输入评论内容

举报成功

举报

请您选择举报的原因

说说你的看法

打开APP
意见/建议 反馈入口
  • TOKEN
  • 标题/昵称
  • 反馈内容

已反馈成功~

意见/建议 反馈入口
  • TOKEN
  • 标题/昵称
  • 反馈内容

已反馈成功~