views, comments.

GPT-4最近“变懒”的原因可能已经找到:不要基于欧洲人的数据训练,因为大模型可能会在节假日期间不愿意干活,工作日期间却更加高效

Omnivore

Read on Omnivore

Read Original

date_saved: 2023-12-13 19:57:48

date_published: 2023-12-11 16:44:00


Full Content:

原创 DataLearner DataLearner 2023-12-12 05:44 发表于广东

本文来自DataLearnerAI官方博客:

最近一段时间,很多人普遍反映GPT-4变得懒散和愚笨,很多此前可以回答的问题在最近一段时间都无法回答,或者回答比较简单。为此,OpenAI官方也在前几天发布信息说的确收到了这样的信息,但是模型并没有在最近一个多月更新过,所以他们也不知道是什么原因。而今天的一些测试表明,GPT-4模型会像人一样在不同的时间段有不同的效率。

图片

  • GPT-4最近效果又开始下降
  • GPT-4会在冬天和节假日变懒
  • 其它的讨论
  • 总结

GPT-4最近效果又开始下降

在最近一段时间,很多人反馈GPT-4模型的性能有所下降。不仅仅是懒,而且创造力下降不太愿意遵从指令

例如,有人让ChatGPT计算24/7,并在Python中运行,但是GPT-4取消了计算,说它会自己计算。例如,它甚至会偷懒,不想做重复性任务,所以在做一些SQL查询中直接使用“…”来避免生成完整的SQL语句,因为它懒得把一些短语翻译成18种语言。

而OpenAI的官方回应说,他们收到了用户的反馈,但是从11月份以来,官方没有更换过GPT-4背后的模型,所以无法解释什么原因导致了GPT-4变懒。同时,官方解释说因为大语言模型的行为在某种程度上是不可预测的,所以虽然他们也在调查,但是可能不一定会知道。并进一步解释:

训练一个对话模型并不是一个清晰的工业流程。相同的数据集不同的训练次数可能会产生完全不一样特质、写作风格、拒绝行为的大模型。这个过程并不像更新一个网站一样简单,所以尽管上线前,模型会做许多测试,还是可能出现很多意外情况,所以需要大家反馈来调整。

但是,目前除了大家不认可官方的说不可预测、没有更新的说法。而今天,有人测试发现,GPT-4模型实际上可能会在冬天或者节假日的时候变懒

GPT-4会在冬天和节假日变懒

这个结论和实验来自一位网友。虽然不是严格的测试,但是是一个可以重现的实验!

这个实验使用的是API接口调用。在调用GPT-4的API接口之前,先设置当前的月份,然后让GPT-4完成一个代码补全的任务。

将GPT-4设置的时间是5月份和12月份,来对比GPT-4生成的代码长度。结果发现,如果当前时间是五月份,GPT-4生成的代码平均长度为4298,而12月份GPT-4平均生成代码的长度只有4086。二者差异是477,做t检验之后,p值是小于2.28e-07的,这意味着二者有显著的差异

图片

在统计学中,p值(概率值)是用来确定结果的显著性的一个指标。它代表在零假设(通常是指两组数据之间没有差异)为真的情况下,观察到的数据或更极端数据出现的概率。p值的范围从0到1,较小的p值(通常低于一个预先设定的阈值)表明观察到的数据与零假设不一致,因此认为结果是统计上显著的。p < 0.001通常被认为是两个数据是极其显著差异!

目前,这个测试可以被复现。另一个网友测试的结果p值是0.02645。意味着结果也是显著差异的。

而生成的代码长度变短,与此前用户反馈模型懒散的结论是一致的。

其它的讨论

当然,这个结论并没有完整的科学论证,但是也是一个非常有价值的反馈。而也有人让GPT-4自己返回它认为的最有工作效率的时间,结果发现12月份是GPT-4认为效率最低的月份。而前面的五月份被GPT-4认为是效率排名第五的月份!

Prompt Engineering Guide的作者elvis也评论说他有发现过类似的现象,不过是在GPT-3.5的某个版本。不过,如果需要得出更加严谨的结论还需更多可以泛化的研究支持。

目前这部分的测试很多人也在呼吁和尝试更多的实验,包括每一个月份、特殊的日期、节假日等。而输出的字符长度虽然也可以作为一种参考,但是也希望有更多的测试结果。

总结

这并不是一个严格的科学测试,但是它提供的视角是值得讨论的。因为大模型本身是基于网络数据进行大量无监督微调得到的。如果网络的人们在节假日不太讨论工作或者表现出比较懒散的特质,应该是有可能会影响到模型的行为的。

另外,根据OpenAI官方的说明,11月份之后模型没有变化,但是大家反馈结果变差。系统prompt如果也没有变化,那么实际影响的只有日期(因为GPT-4系统prompt包含当天时间),这是有可能说得过去的~

期待更多的结论~

原作者将测试代码公布了:https://github.com/robalynch1122/OpenAISeasonalityTesting

有条件的童鞋可以自己测试。

另外,也有网友说,如果这个结论是真的,那就不要基于欧洲人的数据训练大模型,否则5月到9月大模型会一直停工~


号外!

我们建立了一个AI技术交流讨论群,目前1-6群已满,请大家加入7群交流,大家可以在群里讨论AI相关的技术问题和进展~由于群满200无法自动加入,需要邀请,大家可以加我的微信,然后邀请进群~(微信号:datalearner_ai,微信群仅限AI相关技术交流)微信账号二维码如下

图片


Highlights

GPT-4最近“变懒”的原因可能已经找到:不要基于欧洲人的数据训练,因为大模型可能会在节假日期间不愿意干活,工作日期间却更加高效 ⤴️

而也有人让GPT-4自己返回它认为的最有工作效率的时间,结果发现12月份是GPT-4认为效率最低的月份。而前面的五月份被GPT-4认为是效率排名第五的月份! ⤴️

总结

这并不是一个严格的科学测试,但是它提供的视角是值得讨论的。因为大模型本身是基于网络数据进行大量无监督微调得到的。如果网络的人们在节假日不太讨论工作或者表现出比较懒散的特质,应该是有可能会影响到模型的行为的。 ⤴️

总结

这并不是一个严格的科学测试,但是它提供的视角是值得讨论的。因为大模型本身是基于网络数据进行大量无监督微调得到的。如果网络的人们在节假日不太讨论工作或者表现出比较懒散的特质,应该是有可能会影响到模型的行为的。

另外,根据OpenAI官方的说明,11月份之后模型没有变化,但是大家反馈结果变差。系统prompt如果也没有变化,那么实际影响的只有日期(因为GPT-4系统prompt包含当天时间) ⤴️