GPT-4最近“变懒”的原因可能已经找到：不要基于欧洲人的数据训练，因为大模型可能会在节假日期间不愿意干活，工作日期间却更加高效

date_saved: 2023-12-13 19:57:48

date_published: 2023-12-11 16:44:00

Full Content:

原创 DataLearner DataLearner 2023-12-12 05:44 发表于广东

本文来自DataLearnerAI官方博客：

最近一段时间，很多人普遍反映GPT-4变得懒散和愚笨，很多此前可以回答的问题在最近一段时间都无法回答，或者回答比较简单。为此，OpenAI官方也在前几天发布信息说的确收到了这样的信息，但是模型并没有在最近一个多月更新过，所以他们也不知道是什么原因。而今天的一些测试表明，GPT-4模型会像人一样在不同的时间段有不同的效率。

GPT-4最近效果又开始下降
GPT-4会在冬天和节假日变懒
其它的讨论
总结

GPT-4最近效果又开始下降

在最近一段时间，很多人反馈GPT-4模型的性能有所下降。不仅仅是懒，而且创造力下降，不太愿意遵从指令。

例如，有人让ChatGPT计算24/7，并在Python中运行，但是GPT-4取消了计算，说它会自己计算。例如，它甚至会偷懒，不想做重复性任务，所以在做一些SQL查询中直接使用“…”来避免生成完整的SQL语句，因为它懒得把一些短语翻译成18种语言。

而OpenAI的官方回应说，他们收到了用户的反馈，但是从11月份以来，官方没有更换过GPT-4背后的模型，所以无法解释什么原因导致了GPT-4变懒。同时，官方解释说因为大语言模型的行为在某种程度上是不可预测的，所以虽然他们也在调查，但是可能不一定会知道。并进一步解释：

训练一个对话模型并不是一个清晰的工业流程。相同的数据集不同的训练次数可能会产生完全不一样特质、写作风格、拒绝行为的大模型。这个过程并不像更新一个网站一样简单，所以尽管上线前，模型会做许多测试，还是可能出现很多意外情况，所以需要大家反馈来调整。

但是，目前除了大家不认可官方的说不可预测、没有更新的说法。而今天，有人测试发现，GPT-4模型实际上可能会在冬天或者节假日的时候变懒！

GPT-4会在冬天和节假日变懒

这个结论和实验来自一位网友。虽然不是严格的测试，但是是一个可以重现的实验！

这个实验使用的是API接口调用。在调用GPT-4的API接口之前，先设置当前的月份，然后让GPT-4完成一个代码补全的任务。

将GPT-4设置的时间是5月份和12月份，来对比GPT-4生成的代码长度。结果发现，如果当前时间是五月份，GPT-4生成的代码平均长度为4298，而12月份GPT-4平均生成代码的长度只有4086。二者差异是477，做t检验之后，p值是小于2.28e-07的，这意味着二者有显著的差异！

在统计学中，p值（概率值）是用来确定结果的显著性的一个指标。它代表在零假设（通常是指两组数据之间没有差异）为真的情况下，观察到的数据或更极端数据出现的概率。p值的范围从0到1，较小的p值（通常低于一个预先设定的阈值）表明观察到的数据与零假设不一致，因此认为结果是统计上显著的。p < 0.001通常被认为是两个数据是极其显著差异！

目前，这个测试可以被复现。另一个网友测试的结果p值是0.02645。意味着结果也是显著差异的。

而生成的代码长度变短，与此前用户反馈模型懒散的结论是一致的。

其它的讨论

当然，这个结论并没有完整的科学论证，但是也是一个非常有价值的反馈。而也有人让GPT-4自己返回它认为的最有工作效率的时间，结果发现12月份是GPT-4认为效率最低的月份。而前面的五月份被GPT-4认为是效率排名第五的月份！

Prompt Engineering Guide的作者elvis也评论说他有发现过类似的现象，不过是在GPT-3.5的某个版本。不过，如果需要得出更加严谨的结论还需更多可以泛化的研究支持。

目前这部分的测试很多人也在呼吁和尝试更多的实验，包括每一个月份、特殊的日期、节假日等。而输出的字符长度虽然也可以作为一种参考，但是也希望有更多的测试结果。

总结

这并不是一个严格的科学测试，但是它提供的视角是值得讨论的。因为大模型本身是基于网络数据进行大量无监督微调得到的。如果网络的人们在节假日不太讨论工作或者表现出比较懒散的特质，应该是有可能会影响到模型的行为的。

另外，根据OpenAI官方的说明，11月份之后模型没有变化，但是大家反馈结果变差。系统prompt如果也没有变化，那么实际影响的只有日期（因为GPT-4系统prompt包含当天时间），这是有可能说得过去的~

期待更多的结论~

原作者将测试代码公布了：https://github.com/robalynch1122/OpenAISeasonalityTesting

有条件的童鞋可以自己测试。

另外，也有网友说，如果这个结论是真的，那就不要基于欧洲人的数据训练大模型，否则5月到9月大模型会一直停工~

号外！

我们建立了一个AI技术交流讨论群，目前1-6群已满，请大家加入7群交流，大家可以在群里讨论AI相关的技术问题和进展~由于群满200无法自动加入，需要邀请，大家可以加我的微信，然后邀请进群~（微信号：datalearner_ai，微信群仅限AI相关技术交流）微信账号二维码如下

Highlights

GPT-4最近“变懒”的原因可能已经找到：不要基于欧洲人的数据训练，因为大模型可能会在节假日期间不愿意干活，工作日期间却更加高效 ⤴️

而也有人让GPT-4自己返回它认为的最有工作效率的时间，结果发现12月份是GPT-4认为效率最低的月份。而前面的五月份被GPT-4认为是效率排名第五的月份！ ⤴️

总结

这并不是一个严格的科学测试，但是它提供的视角是值得讨论的。因为大模型本身是基于网络数据进行大量无监督微调得到的。如果网络的人们在节假日不太讨论工作或者表现出比较懒散的特质，应该是有可能会影响到模型的行为的。 ⤴️

总结

这并不是一个严格的科学测试，但是它提供的视角是值得讨论的。因为大模型本身是基于网络数据进行大量无监督微调得到的。如果网络的人们在节假日不太讨论工作或者表现出比较懒散的特质，应该是有可能会影响到模型的行为的。

另外，根据OpenAI官方的说明，11月份之后模型没有变化，但是大家反馈结果变差。系统prompt如果也没有变化，那么实际影响的只有日期（因为GPT-4系统prompt包含当天时间） ⤴️

Neo's 🪴

GPT-4最近“变懒”的原因可能已经找到：不要基于欧洲人的数据训练，因为大模型可能会在节假日期间不愿意干活，工作日期间却更加高效

GPT-4最近“变懒”的原因可能已经找到：不要基于欧洲人的数据训练，因为大模型可能会在节假日期间不愿意干活，工作日期间却更加高效

Full Content:

GPT-4最近效果又开始下降

GPT-4会在冬天和节假日变懒

其它的讨论

总结

Highlights

总结

总结

Recent Journals

Individuals in the AI Era

xiaomi ev

How to Make a Meaningful Impact in a Finite Life

Skincare Routine

Someday is today

Recent Readings

2309.03936

Every USEFUL Mac App That I Use

Getting Started with Reader

Grover's Algorithm

Homework_6_SP24