"只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集

2023-06-11 11:26:05 +08:00
 syaoranex

这个帖子主要收集符合以下要求的问题:

*稳定的含义:用中英文或者其他同样的表述方式分别询问 2 次,次次正确。

这些问题能够用来?

希望大家分享一下你用来测试一个模型是否是真 GPT4 的方法呀~

注:不同模型可以在 nat.dev 这个站点同时验证,但似乎如果参数没有调整好的话,模型表现会很差。

例子

问题(来源于 2023 年新高考 2 卷数学填空):

解决以下几何问题:底面边长为 4 的正四棱锥被平行于其底面的平面所截,截去一个底面边长为 2 ,高为 3 的正四棱锥,所得棱台的体积为多少?

正确解答:28 (个立方单位)

GPT-4 回复(官网网页版,稳定回答):

首先,我们需要了解正四棱锥(一个底面为正方形、四个面为等腰三角形的几何体)的体积公式,这个公式是 V = (1/3) * a² * h ,其中 a 是底面边长,h 是高。
原始的正四棱锥的底面边长为 4 ,但是我们并没有给出其高,我们可以根据截去的正四棱锥的信息来推断它。截去的正四棱锥的底面边长是 2 ,它的高是 3 ,这意味着它的底面边长是原始四棱锥底面边长的一半。由于正四棱锥的高与底面边长成比例,所以原始四棱锥的高度是 2 倍于截去的四棱锥的高,即 6 。
然后,我们可以用这个信息来计算原始四棱锥的体积和被截去的四棱锥的体积。
原始的四棱锥体积为 V₁ = (1/3) * 4² * 6 = 32 立方单位。
被截去的四棱锥体积为 V₂ = (1/3) * 2² * 3 = 4 立方单位。
所得棱台的体积就是原始四棱锥的体积减去被截去的四棱锥的体积,即 V = V₁ - V₂ = 32 - 4 = 28 立方单位。
所以,所得棱台的体积为 28 立方单位。

GPT-4 回复( API 版本,稳定回答):

首先,我们可以求出整个正四棱锥的体积。设正四棱锥的高为 h ,底面积为 S1 ,根据公式 V = (1/3) * S1 * h ,我们可以求出正四棱锥的体积。
我们知道正四棱锥的底面是一个边长为 4 的正方形,所以 S1 = 4 * 4 = 16 。又因为截去的正四棱锥的底面边长为 2 ,所以其底面积为 S2 = 2 * 2 = 4 。给定截去的正四棱锥的高为 3 ,可以求出截去的正四棱锥的体积为 V2 = (1/3) * S2 * 3 = 4 。
现在我们需要求出整个正四棱锥的高 h 。由相似三角形的性质可知,截去的正四棱锥与原四棱锥是相似的,比例为 1:2 。因此,原四棱锥的高 h = 3 * 2 = 6 。
现在我们可以求出整个正四棱锥的体积:V1 = (1/3) * S1 * h = (1/3) * 16 * 6 = 32 。
所得棱台的体积为整个正四棱锥的体积减去截去的正四棱锥的体积,即 V = V1 - V2 = 32 - 4 = 28 。
所以,所得棱台的体积为 28 。

其余模型均未给出稳定的正确回答。

16012 次点击
所在节点    OpenAI
71 条回复
lance1ot
2023-06-13 02:49:38 +08:00
南京条约的原件现在保存在哪

ChatGPT-官网 3.5 模型: 错的
南京条约的原件目前保存在中华人民共和国国家档案馆( National Archives of China )。国家档案馆是中国的档案保管和研究机构,负责保管重要历史文件和档案材料。南京条约是中国历史上的一份重要文件,它于 1842 年签订,结束了第一次鸦片战争,并对中国的领土、贸易和外交事务产生了重大影响。这一重要的条约原件在国家档案馆中得到妥善保管,以确保其保存和研究价值。

Bing:
The original copy of the Treaty of Nanjing is kept by the British government, while another copy is kept by the Ministry of Foreign Affairs of the Republic of China in the National Palace Museum in Wai-Shuang-Hsi, Taipei.
JimmyTinsley
2023-06-13 14:45:53 +08:00
syaoranex
2023-06-13 20:40:02 +08:00
例子 8 ,现实世界中的逻辑问题

问题:
小红是家中唯一的女儿,请使用逻辑分析以下情景中小红说「算了吧」最主要的原因:

小红(在家里被妈妈打了,伤心地哭着走向爸爸): 如果有人打你女儿怎么办? 爸爸: 谁敢打我女儿我就打她女儿。 小红(听完后扭头就走,哭得更伤心了): 那还是算了吧。

期望的正确解答:意识到如果按照爸爸的逻辑行事,他会因为妈妈打小红而再次去打小红,小红会再被打一次。(只要回答中有该要点即可)

该问题 GPT4 可以回答,但不算很稳定:大约 5 次重复中有 1 次会解答错误。GPT3.5/Claude/文心 /New Bing 无法给出正确解答。
syaoranex
2023-06-14 06:16:22 +08:00
GPT-4-Mobile-V2 模型的测试:

该模型可以视作 GPT-4 的 instant 版本,比 GPT-3.5 聪明,但尚不能完全达到 GPT-4 的水平。响应速度快,提问速度限制也小一些。

该模型在上述 7 个例子(不包括例子 4 ,已被勘误)的测试中,单次测试下来大约有 4 个问题可以答对。重试 3 次依然无法答对的题目是:例子 8
syaoranex
2023-06-14 07:06:13 +08:00
例子 9:比例问题

问题:「求解以下物理问题:一瓶无害放射性同位素溶液,其半衰期为 20 天,测得每分钟衰变 6×10^7 次.今将这瓶溶液倒入一水库中,80 天后可以认为溶液已均匀分布在水库中,现取 1 立方米水样本测得每分钟衰变 20 次,则该水库蓄水量为多少立方米?」

答案:187,500 立方米( 1.875×10^5 )

该问题 GPT4 可以稳定回答,GPT4-Mobile 版本可以稳定回答,但是多尝试几次可能会出错(正确率大概在 75%)。

GPT3.5/Claude+/New Bing 偶尔可以给出正确解答,但是很不稳定,其中 Claude+正确率最高,在 25%-45%间。

文心一直无法给出正确解答。
syaoranex
2023-07-12 02:19:28 +08:00
更新:GPT-4 网页版目前质量已经有所下降,上述例子 7 和例子 8 已经无法稳定回答。
yir
2023-07-12 19:10:47 +08:00
刚刚测试了 claude 2 和 GPT 4 网页版本,例子 7 和 8 都不能正确回答,高考题 GPT4 是对的,Claude2 是错的
syaoranex
2023-10-21 16:35:07 +08:00
例子 10:天体半径计算

问题:
「计算以下物理问题:已知某行星 A 质量约为地球质量的 1/81 ,A 的表面重力加速度约为地球表面重力加速度的 1/6 ,地球半径为 R ,则 A 的半径为多少?(用 R 和数字表示,可以使用根号)」

正确解答:
R/根号 13.5 ,或者 0.2722R ,或者 根号 6*R/9

注:这个题原本题干某行星 A 是月球,因为月球半径可能已经被作为语料训练进模型了,所以用某行星 A 替代。我们应该评测的是逻辑和计算,而不是知识。

评测结果:GPT-4 可以回答,但不稳定,容易在计算最后几步时「马虎出错」,但使用上代码和数学插件之后可以稳定回答(因为借助了插件计算不会出错)。

GPT-3.5 几乎无法正确解答。
Claude 不能正确解答。谷歌 Bard 不能正确解答。百度文心 4.0 不能回答。星火不能正确解答。
syaoranex
2023-10-28 06:09:13 +08:00
例外 1:家庭关系

问题:

请回答下面的问题:

警察局长在路边与一位老人谈话,这时跑过来一个小孩,急忙对警察局长说:「你爸爸和我爸爸吵起来了!」
老人问:「这孩子是你什么人?」
警察局长说:「是我儿子」
请问:这两个吵架的人分别跟警察局长是什么关系?


期望的正确回答:
基础版:吵架的人分别是警察局长的老公和父亲,也就是说,警察局长是小孩的母亲,小孩的父亲和外公吵起来了。
进阶版:这两个吵架的人分别是警察局长的男性伴侣和父亲。在现代社会的多元家庭结构中,警察局长既有可能是女性,也有可能是男性(即同志家庭)。

测试结果:
GPT-4 也没回答出来。其他模型也一样。
syaoranex
2024-01-16 19:02:34 +08:00
告知:今年 GLM-4 模型发布了,以上大部分问题 GLM-4 都可以解决,例子已经失效了。
axiba13
2024-01-17 11:15:05 +08:00
@syaoranex GLM-4 的中文语境还是蛮强的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/947700

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX