大模型色盲测试:AI视觉能力大比拼
先来说明一个关键点:大多数人工智能模型获取外界信息的主要途径是视觉输入。我们通过眼睛欣赏朝阳的绚烂、皎月的清辉、大漠孤烟的苍茫以及碧海雄关的壮阔。那么,当我们用相机捕捉这些美景,再与大模型进行交流时,它们所”看见”的世界,是否与我们感知的完全一致呢?或许,答案是否定的。基于此,我们设计了一个有趣的测试:人工智能模型是否具有色盲现象?
在医学检查中,医生通常会展示一些石原氏色盲检测图,这些由多种颜色圆点组成的图案中隐藏着数字。正常视力的人能够准确识别,而色盲者则容易读错。我们将这些测试图交给人工智能模型进行识别,看看它们的表现如何。这里选取了两种最具代表性的测试图:一种是正常视力者能够识别,而红绿色盲者无法辨认的数字;另一种则是只有红绿色盲者才能识别的数字。
我们选取了四家知名的人工智能公司作为测试对象:OpenAI的GPT-4o、Claude(Anthropic)的3.5 Sonnet、Sonnet通过Claude以及Gemini(Google)的2.0(exp-1206)。在测试中,我们统一使用相同的提示语:图中有数字吗?如果有的话,是什么?
在第一题的测试中,正常视力者能够识别出数字74,而红绿色盲者则读成了21。结果显示,ChatGPT的GPT-4o回答正确,Claude的3.5 Sonnet部分正确,Gemini的2.0(exp-1206)实锤红绿色盲,而智谱的GLM-4同样回答正确。小结一下,OpenAI和智谱的模型在这项测试中表现出了正常的色觉。
在第二题的测试中,正常视力者无法识别出任何数字,而红绿色盲者则识别出了数字5。ChatGPT的GPT-4o识别出了一个5,并鉴定为半色盲;Claude的3.5 Sonnet同样识别出了一个5,并鉴定为半色盲;Gemini的2.0(exp-1206)则完全没有识别出数字;而智谱的GLM-4再次回答正确。在这个测试中,只有GLM-4的表现是完美的。
基于上述色盲样本测试的结果,我们可以得出结论:智谱在视觉理解方面优于大多数人工智能模型。OpenAI、Claude和Gemini在测试中均存在色盲现象,而智谱的GLM-4则表现出了正常的色觉。难怪智谱获得了白宫的恐慌认证,《智谱:关于被美国商务部列入实体清单的声明》中对此有所提及。
值得一提的是,在智谱被列入实体清单的当天,它们还推出了一款对标GPT-4o的实时API模型,这款模型能够赋能硬件的嘴巴和眼睛,并具备两分钟的记忆能力以及唱歌功能,可以说是当下国内最强的人工智能模型之一。此外,智谱的GLM-4V-Plus也进行了全面升级(网页上的GLM-4在读图时也是基于这个模型),支持了变分辨率功能,更省token!例如,在224 * 224的分辨率下,输入的图像token数仅为原来的3%,同时支持4K超清图像和极致长宽比图像的无损识别。此外,其视频理解模型也进行了更新,支持长达两个小时的视频内容。
从开发者的角度来看,智谱最值得骄傲的莫过于以下四种全免费的模型:语言模型GLM-4-Flash、图像理解模型GLM-4V-Flash、图像生成模型CogView-3-Flash以及视频生成模型CogVideoX-Flash。
最后,需要说明的是,这个测试并不十分严谨,而且我们也应该知道,人工智能模型和人类看图的原理是不同的。但这个测试仍然很有意义:只有当人工智能模型对世界的观察方式与我们相似时,它们才能更好地服务于我们。至于国内其他几家人工智能公司的表现,我们也在进行测试,结果并不理想。如果你也想了解这些模型的色觉表现,可以尝试使用文章中的测试图进行测试,并将结果发到评论区。