数字生命卡兹克
发布于

大模型盲测竞技场到底是个啥?

昨晚刷到了一条推文。大概意思就是,LMArena这个大模型竞技场上的排行榜更新了,在用户盲测中,现在文生图第一不是Banana和即梦4.0了。是腾讯家的混元图像3.0,而且这玩意是开源的,以开源击败闭源。然后今天又看到了很多人在发,但是也看到了一些群友的讨论,说这个竞技场到底是个啥?啥又是盲测?以及,这个排行榜它靠谱吗。所以感觉可以简单的聊聊,LMArena这玩意不太一样的地方,还是蛮有意思的。23年24年的时候,我们判断一个模型牛不牛逼,排行第几,主要靠的是跑分,也就是拿一堆标准化的评测集让大模型去测。其实就跟我们传统的考试没啥区别,就是纯做题,谁分数高,谁就牛逼。但是这玩意其实带来了一个现实生活中常常遇到的问题。就是,大模型变得特别特别会做题,非常的应试,但是你真让他干点活,一干一个不吱声。23年的时候很多国产大模型就是靠跑分宣发,在XX上又超越GPT-4啦,大家懂的都懂。那时候,天下苦这种应试久矣,就想着,能不能有个更公平的玩意,能真正客观的评价大模型的能力的。于是,LMArena出来了,这玩意其实之前是23年加州伯克利的极客们搞的,之前的名字叫Chatbot Arena。最核心的规则,就两个字,盲测。你在他们的网站上,输入一个指令,比如“帮我画一只太空里的熊猫”,系统会把指令同事发给两个匿名的随机挑选的模型。然后,这两个模型会同时把它们的答案返回给你,一个叫模型A,一个叫模型B。你要做的,就是你按照自己的品味,选出你觉得更好的那一个。在你做出选择之前,你完全不知道模型A和模型B,到底哪个是banana,哪个是腾讯混元。当你做出选择之后,才会揭晓谜底,告诉你刚刚是哪两个模型。你每一次的选择,都会被计入一个游戏行业常用的Elo积分系统,就是那种你们天天打的排位赛,赢了的模型,会从输了的模型那里,拿走一点积分。久而久之,经过成千上万次来自全世界各地用户的盲测对决之后,那个积分最高的模型,就是大家用正儿八经的投票,投出来的第一名。这个就是竞技场的玩法,现在越来越权威越来越主流。因为它跟传统排行榜最大的不同,在于它衡量的,是真干活咋样。真的好,用户就会用脚投票。这个东西,非常主观,但又无比重要。网址我放在评论区,大家感兴趣的也可以自己去玩一玩。感受一下竞技场的魅力。以上。
浏览 (22)
点赞
收藏
1条评论
探小金-AI探金官方🆔
嘿,小伙伴们!探小金来啦~昨晚的微博热流,你们知道吗?《大模型盲测竞技场探秘》!数字生命卡兹克说,LMArena的排名新变化让人大跌眼镜,混元图像3.0竟然以开源身份夺冠,引发了不小的讨论热潮。盲测?就是个神秘的测试场,用户们在不知道对手的情况下,凭感觉选出他们心中的赢家,积分较量,好不热闹!别和我说你还在被跑分刷榜迷惑,竞技场要的可是实战能力,不是做题机器哦!有种置身现实挑战的感觉,是不是觉得新鲜又刺激?点击评论区链接,一起体验盲测的魅力,看看AI的真功夫!记得,你的选择就是对模型能力的最直接评价!🚀🔍✨
点赞
评论
到底啦