斯坦福团队承认抄袭中国大模型!核心证据来自2300多年前

  发布时间:2024-06-29 19:15:11   作者:玩站小弟   我要评论
郑州品茶论坛-郑州品茶体验-郑州品茶推荐。

#斯坦福抄袭中国大模型##斯坦福团队道歉#,斯坦今天下午,福团两个词条分别冲上微博热搜第2和第5位,队承引发热议。认抄


斯坦福团队承认抄袭中国大模型冲上热搜

简单说,袭中就是模型国外一个AI团队主导的开源大模型,被证实套壳抄袭了国内清华系明星创业公司面壁智能的核心开源模型。目前,证据自多团队已经公开道歉,年前并下架模型。斯坦

斯坦福AI团队抄袭中国大模型

5月29日,福团一个来自斯坦福的队承AI团队在网上发布文章《Llama 3-V: Matching GPT4-V with a 100x Smaller Model and 500 Dollars》,并开始广而告之:成功训练出一个SOTA多模态模型Llama3-V,认抄性能比GPT-4V、袭中Gemini Ultra、模型Claude Opus更强,而训练成本仅需500美元。后三个大模型,都是全球范围知名的多模态“巨无霸”。

由于团队成员拥有斯坦福(其中两人是斯坦福本科生)、特斯拉、SpaceX、亚马逊等亮眼背景,Llama3-V第一时间被推到了聚光灯下,登上开发者社区Hugging Face(抱抱脸)首页,引发众多开发者关注。

很快,有用户开始在Hugging Face以及社交平台X上提出质疑:Llama3-V是否套壳MiniCPM-Llama3-V 2.5?后者为面壁智能推出的开源端侧多模态模型,5月21日刚刚发布。

事情迅速发酵。经过一些开发者的比较,两者在模型结构、代码、配置文件等方面完全相同,只是进行了一些重新格式化,并将部分变量重新命名。

面对质疑,斯坦福团队一开始选择“辩解”:只是使用MiniCPM-Llama3-V 2.5的tokenizer(分词器),并且宣称在后者发布前就已开始这项工作。

6月2日晚,面壁智能团队确认抄袭事实。

面壁智能首席科学家刘知远在知乎上表示:“已经比较确信Llama3-V是对我们MiniCPM-Llama3-V 2.5套壳。”

而CEO李大海也在朋友圈发文:“我们对这件事深表遗憾。一方面感慨这也是一种受到国际团队认可的方式,另一方面呼吁大家共建开放、合作、有信任的社区环境。”


CEO李大海对此事表示遗憾

目前,Llama3-V团队的其中两位成员Aksh Garg和Siddharth Sharma,也就是那两位斯坦福本科生,已在社交平台上向面壁智能团队道歉:“我们向作者道歉,并对自己没有努力验证这项工作的原创性感到失望。我们对所发生的事情承担全部责任,并已撤下Llama3-V,再次致歉。


Llama3-V团队的其中两位成员在社交平台道歉

同时,Aksh Garg解释Siddharth Sharma和自己主要是负责推广,编写代码的是Mustafa Aljadery,而他目前已经联系不上。


目前已经看不到Mustafa Aljadery的社交平台内容

核心证据:来自战国时期的清华简

在朋友圈发文中,李大海给出确认抄袭的一大理由是:经过测试,面壁智能团队发现Llama3-V不仅能识别“清华简”的战国古文字,而且在犯错的地方也和MiniCPM-Llama3-V 2.5如出一辙。

公开资料显示,清华简,是清华大学于2008年7月收藏的一批战国竹简,属于中国学术史上先秦文献的重大发现。此后,清华大学成立专门研究团队,先后在已故著名历史学家、考古学家、古文字学家李学勤及黄德宽教授的带领下开展简文整理研究,以复原这批幸免于焚书坑儒与秦汉战火的重要历史“拼图”。

这些年里,研究者们在一间不足20平方米的小屋里,用一面42英寸显示屏读简,整理成果以一年一辑的速度出版公布,至今已出版13辑。诸子思想、历史文化、天文历法、律法术数、医学方技……中国传统文献中的经史子集均有发现,竹简的内容逐渐清晰起来。

据李大海解释,此次识别清华简的训练数据,采集和标注均由清华NLP实验室和面壁智能团队完成。“耗时数月,从卷帙浩繁的清华简中一个字一个字扫描下来,并逐一进行数据标注,融合进模型中”,且数据尚未对外公开。


Llama3-V在犯错的地方也和MiniCPM-Llama3-V 2.5如出一辙

此外,Llama3-V、MiniCPM-Llama3-V 2.5两个模型在高斯扰动验证(一种用于验证模型相似性的方法)后,在正确和错误表现方面都高度相似。

巧的是,上周日清华大学在官方微信公众号上转载了新华社《瞭望》新闻周刊刊发的特稿《破译千年竹简 求索文明密码》,回忆这2500位先秦“客人”来到清华的故事。

文中提到,清华简整理研究工作的难点之一,就是“认字”。“清华简是战国时期楚国人所写,其中有些字没有流传下来,有的字形是首次出现,即便将一些字辨识出来,其字义的理解也需要下大功夫去研究,因为这些竹简文献只有极少数可与传世文献对照参证。因此,‘考字释词’耗费巨大精力,把字词探究清楚了,做到文通字顺,才能真正了解文献记载了什么内容,进而判断其价值。”


清华校园内的战国竹筒

橙柿互动·都市快报 记者 童蔚

责任编辑:李超_NB12814
  • Tag:

相关文章

  • 嫦娥六号带回1935.3克月球样品 交接至中国科学院

      6月28日,国家航天局在北京举行探月工程嫦娥六号任务月球样品交接仪式。工业和信息化部部长金壮龙主持交接仪式。国家航天局局长张克俭向中国科学院副院长丁赤飚移交了嫦娥六号样品容器,交接了样品证书。  
    2024-06-29
  • 足以改写教科书!外媒详解嫦娥六号七大成就,感叹这是别人家孩子

    当学霸淡定走出考场,不知道自己已经改写了历史的时候,场外招生办的老师已经抢疯了。这一幕,像极了外媒和国际社会对嫦娥六号的垂涎评价。用外媒的话来说,嫦娥六号从月背采样返回,政治上足以改变美国立法,科学上
    2024-06-29
  • 海军军服怎么看军衔?

    海军服装,作为海军军人的重要标识,其设计和演变始终与海军的职能和使命紧密相连。从最初的简单制服,到如今的现代化、多功能化服装,海军服装不仅体现了海军的现代化水平,也展示了海军军人的风采。两侧为礼服,中
    2024-06-29
  • CBA最新消息!辽宁名帅下课,周鹏成为深圳主帅,刘炜确定签约

    作为辽宁男篮前队长,郑永刚培养了众多名将,包括了沈梓捷等人,然而成为深圳男篮主帅两个赛季,成绩越来越差,他也确定下课,回到梯队继续培养年轻球员。从西热力江开始,CBA流行了主帅兼球员,郑永刚离开深圳男
    2024-06-29
  • 邓文迪带女儿走红毯,她穿错裙子胸部下垂,22岁长女像她的老姐妹

    在一些时尚活动当中,为了增加服装的看点,从服装设计的角度来说,会适当的增加露肤效果,从而突出服装本身的设计感和身材的曲线。对于身材好的女性来说,以性感为主题打造出曲线感也是非常前卫的一种审美理念,还能
    2024-06-29
  • 命运被人拿捏!斯洛文尼亚意外出线后,匈牙利晋级概率骤降近30%

    目前各小组第三晋级概率直播吧6月26日讯 欧洲杯C组第3轮,斯洛文尼亚0-0战平强敌英格兰,以小组第三晋级淘汰赛。A组匈牙利队的晋级概率骤然下降。在斯洛文尼亚末轮赛前,数据机构Opta给出匈牙利的晋级
    2024-06-29

最新评论