上海交通大学

深度求索DeepSeek-R1大模型发布,中国AI技术震惊全球科技界

深度求索DeepSeek-R1大模型发布,中国AI技术震惊全球科技界

近期,我国的大型人工智能模型在硅谷乃至全球科技领域引起了热议,其卓越的表现确实吸引了众多关注。上周,一家公司发布了名为R1的推理大型模型。这一重大突破,就像在科技界投下了一颗重磅炸弹,迅速吸引了全球科技工作者的极大关注。尽管有传闻称他们手握五万颗H100芯片,但官方尚未对此信息予以证实。技术报告指出,V3模型的全额训练只需2.788M H800 GPU小时,其成本仅为557万美元。

近期,我国的大型人工智能模型在硅谷乃至全球科技领域引起了热议,其卓越的表现确实吸引了众多关注。

惊艳发布引轰动

上周,一家公司发布了名为R1的推理大型模型。这款模型的表现让整个行业都感到震惊。它的性能与o1不相上下,服务费用也十分低廉。此外,它的代码和模型架构都是完全开放的。这一重大突破,就像在科技界投下了一颗重磅炸弹,迅速吸引了全球科技工作者的极大关注。亚历山大·王是Scale AI的创始人,他提到,过去十年美国在人工智能领域一直领先,但R1的问世可能改变这一现状。

上海副教授交通大学名单_上海交通大学副教授_上海交通大学副教授什么级别

训练资源有保障

在芯片出口限制实施前,幻方量化已收集了超过一万块英伟达GPU,这些设备被用于模型训练。尽管有传闻称他们手握五万颗H100芯片,但官方尚未对此信息予以证实。不过,这些大量的GPU资源为他们的模型训练提供了坚实的支撑,从而让他们在技术进步的道路上拥有了更广阔的探索和实验空间。

高效训练显实力

技术报告指出,V3模型的全额训练只需2.788M H800 GPU小时,其成本仅为557万美元。尽管如此,其性能已足以与GPT-4o和3.5等顶尖模型相提并论。卡帕西这位著名的人工智能专家曾提到,具备如此功能的模型通常需要近一万六千颗GPU的集群。目前市场中的集群规模,已经膨胀至约十万块GPU。V3训练的卓越性能,确实让人颇感震撼。

下载量高受青睐

目前,-R1在Face开源社区的下载量遥遥领先,下载量已突破10.9万次。这表明,众多开发者对这一模型充满兴趣,渴望深入了解并运用它来推动自己的AI项目。这一现象也从侧面反映出-R1在市场上的极高人气和广泛的影响力。

学术利好促发展

刘鹏飞,上海交通大学的副教授,指出V3和R1的发布对高校研究人员是个喜讯。这项技术的详细披露让研究过程更为透明,有助于学术界深入探究技术体系,发现改进点,同时确立新的研究方向。同时,Meta的首席人工智能专家杨立昆也指出,这一成果凸显了持续推动人工智能模型开源的必要性,让更多人有机会从中受益。

差距尚在待突破

谭寅亮提到,中美在人工智能前沿大模型技术上相差6到9个月。刘鹏飞则强调,他们公司的大模型正在加快创新步伐,尽管目前只在“复现”任务上有所体现。即便如此,各大模型间的良性竞争对全球人工智能应用有促进作用。在享受成果的同时,我们也要清醒地看到差距,并努力寻求突破。

大家都在好奇,我国的大规模人工智能模型何时能全面超越美国的?若觉得这篇文章有参考价值,不妨点个赞,同时也很欢迎您转发和分享!

更多内容