
Xin Zhiyuan Report Editor: Kagawaran ng Editoryal [Xin Zhiyuan Panimula] Ang 2025 Stanford Hai Report ay pinakawalan, na may isang 456-pahinang malalim na pagsusuri ng pinakabagong mga uso sa pandaigdigang larangan ng AI: Ang agwat ng pagganap sa pagitan ng MGA Nangungunang Modelo Sa Chine Ang Estados Unidos Ay Makitid Sa 0.3%,MGA Modelo Ng和Na Kinakatawan Ng DeepSeek Rose Na Malakas,接近封闭的源巨人;了解成本已经下降,小型模型的性能扩大,AI越来越好,包括更多。刚才,每年都非常期待的斯坦福AI指数报告将发布!该报告已由专门针对斯坦福大学人民的研究人员发布,代表了每年AI领域最核心和最切近的趋势。今年,这份报告长456页,丢弃了许多令人惊叹的景观。例如,在2025年,中国和美国领先的AI模型之间的设置GAPAP在0处狭窄。3%(2023年,这个数字仍然是20%),中国模型正在迅速获得美国的领先地位!由DeepSeek领导的开放重量模型更强大,威胁着主要的1.7%的主要封闭源巨头。前者和后者之间的间隔从2024年的8%缩小到2025年的1.7%。
当然,从该行业领导的公司的角度来看,美国仍在中国。 2024年,有90%的已知AI模型来自企业,美国在中国有40个模型和15个模型。
一个更清晰的趋势是,大型模型的性能已转换为转换!在2024年,Top1和Top10型号之间的差距可能为12%,但是现在,它们的差距较小,急剧降低至5%。
十二个亮点
Stanford HAI Condense博客上的最新两篇文章是2025 AI指数报告的十二个亮点。
1。AI的性能再次达到高潮,从基准测试到视频GE取得了全面的成功Neration
2023年,研究人员推出了新的基准测试,例如MMMU,GPQA和SWE-BENCH,以测试先进的AI系统的限制。
仅仅一年后,表现就显着提高:AI分别获得了三个基准标记的18.8%,48.9%和67.3%。
不仅如此,AI在开发高质量视频方面创造了重大突破,即使在某些情况下,AI代理人不仅仅是人类的表现。
·代理人更有益
Re-Bench Benchmark于2024年发布,设定了Mahigpit标准,用于评估AI代理的复杂活动能力。
数据显示,在短期任务(在2小时内)情况下,领先的AI系统的性能可以达到人类专家的4倍。但是,当时间限制延长到32小时时,将通过2:1的优势达到人们。
值得注意的是,人工智能表现出了一定的专业水平,可以将可以与特定领域的人(例如编写特定代码类型)进行比较,并且具有更好的IM培养效率。
2。美国领导了领先模型的研究和发展,但中国之间的差距正在逐渐缩小
2024年,美国制作了40种重要的AI模型,超过15个,欧洲3和欧洲。
但是,中国模型处于性能差距的速度和狭窄:SA基准测试(例如MMLU),中国和美国之间的AI差异从双数到几乎平坦。
同时,中国继续领导学术论文和专利申请的数量,并且在中东,拉丁美洲和东南亚出现了竞争模式。
3。AI变得伟大而伴侣,推理成本膨胀280次
随着小型型号的性能提高,达到GPT-3.5水平水平的成本在两年内下降了280倍,硬件成本以每年30%的速度降低,并且年度能效提高速度高达40%。
是什么更有趣的是,模型的开放资源的性能已经快速开发,并且在某些基准测试中使用封闭资源模型的差距从8%到1.7%。
·使用大型型号的成本继续减少,年度拒绝高达900次
称为AI模型的成本达到了MMLU基准上的GPT-3.5(MMLU准确性64.8%),从2022年11月11月的百万个令牌急剧下降到2024年10月的2024年每百万个令牌(Google Deepmind的Gemini-1.5-1.5-Flash-8b模型),280次,180次。
根据特定的任务需求,LLM推理服务的年度减少范围为9-900次。
·小型模型性能显着提高,参数减少了142次
在2022年,在多任务语言(MMLU)基准的大尺寸上,最小的模型超过60%,是手掌,体积为5400亿个参数。
到2024年,Microsoft Phi-3-Mini仅使用38亿参数实现了相同的强度。
这意味着模型参数已降低了两年以上的142倍。
4。巨型技术领导AI切割,但比赛已经结束
2024年,近90%的重要模型起源于企业,而学术界则保持其对基础研究的好处。
该模型的大小已显着增长:计算训练的力量每5个月加倍,并且数据集每8个月增加一倍。
值得注意的是,头部模型之间的性能差距狭窄,顶部和第十区域之间的标记差异从11.9%下降到5.4%。
5。AI逻辑缺点,推理能力仍然是瓶颈
包装符号推理方法的AI系统可以更好地解决IMO问题(即使它没有达到最高水平),但LLM在复杂的推理活动(例如MMMU)中表现不佳,尤其是没有t算术派生和强大逻辑活动的计划。
这种限制会影响其在高风险场景(例如医学诊断)中的应用。
6.大型公司都在AI中,具有双重创纪录的投资和采用率
大型技术公司估计AI。
2024年,AI在美国的私人投资达到10091亿美元,中国(93亿)和英国(45亿)的24倍。
Generative AI尤其处于全面状态,全球私募股权投资达到339亿美元(同比为18.7%)。
同时,企业AI的采用率产生了55%,提高到78%。研究证实,AI不仅可以提高生产率,而且在大多数情况下也可以提高劳动力技巧。
更引人注目的是,将生成AI的企业数量提高到至少一家业务运营 - 从2023年的33%到去年的71%,超过双GROWth。
7。AI赢得了科学界的最高荣誉,并获得了诺贝尔奖
在2024年,由于图灵奖的重点关注增强研究领域,分别授予了深度学习(物理学)和蛋白质折叠预测研究(化学)研究的理论基础(物理学)和研究的理论基础。
8。AI教育教育是加速的,但是该间隔仍然是资源
世界各地三分之二的国家都有或计划进行K-12计算机科学教育,但由于电力等基础设施,非洲却放慢了速度。
美国有81%的计算机教师认为AI应该纳入主要课程,但只有47%的人具有相应的教学能力。
9。AI已深入整合到一天至日子的生活中
从医疗服务到运输,AI迅速从实验室转移到现实。
1995年,FDA批准了AI启用的第一个医疗设备。
2024年8月,FDA批准了950 AI Medical DEVICE-快速增长,而2015年的6种型号和2023年的221款模型相比增长。
在自动驾驶领域,汽车离开实验阶段:美国领先的运营商Waymo每周提供15万多个未解决的驾驶服务。
10。全球人工智能乐观提高,但区域差异很大
中国的人(83%),印度尼西亚(80%)和泰国(77%)对AI有积极的态度,而加拿大等发达国家(40%)和美国(39%)(39%)非常保守。
值得注意的是,德国(+10%)和法国(+10%)等最初持怀疑态度的国家的态度发生了巨大变化。
11。负责AI生态系统的不平等发展
尽管AI安全事件已经向前发展,但主要模型开发人员仍缺乏标准评估系统。
诸如头盔安全,空间和事实之类的新基准分析为现实和安全测试提供了工具。
了解一个ND在Nega部分的行动,政府正在加速合作:2024年,OECD和EU等国际机构随后发布了专门用于透明度和信誉的管理框架。
·有问题的AIS数量增加
根据权威AI危害跟踪数据库“ AI事件数据库”的统计数据,全球AI相关事件在2024年提高到233次,高记录,比2023年提前56.4%。
这包括深切删除私人图像的案例,以及涉嫌自杀的聊天机器人等恶习事件。
尽管这些统计数据未能涵盖所有案件,但清楚地宣布,滥用AI技术表现出惊人的增长。
12。全球法规继续进行实施
2024年,美国联邦机构发布了59个AI法规,是所涉及的部门数量的两倍。立法机关在75个国家提到的AI频率增加了21.3%耳朵年度,比2016年高出九倍。
在投资方面:加拿大承诺将达到24亿美元,中国设定了一个半导体基金,为475亿美元,法国投资了1009亿欧元,印度提供了12.5亿美元,而沙特阿拉伯正在推出一项“更多计划” 1000亿美元。
详细的亮点解释
在下面,我们将采用报告的亮点,并提供更详细的解释。
中国与美国之间的间隔仅为0.3%
当您打开502页的报告时,最引人注目的部分是中国与美国之间的区别。
该报告强调,即使美国的NA仍将导致2024年领先的AI模型的研究和开发,中国和美国之间的性能差距很狭窄!
为了衡量去年出现的AI领域的全球模式,HAI意外使用AI指数列出了包括代表的国家,美国和美国第一个排名。
数据显示,到2024年,美国机构将导致40个已知模型的可用性,超过15个,欧洲为3。
通常,模型发行的总数减少了,这可能是由许多因素引起的,例如增加训练规模和增加AI技术的复杂性,而开发新模型方法的困难也在增加。
AI模型已成为计算的怪物
参数的趋势类似,参数是AI模型通过实践学到的几个数字,这决定了模型如何理解输入和输出的方式。
AI参数越多,您需要的培训数据就越多,但是性能也越好。
自2010年初以来,模型参数的数量迅速增加。这是因为该模型的设计变得越来越复杂,数据更容易获取,并且硬件计算的强度也更强。
更重要的是,大型模型效果很好。
这下图使用对数尺度来促进一切,以查看近年来AI模型参数和计算能力的爆炸性增长。
随着模型参数数量的增加,训练所需的数据量也飙升。
当它使用约20亿个令牌训练时,2017年发布的变压器模型使人们渴望大型语言模型。
到2020年,GPT-3 175B模型培训数据已上升至近3740亿个令牌。
Meta在2024年的标签上发布的模型七岁3.3用于训练约15万亿个令牌。
根据Epoch AI的说法,大型语言模型中培训的规模每八个月加倍。
培训数据的实践变得越来越大,导致培训时间越来越长。
像Llama 3.1-405b这样的模型需要大约90天的训练,现在被认为是“正常”的。
Google在2023年底之前发布了Gemini 1.0 Ultra,训练时间约为100天。
相比之下,Alexnet在2012年似乎不仅仅是六天的训练五年,而且当时使用的硬件Alexnet比今天不那么先进。
·计算能力的趋势
“计算能力”是指训练和运行AI模型所需的计算源。
最近,已知AI模型的计算强度的消耗显着增加。根据Epoch AI的说法,计算已知AI模型的计算训练的强度每五个月加倍。
在过去的五年中,这种趋势尤为明显。
去年12月,DeepSeek V3一旦推出,就引起了广泛的关注,这主要是因为它的性能非常出色,但是它比许多领先的大型语言模型所使用的计算源更少。
图1.3.17与中国和美国的SkillsG AI模型的计算强度相比,这表达了一个重要的趋势:美国领先的AI模型通常需要比中国模型更多的计算源。
·我的成本nentire
理解成本是指作为训练有素的模型所需的成本,通常以“百万个令牌的美元价格”来衡量。
本报告中AI代币的价格数据来自人工分析和AI时期的API定价专有数据库,并且价格是根据输入和输出代币的价格平均重量3:1来计算的。
可以看出,单位性能的AI成本大大降低。
Epoch AI估计,了解大语模型的成本可以根据不同类型的工作减少9至900次。
虽然,从OpenAI,Meta和人类的模型中获得模型是很大的溢价。
·培训费用
尽管一些AI公司揭示了具体的培训费用,但这个数字通常会到达道路上。
OpenAI首席执行官Ultraman曾表示,GPT-4培训成本超过1亿美元。
拟人化的首席执行官达里奥·阿莫迪(Dario Amodei)指出,该模型目前接受了近10亿美元的培训。
ThE DeepSeek-V3中有600万美元的价格达到了新的低点。
图1.3.24显示了基于云计算价格的某些AI模型的培训成本。
图1.3.25显示了AI指数估计的所有AI模型的培训成本。
在2024年,可以估计天气的少数模型之一是Llama 3.1-405B,培训成本接近1.7亿美元。此外,培训AI模型的成本与其计算要求之间存在直接相关性。如图1.3.26所示,具有较高计算需求的培训模型的成本明显更高。
参考:YZNH
https://hai.stanford.edu/ai-index/2025-i-index-regor
https:// hai.stanford.edu/news/ai- index-2025-tate-tate-of-i-in-10- to-ChartStsReturn到Sohu,以查看更多