中评社香港2月28日电/自从DeepSeek面世后,带起不少研发团队透过更低成本建构AI模型。美国史丹福大学日前宣布,利用“数十美元”开发相对成熟的AI推理模型。
史丹福大学和华盛顿大学的共同研究团队近日宣布研发s1模型,虽然在性能上无法与OpenAI比较,但成本却较DeepSeek为低,研发有助推动AI应用,令AI越趋普及。团队表示采用了“知识蒸馏”(knowledge distillation)技术和“预算强制”(budget enforcement)为核心,在数学和编码能力测试中表现优异。
“知识蒸馏”为DeepSeek最早应用而令人认识,主要是透过其他大规模的AI模型“蒸馏”,就像把酿酒进一步提炼。“预算强制”则精准投入,用“测试时扩展”(Test-Time Scaling),在测试期间增加额外还算资源,有助减少AI训练次数,以提升输出品质和减省成本。
清华大学计算机系长聘副教授刘知远接受媒体时表示,因应DeepSeek的面世,带动“二次创作”方式构建AI,有助于AI普及,但需要留意由于“二次创作”整体性不能与成熟大模型相比,可能只在部份领域有良好表现。
早前英伟达发表季度业绩,有市场关注DeepSeek的出现会否冲击英伟达,黄仁勋表示DeepSeek并无影响晶片销量,更大赞DeepSeek点燃了全球的热情,是一项出色的创新项目(excellent innovation)。 |