
近(jìn)日(rì),杭(háng)州(zhōu)深(shēn)度(dù)求(qiú)索(suǒ)人(rén)工(gōng)智(zhì)能(néng)基(jī)础(chǔ)技(jì)术(shù)研(yán)究(jiū)有(yǒu)限(xiàn)公(gōng)司(sī)(以(yǐ)下(xià)简(jiǎn)称(chēng)“深(shēn)度(dù)求(qiú)索(suǒ)”)正(zhèng)式(shì)发(fā)布(bù)DeepSeek-R1模(mó)型(xíng)。该(gāi)模(mó)型(xíng)号(hào)称(chēng)在(zài)数(shù)学(xué)、代(dài)码(mǎ)、自(zì)然(rán)语(yǔ)言推理等任务上,性能比肩美国OpenAI公司最新的o1大模型正式版。
看到这一消息,你也许又懵了,DeepSeek-R1 和此前的DeepSeek-V3又有什么区别?简单来说,R1是在V3的基础上,又训练出的新模型。

Deepseek网页截图
“此次最大看点便是,DeepSeek-R1 后训练阶段中,大规模使用了强化学习技术,这一技术让大模型学会了自己训练自己,就像秒杀的AlphaGo的AlphaZero一样,通过自我博弈来进化而不是通过人类的教导取得进步。” 北京理工大学校外硕士生导师、无界AI联合创始人马千里说道。
通常情况下,一个大模型发布前,需要经过层层训练,才会与大众见面。在这过程中,大模型需要通过人工微调,才能让生成的内容更准确且符合预期。
“强化学习技术的使用,颠覆性地免去了模型启动前,需(xū)要(yào)人(rén)来(lái)监(jiān)督(dū)、微(wēi)调(diào)的(de)传(chuán)统(tǒng)认(rèn)知(zhī),真(zhēn)正(zhèng)意(yì)义(yì)上(shàng)让(ràng) AI 自(zì)己(jǐ)训(xun)练(liàn)自(zì)己(jǐ)。”马(mǎ)千(qiān)里(lǐ)表(biǎo)示(shì),这(zhè)改(gǎi)变(biàn)了(le)OpenAI开(kāi)创(chuàng)的(de)大(dà)模(mó)型(xíng)训(xun)练(liàn)的(de)“工(gōng)业(yè)流(liú)程(chéng)”,能(néng)够(gòu)极(jí)大(dà)减(jiǎn)少(shǎo)人(rén)工(gōng)和(hé)运(yùn)营(yíng)的(de)成(chéng)本(běn),走(zǒu)出(chū)了(le)中(zhōng)国人自己特色的模型训练之路。

DeepSeek-R1在各项基准评测集上的表现,图源:DeepSeek技术报告
除此之外,此次DeepSeek-R1还融合了“思维链”,在解决问题时,会生成一系列中间推理步骤。
就像是解题时,有人喜欢将每一步骤都详尽地写在卷子上,而 DeepSeek-R1更进一步:把内心 OS 也都写出来了。“这样的方式能够较大程度减少大模型给出错误或者虚幻的信息。”马千里解释道。
让人(rén)惊(jīng)讶(yà)的(de)是(shì),此次DeepSeek-R1 出现了“尤里卡时刻”(aha moment)——这一现象原指人类突然理解一个以前无法理解的问题或概念的某个时刻。
也就是说,模型在推理过程中会突然停下来说"等等", 然后自发地重新评估之前的步骤,并进行反思,类似于人类的“灵光一现”。

Deepseek网页截图
当记者输入“三角形三边长 3、4、5,求面积”后,DeepSeek-R1并不是直接反馈计算步骤,而是输出了整个思考过程。仔细阅读它的思考过程,语言风格十分自然,还会说出“总之,我认为这个三角形的面积是6,没错”这样“拟人”的表述,让人感觉仿佛在(zài)与(yǔ)真(zhēn)人(rén)对(duì)话(huà)。
此(cǐ)外(wài),深(shēn)度(dù)求(qiú)索(suǒ)还(hái)更(gèng)新(xīn)了(le)用(yòng)户(hù)协(xié)议(yì),明(míng)确(què)模(mó)型(xíng)开(kāi)源(yuán)License将(jiāng)统(tǒng)一(yī)使(shǐ)用(yòng)标(biāo)准的MIT许可。“这是较为彻底的开源协议,目前一些号称‘开源’的大模型,实际上会有各种各样的商业条款或专利条款的限制。”马千里表示,AI大模型可以看作为公共基础设施,当前需要更多像深度求索这样开源的做法,从而促进未来的发展。

图源:社交平台截图
英伟达AI科学家Jim Fan称赞DeepSeek是“真正开放的前沿研究,赋能所有人”。
(来源:潮新闻)