日韩av在线观看亲嘴揉胸大尺度|隔壁少妇又高潮了|欧美少妇喷潮|高潮喷水啊啊啊|男人扒开女人腿狂躁免费|日韩射情|美女18以下禁|日本人妻和黑人登情中|别揉了再揉就高潮了小说|女的高潮会怎样,男人桶进美女屁股免费看骚货老师不穿内裤上课 ,av在线日韩网,日本公妇乱淫免费视频一区三区女人扒开屁股让男人使劲桶

315舉報熱線:12315
您當(dāng)前的位置:首頁>營銷戰(zhàn)略

DeepSeek能否改寫AI戰(zhàn)局,?

來源: 發(fā)布時間:2025-02-26 閱讀量:112

“DeepSeek在基座大模型上做出的突破,,是天才級別的。”

近,,國產(chǎn)大模型公司深度求索(DeepSeek)引發(fā)的輿論震動,,讓今年春節(jié)成為“最有AI味的年”,。談到DeepSeek旗下標志性大模型DeepSeek-R1,,多位業(yè)內(nèi)人士向澎湃新聞記者表達了高度贊賞。

QQ_1740537297177.png

1月28日,大洋彼岸的人工智能巨頭Open AI CEO山姆·奧特曼(Sam Altman)發(fā)文回應(yīng)DeepSeek帶來的挑戰(zhàn):“DeepSeek推出的R1令人影響深刻,,我們當(dāng)然會推出更好的模型,,有新的競爭對手也令人振奮?!?/p>

國內(nèi)某Top2 AI初創(chuàng)企業(yè)也對記者坦言,,他們感受到了同行帶來的壓力:“后續(xù)我們會加快產(chǎn)品研發(fā)的角度?!?/p>

與之對比的是在產(chǎn)品上的快速迭代:除夕當(dāng)天,,DeepSeek悄無聲息地發(fā)布開源多模態(tài)模型Janus-Pro,。此前1月27日早間,,DeepSeek應(yīng)用曾登頂蘋果中國地區(qū)和美國地區(qū)應(yīng)用商店免費APP下載排行榜,在美區(qū)下載榜上超越ChatGPT,。

“多模態(tài)考驗的是對人類世界和環(huán)境的認知,,相信DeepSeek在此刻發(fā)布多模態(tài)大模型,一定有自己的信心和底氣,?!?月28日,360創(chuàng)始人周鴻祎告訴澎湃新聞記者,,“中國大模型技術(shù)復(fù)仇者聯(lián)盟戰(zhàn)隊里一定有DeepSeek的一份,,因為這家公司和它的創(chuàng)始人非常低調(diào),他們技術(shù)能力和未來前景被市場嚴重低估了,?!?/p>

“現(xiàn)在硅谷都把DeepSeek叫做來自東方的神秘力量,中國AI公司的創(chuàng)造力已經(jīng)剎不住車了,?!敝茗櫟t表示。

AI軍備競賽已進入深水期,,曾有觀點認為,,在字節(jié)、阿里,、騰訊等大廠包圍下,,AI創(chuàng)業(yè)公司將面臨洗牌,難逃被并購的命運,,而殺出重圍的卻是似乎“名不見經(jīng)傳”的DeepSeek,。DeepSeek走紅的秘密是什么,為國內(nèi)大模型行業(yè)帶來哪些啟示,?

QQ_1740535845834.png

DeepSeek優(yōu)秀在哪,?

“DeepSeek公司高層明確對商業(yè)化不感興趣,只想做技術(shù)研究,這樣的高度一般人達不到,?!?/p>

有了解DeepSeek人士向記者透露,自己曾經(jīng)面試過一些AI領(lǐng)域的人才,,最后拒絕了自己的公司,,去了DeepSeek,理由是他們科研氛圍好,,是一個真正做事的團隊,。

“從薪資來看,其實他們只是業(yè)內(nèi)中流水平,,高,,但并不是最高的?!彼蛴浾咛寡?,“如果說人才密度,可能還比不上頭部大廠,。并不是大廠的人不聰明,,而是大廠的聰明人花了太多精力在技術(shù)之外。大廠雖然薪資高,,但是內(nèi)部斗爭也多,,想要真正專心做事,反而不如這樣的技術(shù)公司純粹,?!?/p>

盡管在外界眼中,DeepSeek仿佛是一夜爆紅,,但此前早有多項成就引發(fā)行業(yè)關(guān)注,。2024年,在大模型行業(yè)率先發(fā)起價格戰(zhàn)的正是DeepSeek,,但并未引起外界關(guān)注,,此后智譜、字節(jié)跳動等跟進,,才引發(fā)整個行業(yè)的降價潮流,。

QQ_1740537340401.png

當(dāng)時的DeepSeek,還未真正讓他人看到它的實力,。2024年,,智譜AI COO張帆在接受采訪時曾開玩笑說:“我們是主流廠商中第一個降價的?!碑?dāng)時有人提醒,,首個降價的廠商其實是DeepSeek,張帆表示:“我說的是主流廠商”。 DeepSeek最引人矚目的,,是其顯著降低了大模型開發(fā)成本,。1月20日,DeepSeek正式發(fā)布推理模型R1,,其API(編程接口)服務(wù)定價為每百萬輸入tokens(詞元)僅需1元(緩存命中)/4 元(緩存未命中),,每百萬輸出tokens為16元。DeepSeek的定價約等于Meta旗下Llama 3-70B的七分之一,,GPT-4 Turbo的七十分之一,。 因此,DeepSeek也被戲稱為AI界的“拼多多”,,實現(xiàn)高效低價背后的原因是什么,?國內(nèi)某知名AI公司董事長向記者解釋稱,這主要得益于DS-V3的多項技術(shù)創(chuàng)新,。首先,,DeepSeek采用MoE架構(gòu)(Mixture of Experts,,混合專家模型),,通過將大模型變成多個稀疏的專家小模型,并通過多個模型聚合來達到和傳統(tǒng)大模型相當(dāng)?shù)哪芰?,有效降低了計算成本? 其次,,DS-V3在訓(xùn)練方法上進行了重要創(chuàng)新。采用FP8混合精度訓(xùn)練,,效率是常規(guī)BF16精度的約1.6倍,;同時優(yōu)化了并行流水線,提升了訓(xùn)練和推理效率,。這些優(yōu)化加上訓(xùn)練的一次成功,,使得V3的訓(xùn)練成本降至約550萬美元。 而在最新發(fā)布的DS-R1中,,DeepSeek采用了創(chuàng)新性的GRPO(組相關(guān)策略優(yōu)化)強化學(xué)習(xí)方法,,無需龐大的人類標注數(shù)據(jù)庫。通過讓模型自主生成并驗證結(jié)果的方式,,R1展現(xiàn)出了強大的推理能力,。隨著訓(xùn)練步數(shù)增加,其思維鏈(Chain-of-Thought,,CoT)的長度不斷增長,,模型甚至開始在推理過程中進行自我反思。


“DeepSeek R1的成功意味著,,如果基礎(chǔ)模型能力夠強,,在強化學(xué)習(xí)過程中它就能自己學(xué)會推理。這也是為什么國外AI圈的人看到DS-R1后驚呼AGI竟然離我們?nèi)绱酥脑颍阂驗镽1證明了能力足夠強的模型是可以不依靠人類自己進化的,盡管現(xiàn)階段的reward還是需要標簽,?!鄙鲜鋈耸勘硎尽?/p>

QQ_1740536215217.png

《麻省理工科技評論》分析稱,,DeepSeek R1 采用類似ChatGPT o1使用的“思維鏈”方法,,它可以通過逐步處理查詢來解決問題。這可能是美國對華高端AI芯片出口管制帶來的意外結(jié)果,,迫使中國的初創(chuàng)企業(yè)“優(yōu)先考慮效率”,。

有意思的是,如果問DeepSeek自己R1模型相比OpenAI有哪些特點,,DeepSeek的回答是,,創(chuàng)新點可能在“注意力機制”和“參數(shù)效率”,R1在處理長文本時更聚焦關(guān)鍵部分(比如法律合同中的條款),,減少計算量,,類似“讀書時用熒光筆劃重點,只反復(fù)看關(guān)鍵段落”,。在參數(shù)效率方面,,用類似MoE(混合專家系統(tǒng))的結(jié)構(gòu),把模型分成多個“子專家”,,不同任務(wù)激活不同部分,,既節(jié)省算力又提升效果(類似“看病時分科室掛號,心臟問題找心內(nèi)科專家,,不用讓全科醫(yī)生從頭學(xué)到尾”)

DeepSeek自我評價道,,“DeepSeek像一家精品店,在特定領(lǐng)域更專精,;OpenAI像大型超市,,啥都有但價格高?!?/p>



熱門推薦 更多