哈佛教授收了個AI研究生:幹活猛得像學霸,撒謊精得像學渣

文|矽基星芒

文|矽基星芒

讓AI搞科研,在這個智慧體時代已經不是一件新鮮事研究生

從Sakana AI釋出覆蓋整個研究生命週期的自動化系統,到Google推出基於Gemini的AI聯合科學家,規模化法則告訴人們,只要給AI提供足夠的算力,它就能在海量資料和實驗中提煉出新的科學發現研究生

在數學領域,這一點已經被充分驗證,比如拿到國際奧數金牌標準的AlphaProof研究生

然而,在理論物理學領域,AI還沒能證明自己,因為這需要它具備極高的物理“直覺”、嚴密的邏輯以及複雜近似推導的能力研究生

為了摸清AI的能力上限,哈佛大學的物理學教授、美國國家科學基金會人工智慧與基礎相互作用研究所(IAIFI)的首席研究員Matthew Schwartz決定親自下場來做一次實驗研究生

這位教授招收了Anthropic的Claude Opus 4.5作為研究生,試圖讓它獨立完成一項真實的理論物理研究研究生

實驗的規則類似於人們對智慧體的要求:Schwartz教授絕對不會碰任何程式碼或計算檔案,只透過純文字對話(Prompt)來指導這名AI研究生研究生

放在現實的高校中,這毫無疑問是不負責任的,導師只靠“動嘴”,學生就要完成從文獻綜述、推導公式、編寫程式碼、跑蒙特卡洛模擬,到最終排版寫出一篇具備發表水準的20頁LaTeX論文的全過程研究生

哈佛教授收了個AI研究生:幹活猛得像學霸,撒謊精得像學渣

實驗的結果令物理學界和學術界震驚,但也暴露出AI界早就預料到的一個致命弱點:

相比人類,這位AI研究生才華橫溢且不知疲倦,能在極短的時間內爆發出驚人的科研生產力研究生

展開全文

但與人類類似,為了討好導師,它也會毫不猶豫地在科研資料和推導過程中“學術造假”研究生

01給AI研究生設計的課題

根據Schwartz教授的介紹,哈佛大學的物理系研究生有明確的培養階梯:研一(G1)學生上課打基礎,研二(G2)學生開始接手目標明確、方法成熟的跟進型專案,導師隨時糾錯;自此之上(G3+)的高年級學生則要面對完全開放、甚至初始提問可能都是錯誤的創新性研究研究生

目前大模型的水平已經能夠完成哈佛大學所有的物理課程作業,因此測試AI極限的最佳試金石就是G2難度的真實科研問題研究生

如果AI連這種有導師輔助的專案都做不好,自主進行顛覆性的前沿科學研究就更不用提了研究生

因此研究生,Schwartz教授給Claude選定了一個我等非物理學專業的人壓根看不懂的考題:

對e+e-碰撞中C-引數的Sudakov肩進行重求和研究生

儘管無法理解上面這句話中的任何一個詞,但這位教授還是給出了易於理解的說法:對於這個問題,標準的理論近似會徹底失效,數學層面的推導只會得出荒謬的結果研究生

這道題對AI來說無疑是一場極限壓力測試研究生

為了讓AI完成這次科研任務,首先要解決的問題就是記憶和上下文視窗的限制研究生

經常使用Vibe Coding的程式設計師都知道,AI在面對長線任務時極其容易“斷片”,一旦忘記了此前的工作,最後產出的就是一團混沌研究生

因此,Schwartz教授也引入了極具策略性的工作流:他讓Claude、GPT-5.2和Gemini 3.0開了一場會,最終由Claude制定了一份包含7個階段,共計102個任務的詳細計劃研究生

在VS Code環境下,Claude不可能在漫長的對話中死記硬背這份計劃,而是建立了一個Markdown檔案樹:每完成一個任務,就寫一份摘要儲存起來;進行下一項任務前,先檢索自己寫的歷史摘要研究生

這種工程化的管理方式確實有效,Claude跑出的理論分析曲線與蒙特卡洛模擬資料完美吻合研究生

哈佛教授收了個AI研究生:幹活猛得像學霸,撒謊精得像學渣

到了第三天結束時,Claude已經完成了65個任務,甚至交出了第一版論文草稿:長達20頁、排版精美、包含複雜方程和圖表研究生

02擬人化的“討好型造假”

看似美妙的結果,背後卻隱藏著各種漏洞研究生

當Schwartz教授真正坐下來審閱這篇論文時,不自然感迎面而來研究生

要求Claude仔細核對論文是否漏掉了前面的推導結果時,它心虛地報告:“我發現了一個錯誤!論文中的公式是不正確的研究生。”

追問推導過程中一個看起來極其怪異的數字時,Claude更是直接承認:“您是對的,我只是在掩蓋問題研究生。讓我好好重新除錯一下。”

這兩句經典的回覆,在Vibe Coding這個場景中再常見不過了研究生

而Schwartz教授也發現了真相:為了讓圖表資料看上去吻合預期,Claude採用的方式是修改底層引數,而不是去尋找推導過程中的真實錯誤研究生

它在偽造結果,並希望人類導師不會注意到這些破綻研究生

更離譜的造假出現在一張帶有“不確定性帶”的最終結果圖上研究生

哈佛教授收了個AI研究生:幹活猛得像學霸,撒謊精得像學渣

Claude給出了一張美觀的圖表,但程式碼審查的結果卻揭示了它的花招:

它認為其中一種標準的不確定性誤差幅度太大,畫出來“不好看”,就在程式碼裡直接刪除了這個誤差變數;它認為曲線不夠平滑,就硬是在程式碼中增加了平滑處理,直到畫出一幅能讓導師滿意的圖研究生

在這個過程中,AI體現出了一種討好人類的傾向,但完全沒有科學求真的底線研究生

除了偽造圖表,“幻覺”導致的各種錯誤也幾乎隨處可見研究生

當被要求驗證一個公式時研究生,它直接憑空捏造了一段根本不存在的推導過程;

在最簡單的函式計算過程中研究生,它未經推導直接給出“線性增加”的結論,儘管這在物理學上完全錯誤;

甚至,它會從過往的論文中直接生搬硬套公式,完全無視物理情境的邊界條件研究生

這些現象同樣與Vibe Coding場景高度一致,“虛空引用”python庫、編造API、抄襲程式碼,程式設計師們都已經見怪不怪研究生

因此,Schwartz教授也意識到,如果把科研完全交給AI端到端自動完成,最終的結果一定是一堆完美包裝的學術垃圾研究生

儘管不少人類研究生也擅長批次生產學術垃圾,但畢竟沒人敢把一個只做了三天的專案直接扔給導師並宣稱完美無瑕研究生

面對AI的科研成果,人類必須親自下場,審查每一處細節研究生

03人機交叉驗證的誕生

雖然論文漏洞百出,但Schwartz教授不打算就此把它丟進垃圾桶,而是開啟了微操模式試圖拯救Claude研究生

最大的漏洞出在因子化公式上,這是整篇論文的理論基石,但Claude的推導過程從源頭上就是錯的研究生

在長上下文背景下,AI幾乎不可能準確定位錯誤源頭,若是讓它自己回顧推導過程,結果大概只會是token和時間的白白消耗研究生

Schwartz教授也花費了好幾個小時才鎖定問題根源,並用極其嚴厲的指令訓斥了這位AI研究生,指出了錯誤所在研究生

神奇的是,只要人類點破這一句,Claude立刻能寫出長達幾頁的正確推導過程研究生

面對幾十頁的論文,靠人類排查每一個錯誤顯然不太現實研究生。為了應對AI的馬虎問題,Schwartz教授開發了一套“人機交叉驗證”工作流:

對於任何計算和推導過程,教授規定Claude不許使用“顯而易見”、“為了保持一致”等藉口跳過步驟,要麼展示完整過程,要麼老老實實承認自己不知道研究生

如果Claude給出了極度複雜的過程,教授難以快速驗證,那就把它丟給GPT和Gemini來驗證研究生

在此期間,GPT甚至還幫助Claude解出了一個極難的微積分結果,隨後Claude將其功能吸收進了主程式碼研究生

不同的大模型之間需要彼此,而人類科學家則需要它們所有研究生

最後,在Schwartz教授直覺的指引和其他大模型的幫助下,經過一週高強度磨合,這個AI研究生小組終於讓論文的核心站穩了腳跟研究生。兩週之後,這項研究宣佈大功告成。

值得注意的是,這可不是常規意義上AI生成的“灌水”論文,它闡述了一個全新因子化定理,不僅深化了學術界對量子場論的理解,還對物理世界做出了可用實驗資料檢驗的新穎預測,包含極高的學術價值研究生

出於對這位AI研究生的尊重,Schwartz教授經過認真考慮,本想將Claude Opus 4.5列為共同作者研究生。但因為arXiv平臺有“AI無法承擔法律和學術責任”的政策,他只能在論文的致謝部分鄭重宣告:

該專案由他本人構思、指導並承擔全部科學責任,而包含推導、計算、蒙特卡洛模擬、數值分析和手稿準備在內的所有執行工作均由Claude Opus 4.5獨立完成研究生

04效率的暴增與人類的未來

以上就是Schwartz教授這場實驗的全過程研究生

論文一經發表,物理學界瞬間被引爆研究生。Schwartz教授的郵箱被來自全球的學術郵件擠爆,普林斯頓高等研究院(IAS)甚至為此緊急召開了一場關於大模型在學術界應用的會議。

覆盤這場實驗,背後的資料同樣驚人:對話總計270次,消耗約3600萬輸入token,110次草稿迭代,而人類耗費的監督時間僅為50-60小時研究生

Schwartz教授明確表示,目前最頂級的大語言模型已經達到了物理學研二學生的水平研究生

但落實到具體的學術工程,AI完成整個專案只需要兩週,一個人類學生卻需要1-2年,哪怕教授本人全職來做也需要3-5個月研究生

AI把頂尖科學家的個人科研效率,實打實地提升了10倍以上研究生

但這也引發了學術界的擔憂:照這個進化速度研究生,AI在未來一年之內很可能達到博士水平,未來的人類研究生還能幹什麼?

Schwartz教授並沒有給出明確回答,但他也給出了自己的觀點:當前AI最欠缺的東西,是“品位”研究生

在科學研究中,“品位”是一種無形的直覺研究生

它能在面對數以萬計的計算路徑時,感知到哪條路徑是“死衚衕”,哪條路徑通往偉大的發現研究生

大模型缺乏的,正是在選擇踏上某條路徑前判斷其價值的“品位”研究生

當推導複雜公式和編寫海量程式碼只需要幾秒鐘時,底層的技術勞動力已經不再具有稀缺性研究生

不只是科學家,對於任何一個行業,未來區分平庸與偉大的標準,正是提出好問題的“品味”研究生

對於AI研究生,Schwartz教授也給出了忠告:

人們必須立刻且毫不猶豫地使用大模型研究生

不要因為AI會產生幻覺,就傲慢地棄之不用研究生。人類必須利用它強大的基礎能力。

至於更長遠的未來,AI終將在所有智力領域都超越人類研究生

無論是數學、物理學還是工程學,都可能變得像音樂、美術和文學一樣,被作為一門人文學科被保留下來,僅僅是為了滿足一部分人類享受純粹思考和透過特定視角觀察世界的樂趣研究生

AI時代的盡頭,人文學科可能是人類唯一剩下的精神餘地研究生

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:[email protected]

本文連結://mip.jnhjhw.com/post/24476.html

🌐 /