21調(diào)查丨“玄學”、誤判和偏見:高校檢測AI論文背后
21世紀經(jīng)濟報道見習記者肖瀟北京報道
AI中風險,疑似用ChatGPT生成——這是去年四月,學校查重系統(tǒng)對王宇畢業(yè)論文的判定。王宇一下慌了。
當時ChatGPT驚艷亮相不到半年,教育界一度擔心學生有了“作弊神器”。在這一背景下,知名學術(shù)查重軟件Turnitin率先推出了AI文本檢測器,用來識別論文中的AI生成內(nèi)容。國內(nèi)的格子達、知網(wǎng)兩大查重系統(tǒng)也先后上線了AIGC檢測功能,王宇就是第一屆被檢測畢業(yè)論文AI率的學生。
隨著生成式AI快速迭代,規(guī)則和技術(shù)漸漸填上監(jiān)管真空期。去年8月提交審議的《學位法》(草案)擬定,人工智能代寫屬于學術(shù)不端行為,嚴重者可被撤銷學位證書。今年1月,Turnitin的AI文本檢測成為正式功能,開始像查重服務(wù)一樣向高校收取費用,一定程度上意味著AI論文檢測步入正軌。
但這沒有阻擋學生的使用,高校學生依然是生成式AI的主要用戶群?!爸苯影杨}目扔給AI讓它寫一整篇論文,老師肯定一眼就能看出來,我身邊已經(jīng)沒什么人這么做了?!眲⒊筷馗嬖V21世紀經(jīng)濟報道記者,她的用法是讓ChatGPT總結(jié)文獻、降重、潤色,這也是許多學生現(xiàn)在的使用方式。
不過,劉晨曦的論文還是被標記了25%的AI率,任課老師要求重寫。王宇在寫畢業(yè)論文的過程中沒有用到生成式AI,她曾經(jīng)自己嘗試找出有“AI風格”的句子,改了兩輪后,“AI率越改越高?!?/p>
AI參與的論文能不能被準確檢測?有沒有必要檢測?AI論文的監(jiān)管難題,正在困擾全球教育系統(tǒng)。
查重率低了,AI率高了
王宇去年畢業(yè)于湖南一所大學的商科專業(yè)。一開始看到自己的本科畢業(yè)論文被標記為“AI中風險”,王宇還不知道問題出在哪里,因為她沒用過ChatGPT這樣的工具寫作。直到老師將教師版本的AI檢測報告發(fā)過來,王宇才明白,那些AI疑似度高的段落,大多是被自己“降重”過的。
“降重”指降低重復率。此前在學生中流行的一種降重方法是,用翻譯軟件多次轉(zhuǎn)換語言,把他人的話快速“轉(zhuǎn)述”為自己的觀點。王宇用的就是這種辦法,她把一段話先從中文翻譯成英文,再將英語譯成日文,最后譯回中文,以此更換詞語和語序,降低與原文的相似度。
不過辦法這一次失靈了。“查重率是低了很多,但被認為是AI寫的。”
王宇學校使用的是格子達查重系統(tǒng),去年四月開始運行“類AI輔寫行為檢測”功能。在王宇的個人提交界面,論文被評級為AI中風險。在王宇老師的界面,可以更清晰地查看可疑文本,每一句的AI疑似度分高、中、低三檔,輔寫工具均判定為ChatGPT。
除了格子達和知網(wǎng),AI檢測工具尚未在國內(nèi)高校全面鋪開。相比之下,Turnitin查重系統(tǒng)在海外應(yīng)用更廣,檢測也更細致。劉晨曦在加拿大上學,去年十二月,她的一篇論文在Turnitin中顯示AI率25%——意思是25%的文本疑似由AI生成。老師因此讓她重寫,并且無論如何都要扣除25%的分數(shù)。
這篇論文是劉晨曦英語文學課的結(jié)課作業(yè),主題是比較兩部文學作品。寫論文時,她先跟ChatGPT最新的GPT-4大模型討論寫作方向,得到了比較兩位俄國女詩人的靈感。接著讓GPT-4查找文獻,自己寫出大綱和草稿。最后再讓GPT-4降重、潤色。最終論文里有多少屬于AI,多少屬于自己,她很難區(qū)分清楚。
劉晨曦說,GPT-4直接輸出論文仍然很生硬,編造文獻不少,“還不如自己寫”。但比起傳統(tǒng)的降重方法,ChatGPT的優(yōu)勢是可以精準“調(diào)教”,比如改寫特定的句子,或者解釋復雜概念。在找文獻上也更快捷,原本需要檢索兩到三天的文獻,GPT-4幾個小時就能整理完畢。
根據(jù)Nerdynav的調(diào)查,43%的大學生用過生成式AI完成作業(yè)。英國媒體The Lab統(tǒng)計發(fā)現(xiàn),羅素大學集團下的八所大學,對ChatGPT的訪問量在兩個月內(nèi)高達100萬。其中12月和1月是校園網(wǎng)絡(luò)訪問ChatGPT的高峰期,正是考試集中月。多位受訪學生告訴記者,AI一鍵生成的論文意義不大,基本達不到學校要求。學生現(xiàn)在的主要用法是總結(jié)文獻、降重、潤色語言,本質(zhì)還是他們曾經(jīng)抄過的一條“捷徑”。
劃下AI率紅線后,這條“捷徑”走不通了。從去年夏天起,小到隨堂感想,大到結(jié)課論文,劉晨曦的學校都要求AI率為0%。
王宇學校規(guī)定,畢業(yè)論文必須為AI低風險。她把被標記為AI的句子用自己的“大白話”重新描述,在修改了6個版本后,論文終于變?yōu)锳I低風險?!斑@是個玄學。”王宇形容。
上世紀論文也被判定為AI
多所高校都發(fā)布過AI論文禁令。最早開始的是美國紐約教育局,其限制在學校Wi-Fi網(wǎng)絡(luò)環(huán)境中訪問ChatGPT。英國大學尤其注重學術(shù)誠信,牛津、劍橋、帝國理工等28所英國大學都曾宣布,在論文和課程作業(yè)中不當使用AI,將被視為違反學術(shù)誠信的行為,嚴重者可能被開除學籍。香港大學也表示,學生在課程作業(yè)中使用AI需要老師批準,否則可以按作弊處理。
AI檢測技術(shù)的影響是立竿見影的。Tunitin上線AI檢測器的一個月內(nèi),全球有超過一萬所中高等教育機構(gòu)激活了這款工具。除了Turnitin,市面上還流行GPT Zero、 Copyleak等AI檢測工具,大多向個人免費開放。
一留學中介在社交媒體上分享,2023年在英國留學生中,AI代寫論文的學術(shù)聽證會數(shù)量,已經(jīng)超過人工代寫。“AI檢測率高是很石錘的學術(shù)不端?!?/strong>
但AI檢測器準確嗎?石白在美國加州大學系統(tǒng)下的一所大學擔任助教,她告訴記者,如果論文全篇用AI生成,有經(jīng)驗的助教一眼就能看出來。去年秋季學期,她的課上就有兩篇論文屬于這種情況。“用詞華麗空洞,而且引用的文獻基本不存在?!笔姿阉髁艘豢預I檢測工具,99%的檢測結(jié)果幫她肯定了自己的猜測。
被懷疑有AI參與的論文還有三到四篇,AI率在30%~40%之間,但石白沒有追究。一個原因是,她熟悉其中一位學生的寫作風格,其寫法一直比較華麗;另一方面,有其他助教曾經(jīng)檢測了自己的原創(chuàng)論文,AI率也有30%~40%,這讓石白覺得AI檢測工具還不夠可靠。
劉晨曦用五篇AI參與程度不同的論文,測試了市面上的主流AI檢測工具,得出的結(jié)論是:除非完全不用任何工具,否則都有AI含量。比如,去年十二月,她讓GPT-4潤色了知名哲學家朱迪斯·巴特勒、斯拉沃熱·齊澤克的兩篇論文,前者在Turnitin檢測出的AI率為51%,后者為34%。
“而且巴特勒本人就喜歡用生僻詞語、長難句寫作,哪怕直接提交她在上個世紀發(fā)表的論文,也顯示有AI內(nèi)容?!眲⒊筷匮a充道。
盡管許多AI檢測工具聲稱誤判率在1%之內(nèi),但在使用過程中,誤判概率似乎遠高于官方數(shù)字。最大的誤判區(qū)是語法工具、翻譯軟件和潤色功能,一些固定的個人寫作風格也可能被誤傷。
對于可能出現(xiàn)的誤判,Turnitin的解釋是:“AI檢測器會識別書寫過于一致、平均的模式,而許多人的寫作水平可能就屬于平均模式?!?這也是市面上大部分AI檢測器的說法。
簡單來說,人類往往會綜合使用長短句,而AI 的句子更單調(diào)。此外,人類的文本通常還有復雜的轉(zhuǎn)折、非典型的邏輯結(jié)構(gòu),讓AI無法準確工具測下一個詞語。這兩個影響因子決定了,一些遵循“寫作模板”的論文,可能被誤認為是AI作品。至于這些模板究竟是什么,具體如何運作,幾乎沒有AI檢測器能夠提供解釋。就像AI一樣,目前AI檢測的技術(shù)原理也處于黑箱之中。
考慮到存在誤差,許多AI檢測工具都發(fā)布了“免責聲明”。比如Turnitin建議,不把AI率當作唯一標準,希望老師綜合專業(yè)經(jīng)驗以及對學生的了解做判斷。
使用界限模糊
北京大學教育學院學習科學實驗室執(zhí)行主任尚俊杰在采訪中告訴21記者,目前AI檢測器的意義,主要是監(jiān)督明顯的學術(shù)不端行為,比如直接用AI生成全文。
還有一種情況是,AI靈活應(yīng)用在整個研究和寫作過程中。此時的核心問題在于,哪些行為算學術(shù)不端,哪些行為算合理使用?簡單用數(shù)字高低判斷并不科學,劃分界限是個難題。
論文被檢測出25%的AI率、判定為抄襲后,劉晨曦將每一階段的草稿、文獻整理筆記、瀏覽器搜索歷史發(fā)給老師,證明論文是自己的原創(chuàng)作品,成功爭取到了老師的認同。不過,申訴中介讓她不要跟老師提到ChatGPT,于是她謊稱用的是另一款老牌寫作工具Grammarly。
Grammarly是上一波人工智能浪潮的產(chǎn)物,主要用來糾正語病、潤色語句,不少歐美大學的寫作指導中心甚至會鼓勵學生先用Grammarly批改作業(yè)。“嚴格意義上,用輔助工具都算作弊。但老師比較能理解這些軟件的作用,所以我只能這么說?!眲⒊筷亟忉尅?/p>
既是在讀博士,又為大一、大二學生授課的石白,一方面能理解學生用AI寫論文,因為她也常用ChatGPT做論文的前期準備,比如做表格、搜文獻;另一方面,她認為本科生無法把握使用的邊界,所以才會在教學大綱中完全禁止學生使用AI。
多位受訪學生提到,求助AI的一個原因是學術(shù)能力有限。“本科生的論文沒什么學術(shù)含金量,這種綜述性的作業(yè),大家都是找?guī)灼撐臏愐粶愑^點,再找工具改一改?!蓖跤钫f,只要不涉及數(shù)據(jù)造假、文獻造假,她覺得用AI寫論文沒有什么問題。
但在石白看來,學術(shù)論文是觀察、思考、提問、論述的完整過程。一篇名為《感謝ChatGPT揭露本科論文的平庸》的文章寫道,本科論文的重點是教育,而不是知識的進步。最關(guān)鍵的是訓練和展示學生處理信息的能力,不是產(chǎn)出有價值的知識。“如果一直依賴ChatGPT得到結(jié)果,就不會經(jīng)歷批判思維的訓練過程。而過程才是我想讓學生學習的。”石白說。
華盛頓大學的一位教授在《大西洋月刊》上表示,被識別出AI內(nèi)容的論文可能介于完全沒用AI,工具者100%用AI之間。學生究竟怎么使用、用法是否錯誤,AI檢測工具無法回答,師生間誠實的溝通變得越來越重要。
教育規(guī)則的反思和變革
AI檢測器難以解決的監(jiān)管難題,反映出一個更深層次的困擾:如何處理AI和教育的關(guān)系?
尚俊杰告訴記者,技術(shù)革新一直在影響著教育系統(tǒng)。上世紀的學生需要去圖書館逐本翻閱文獻,一遍遍用手謄寫論文。搜索引擎和電子文稿軟件普及之后,學生可以直接在網(wǎng)上檢索文獻、復制粘貼、比較分析、歸納總結(jié),大大提升了工作效率??梢哉f,計算機在整個研究和論文寫作過程中起到了巨大作用,應(yīng)用AI是必然趨勢。
在尚俊杰看來,AI對高等教育是一次新的提升機會,也提出了更大的挑戰(zhàn)。引導學生合理使用AI,需要重新思考教育系統(tǒng)的“游戲規(guī)則”。
石白認為,應(yīng)對生成式AI的沖擊,課程設(shè)置和考核方式很重要。她觀察到,學生用AI寫論文,往往跟論文難度有關(guān)。比如她發(fā)現(xiàn)有數(shù)篇AI論文的課程,“學生才剛接觸學術(shù)寫作,老師對論文字數(shù)、文獻引用數(shù)量的要求又很高,其實超過了學生的能力范圍?!?另一門課的論文要求相對合理,而且著重于學生批判、思考的基礎(chǔ)能力,石白在這門課上幾乎沒有發(fā)現(xiàn)AI代寫論文。
近幾個月,包括西北大學、德克薩斯大學奧斯汀分校在內(nèi)的幾所美國高校宣布關(guān)閉Turnitin的AI檢測服務(wù),并放寬對AI的限制。此前澳洲的多所大學嘗試轉(zhuǎn)變考核方式,減少標準考卷,采用更多的口頭報告、現(xiàn)場演示。
還有一些學校開始積極擁抱AI。今年1月,美國亞利桑那州立大學引入ChatGPT企業(yè)版,成為第一個與OpenAI合作的高等教育機構(gòu)。該校校長表示:“AI將成為幫助學生提高學習效率,更全面地理解學科的工具。此次合作反映了我們的理念和承諾——我們要直接參與到人工智能學習技術(shù)的發(fā)展過程中。”
尚俊杰指出,在人工智能時代,學生應(yīng)該做什么、學什么、怎么學,成為一個很重要的問題?!皩τ诂F(xiàn)在的高校學生,我們要求他們具有一定的計算機能力。在未來,什么能力是學生需要具備的?哪些能力將與AI掛鉤?” 斯坦福大學機器人及未來教育項目主任蔣里曾預測,未來學生的能力會被分成兩種:一種是單打獨斗的能力,不借助任何AI工具的幫助;另一種是AI加持下的能力,這可能是今后最為重要的能力。不同的能力要求,將重塑人才培養(yǎng)模式。
從更長遠的尺度看,當AI全面參與研究過程,學術(shù)規(guī)范等諸多規(guī)則也會迎來改變。例如尚俊杰提到,在文章中如何提及AI的貢獻,AI能否列為論文作者,乃至如何定義學術(shù)誠信、學術(shù)剽竊,都是未來會面臨的問題。
“AI應(yīng)用于高等教育已經(jīng)是必然趨勢,需要鼓勵正確使用,而不是一刀切的禁令。人類要探索的新問題是,在人工智能時代下,怎樣構(gòu)建新的學術(shù)規(guī)范和倫理規(guī)則?!鄙锌〗苷f。、
(應(yīng)受訪者要求,王宇、劉晨曦、石白為化名)