用户登录投稿

中国作家协会主管

DeepSeek写的还是人写的?用AI来识别 西湖大学发明可识别机器生成文本的AI工具,准确率约90%
分享到:
来源:文汇报 | 刘琦  2025年03月14日08:07

随着DeepSeek、ChatGPT等AI大语言模型的飞速进化,机器生成内容越来越“拟人”,“真假美猴王”的经典桥段正在人工智能领域上演。日前,西湖大学教授张岳领衔的自然语言处理实验室研发出一款能够识别机器生成内容的AI程序Fast-DetectGPT,能够以96%的准确率识别ChatGPT生成文本,对DeepSeek生成文本的检测准确率达89%。

“真假美猴王”上演,谁是“如来”?

2023年12月发表在国际期刊上的一项研究,讨论了顶级期刊的语言学家能够在多大程度上区分AI写作和人工写作。72位语言学家参与了这项调研,结果显示正确率不足40%。

事实上,机器生成的文本与人类生成的文本虽然看起来很像,但在语义、语法、用词习惯等细节处理上存在许多不同。张岳解释,机器的思考偏向“统计性”,而人类的思考里除了“统计性”,还有“因果性”。具体体现在当遇到困难,人类会反思,但这种能力大模型尚不具备。

张岳进一步解释,以写文章为例,AI的写法是学习现有的数据,从中挑选最“安全”的词,也就是按照概率高低来选词,这和人类写作的创造性有本质区别。例如在“我吃了一顿××”这个句式中,机器往往会在“吃”这一动词后使用搭配概率较高的“饭”,但人类可能会说:“我吃了一顿美味。”

研究团队认为,人类和机器在给定上下文的情况下,词汇选择存在明显差异,而机器与机器之间的这种差异并不明显,这就是Fast-DetectGPT的工作原理。

另辟蹊径,“以子之矛,攻子之盾”

有了原理,那么该如何操作?Fast-DetectGPT研发者之一、西湖大学博士生鲍光胜解释,面对一句话或者一篇文章,Fast-DetectGPT会从AI的角度出发先想想,如果是自己写会怎么写?然后根据这个自问自答的参考答案,比对原文看看重合度有多高,相当于“以子之矛,攻子之盾”。

具体而言,当Fast-DetectGPT接收到一个文本片段,首先会在不改变原意的情况下进行改写,把局部的同义词替换掉,再将这份替换后的文本与原始文本进行对比。如果原始文本是AI写的,两者的相似度会比较高。简单来说,AI对AI写的内容更熟悉,可以“深入敌后”认出同类作品。

据介绍,出于对AI安全性和可信赖方面的担忧,欧美等国已有不少用AI检测AI的研究,比如普林斯顿大学学生开发的GPTZero、斯坦福大学研究团队推出的DetectGPT等。此次由西湖大学研发的Fast-DetectGPT相较于DetectGPT的检测速度提高了340倍,准确率提升75%。

Fast-DetectGPT不仅对不同语种和内容有良好的适用性,还能识别AI润色和翻译的文章。无论是人写的经由AI润色或翻译的文字,还是AI写的经由人润色或翻译的文字,都逃不过它的“法眼”。

AI持续进化,矛更利还是盾更坚?

尽管当前的技术大幅提高了对AI生成文本识别的准确性,但张岳坦言,不久的将来,AI可能会发展出“反侦察”技术,从而提高内容识别难度,人与机器之间这种“矛”与“盾”的攻防角色会不断互换、演进。

另一个担忧在于,当人类吸收的语料中越来越多混入AI生成内容,人类写作会不会越来越接近AI?对此,张岳表示,随着互联网上AI生成内容的不断增加,一批与AI相伴而生的年轻人可能也会逐步“学习”AI的表达风格,但人类的表达始终具有“因果性”,与AI存在本质区别。而在更远的未来,AI可能学会像人一样思考,届时识别难度可能更高。