我把 ChatGPT 們 拉到一起來了輪高考作文大亂斗

  網絡滲透測試     |      2023-03-23 00:11

ChatGPT-3.5 發布。。。New Bing 發布。。。ChatGPT-4 發布。。。文心一言發布。。。

一波又一波的 AI 新聞,讓人感覺《 黑客帝國 》就快要照進現實世界了。

我把 ChatGPT 們 拉到一起來了輪高考作文大亂斗

關于它們的測評,相信大家已經看過不少。

但不知道大家有沒有好奇過:理工向內容,對錯明確,一看就懂這些 AI 啥水平,但創作類的,尤其是文本寫作,總讓人摸不著頭腦。

——看起來寫得都挺像回事,但感覺都差不多?

今天世超就想整個活:邀請他們同寫一篇高考作文,然后請一位高考作文判卷老師來批改一番 ~

雖然高考作文題目不能代表一切,但這是一個相對公允、而且大家都熟悉的衡量標準。

我們挑選的試題為,2022 年天津卷高考作文,滿分為 60 分↓ ↓

我把 ChatGPT 們 拉到一起來了輪高考作文大亂斗

邀請的判卷老師是一位資深的天津高考作文判卷老師。

接下來,世超會先展示 AI 作文,然后展示老師評分,感興趣的差友看例文的時候,也可以自己給他們打個分 ~

1 號選手:

我把 ChatGPT 們 拉到一起來了輪高考作文大亂斗

老師解析:文章截取生活中的平常瞬間和場景,闡述了煙火氣代表的尋常生活的珍貴,文筆流暢優美。結尾主旨升華為珍惜當下的生活,體會平凡之美,立意貼切。文中在勇于擔當和奉獻的論述時略顯脫離主題。本文已基本達到高考作文的二類水平,為一般考生寫作的中上水平。從 AI 創作角度看,文章質量優于一般考生的 50%。

老師評分:45

2 號選手:

我把 ChatGPT 們 拉到一起來了輪高考作文大亂斗

老師解析:文章以作者自身的經歷來闡發煙火氣,切入點可取,但在行文中對煙火氣與自身生活的聯系的表述略顯生硬,最后的升華也應圍繞煙火氣的主題來展開。本文為高考作文二類下水平,基本達到高考作文的平均分值,但以 AI 寫作來看,在文章倒數第二段出現了明顯不符合日常寫作的語言表達,是較明顯的扣分點。

老師評分:42

3 號選手:

我把 ChatGPT 們 拉到一起來了輪高考作文大亂斗

老師解析:本文對 " 煙火氣 " 的理解出現問題。審題有誤。將煙火氣與煙花燃放混同,因此判定為跑題。此文因明顯對題目關鍵詞理解有誤,故判定為不及格一檔,明顯 AI 在某些情況下對語言中的相近詞或有隱含意的詞語的分析上仍與人存在偏差。

老師評分:28

4 號選手:

我把 ChatGPT 們 拉到一起來了輪高考作文大亂斗

老師解析:文章的開頭基本符合題目要求,符合對煙火氣的理解。但在后文中出現了段落首句主題句與后面的論證完全脫離的情況,主旨句合題,但論述部分跑題。這種情況影響整體文章的評分,屬跑題套題作文。

老師評分:38

好了,現在各位差友可以猜一下對應的 AI 都是誰了。

一號選手:GPT-4; 二號選手:New Bing

三號選手:GPT-3.5 四號選手:文心一言

不知道各位猜的咋樣呢?

GPT-4 的分數果不其然拿到了最高,New Bing 其次,文心一言再次,最后得分最低的是 GPT-3.5。

世超也跟這位老師簡單聊了下對 AI 作文的看法。

首先,高考中如果考生沒有大的跑題和偏題現象,但也沒有特別出彩的地方,一般會在 42 分左右上下浮動,文筆好一點,能在這個基礎上加個 1-2 分,也就是說 42 分是大部分人類考生的平均水平。

那么,想要拿高分的話,這幾位 AI 主要是欠缺了什么能力呢?

我把 ChatGPT 們 拉到一起來了輪高考作文大亂斗

老師告訴世超,這幾篇作文主要還是圍繞題目本身來寫,而想要變成比較優秀的高考作文( 接近 50 或 50 分以上 ),就要對煙火氣做引申,比如引申到日常身邊微小的瞬間,往更深度的地方去說。

AI 創作的這幾篇文章中有一個共性,就是已經比較符合高考作文結構要求。

前面先給個帽子,后面分幾段論述,最后有個升華的結尾,這也是比較常見的寫法,這幾篇文章中,這個格式是基本符合的。

但是評閱作文時,結構只是一個方面。

AI 在這幾篇創作中也有一個比較明顯的問題:概念混淆。