ChatGPTと人間の執筆:違いがわかりますか?
200人の読者、40のテキストサンプル、5つのジャンル。平均検出精度:52%。ほぼコインの裏表のような状態。しかし、1つのジャンルはパターンを完全に破りました。 私は15年間、創造的な執筆を教えてきましたが、昨学期に自分の技術について思っていたすべてのことを疑問視するようなことをしました。私は40の執筆サンプルを収集しました—20は私の学生から、20は同じプロンプトでChatGPTによって生成されたものでした—そして200人のボランティアにどれがどれかを特定するように頼みました。彼らは無作為なインターネットユーザーではなく、私の同僚の教授、出版された著者、編集者、上級執筆学生でした。生計を立てるために読書をしている人々です。 結果は、私を3晩連続で眠れぬ夜にしました。私の執筆指導を変えた実験
それは、オフィスアワーでの学生の告白から始まりました。私の最も優れた作家の一人、サラは、課題の「スタートを切る」ためにChatGPTを使っていることを認めました。彼女は、カンニングのためではなく、真っ白なページの麻痺を克服するためだと主張しました。彼女はドラフトを生成し、それを完全に自分の声で書き直しました。最終的な作品は間違いなく彼女のものでした—私はそれに賭けても良いと思っていました。 しかし、それは私に疑問を抱かせました:サラがAIの執筆を本当に人間らしいものに変えることができるなら、私は違いを見分けられなくなったのではないか?そして、もし私がそれを見分けられなければ、それは私が学生の作品を評価する方法にとって何を意味するのか? 私はブラインドテストを設計しました。5つのジャンル:学術論文、創作フィクション、ビジネスメール、個人的な物語、詩。各ジャンルに対して、私は学生から4つの人間のサンプル(許可を得て)を収集し、ChatGPT-4を使用して4つのAIサンプルを生成しました。私は学生に与えたのと全く同じプロンプトをAIに与え、単語数や具体的な要件も含めました。 その後、私は200人の参加者を募集しました:80人は私の大学の英語学部から、60人は地元の作家グループ、40人はプロの編集者、20人は出版された著者です。各参加者は、ジャンルと番号でラベル付けされた全40のサンプルをランダムな順序で受け取りました。彼らの任務は簡単でした:各サンプルを「人間」または「AI」としてマークすること。 私は同僚たちがこれを完璧にこなすと思っていました。私たちは声、真実性、人間の思考の微妙なマーカーを見抜くように訓練されてきました。私たちは学生に独自の視点を育てるように教えるキャリアを過ごしています。 私たちは壮大に失敗しました。方法論:どのように200人の読者をテストしたか
実験は春学期の6週間にわたって行われました。私は厳格な条件を望んだので、厳しいプロトコルを設けました。 人間のサンプルについては、AIツールを一度も使用したことがない学生の作品を選びました(インタビューやデジタルフォレンジックを通じて確認済み)。私は異なるスキルレベルを表す作品を選びました—一部は洗練され、一部は粗削りで、すべてが本物です。異なる人口統計を持つ学生の作品を含めました:母国語話者と非母国語話者、異なる年齢層、さまざまな文化的背景。 AIサンプルについては、正確に私の課題指示を模倣した慎重に作成されたプロンプトを使用してChatGPT-4を使いました。出力を厳選することはありませんでした。AIが最初に生成したものをそのままテストに入れました。編集なし、再生成なし、人間的な手を加えていません。 各参加者には、全40サンプルを含むデジタルパケットが渡されました。彼らには評価を完了するための2週間がありました。私は参加者に一人で作業し、他の人とサンプルについて話し合わないように頼み、各判断の自信レベルを1〜5のスケールで記録するように求めました。 また、人口統計データも収集しました:執筆経験の年数、彼らがAIツールを使用したことがあるかどうか、主要なジャンルの専門知識、およびAIに対する一般的な態度(肯定的、中立的、または否定的)。 サンプルはそれぞれ200から500語の範囲でした。声とスタイルを確立するのに十分な長さで、参加者が疲れ切ってしまわないのに十分な短さでした。疲労バイアスを防ぐために、各参加者の順序をランダム化しました—誰も同じ順序でサンプルを見ませんでした。 彼らが評価を提出した後、私はフォローアップの調査を送り、彼らがどのような手がかりを使って判断したのかを記述するように頼みました。何が「人間らしい」または「人工的」に感じるのか?この定性的なデータは、数値と同じくらい明らかでした。私がすべてを疑問視させた学生
データを共有する前に、マーカスについてお話しする必要があります。 マーカスは私の高度な構成クラスの3年生で、コンピュータサイエンスの専攻で執筆の選択科目を受講していました。静かで、計画的なタイプの学生で、次の段落に進む前に単一の段落を7回修正することもありました。彼の執筆は技術的には完璧でしたが、感情的には距離がありました—よくプログラムされたアルゴリズムを読むようでした。 学期の中頃、何かが変わりました。彼のエッセイには突然温かみがあり、予期しない隠喩、真摯な洞察の瞬間がありました。技術的な正確さは残っていましたが、今はそれが人間の声にサービスを提供するのではなく、置き換えるものになっていました。 私は興奮しました。これが私が教える理由です—学生たちが彼らの本物の声を見つけるのを見守ること。 その後、私はマーカスの新しいエッセイの1つを私のブラインドテストに含めました。それは、彼の祖母のベトナムからの移民に関する個人的な物語で、感覚的な詳細と感情的なニュアンスに満ちていました。参加者の83%がそれをAI生成だとマークしました。 マーカスに伝えたとき、彼は笑いました。「それは僕が今まで書いた中で最も人間らしいものだよ」と彼は言いました。「6時間祖母にインタビューした。彼女の実際の言葉、彼女の思い出だ。書きながら泣いた。」 83%の専門家が「人工的」と呼んだエッセイは、深い人間的なつながり、慎重な研究、感情的な脆弱性の産物でした。一方、「困難を克服する」という内容のChatGPT生成の作品は—一般的で、安全で、期待されるすべての要素を含んでいました—71%の読者を欺いてそれが人間のものであると思わせることに成功しました。 これが、私たちが実際にはAIを検出しているのではなく、まったく別の何かを検出しているという最初の手がかりでした。データ:200人の専門家が実際に検出したもの
200人の執筆専攻者が人間とAIの執筆を区別しようとしたときに何が起こったのかは次のとおりです:| ジャンル | 全体的な精度 | 偽陽性(人間をAIと呼んだ) | 偽陰性(AIを人間と呼んだ) | 平均自信 |
|---|---|---|---|---|
| 学術論文 | 48% | 54% | 50% | 3.2/5 |
| 創作フィクション | 61% | 35% | 43% | 3.8/5 |
| ビジネスメール | 45% | 58% | 52% | 2.9/5 |
| 個人的な物語 | 53% | 49% | 45% | 3.4/5 |
| 詩 | 73% | 22% | 32% | 4.1/5 |
| 全体の平均 | 52% | 44% | 44% | 3.5/5 |
読者が実際に私に伝えたこと:彼らが検出していたこと
テストの後、私は50人の参加者に対して決定プロセスについて詳細にインタビューしました。彼らの説明からは、気になるパターンが明らかになりました。 ある編集者は私にこう言いました:「私は完璧さを求めました。文法が完璧であるか、すべての文章がスムーズに流れるか、ぎこちない表現がないか—それがAIです。人間は間違いを犯します。私たちには癖、繰り返し、スレッドを失う瞬間があります。執筆があまりにもクリーンすぎると、それは疑わしいです。」この編集者はマーカスのエッセイをAIとマークしていました。彼女は、些細な文法エラーを含む3つの実際のAI作品を人間としてマークしたこともありました(これらはAIが時折わずかに変形した出力を生成するために後で気づいたことです)。 ある出版された小説家は彼のアプローチを説明しました:
「私はクリシェや一般的な表現をチェックしました。AIは「世界」や「重要な点は〜」というフレーズが好きです。それを見たとき、私はAIとマークしました。執筆がリスクを取ったり、予期しない隠喩を使ったり、独特のリズムを持っていると、それが人間らしいと感じました。」この小説家は68%のサンプルを正しく識別しましたが、平均を上回る結果でした。しかし、彼の方法には欠陥がありました:彼は伝統的な学術スタイルに従った執筆をすべてAIとしてマークしたのです。たとえそれらの慣習が私が学生に使うように教えたものであっても。 別の教授がこの洞察を共有しました:
「AIの作品は安全だと感じました。それらは決して物議を醸すことを言わず、強い立場を取らず、誰かを怒らせるかもしれないユーモアを使用しません。人間の作家はもっと雑然としています。私たちには意見があります。リスクを取ります。誰かを不快にしないようにしようとしていると感じるものを読むと、それは中立を保つAIだと思いました。」彼女はAIの安全性への傾向について正しかった。しかし、彼女は「礼儀正しすぎる」と「強い主張を避ける」と彼女がマークしたいくつかの留学生のエッセイをAIとしてマークしました—これは人工生成ではなく、文化的なコミュニケーションスタイルを反映していることを認識していませんでした。 パターンは明確になりました:読者はAIを検出しているのではなく、艶、慣習、そして慎重さを検出していました。彼らはルールに従い、リスクを避け、プロフェッショナルなトーンを維持する執筆を罰していました。 言い換えれば、彼らは良い学生の執筆—私が何年も教えてきた種類のもの—を人工的とマークしていたのです。