ChatGPT vs Human Writing: Can You Tell the Difference? [日本語]

ChatGPTと人間の執筆：違いがわかりますか？

200人の読者、40のテキストサンプル、5つのジャンル。平均検出精度：52%。ほぼコインの裏表のような状態。しかし、1つのジャンルはパターンを完全に破りました。私は15年間、創造的な執筆を教えてきましたが、昨学期に自分の技術について思っていたすべてのことを疑問視するようなことをしました。私は40の執筆サンプルを収集しました—20は私の学生から、20は同じプロンプトでChatGPTによって生成されたものでした—そして200人のボランティアにどれがどれかを特定するように頼みました。彼らは無作為なインターネットユーザーではなく、私の同僚の教授、出版された著者、編集者、上級執筆学生でした。生計を立てるために読書をしている人々です。結果は、私を3晩連続で眠れぬ夜にしました。

私の執筆指導を変えた実験

それは、オフィスアワーでの学生の告白から始まりました。私の最も優れた作家の一人、サラは、課題の「スタートを切る」ためにChatGPTを使っていることを認めました。彼女は、カンニングのためではなく、真っ白なページの麻痺を克服するためだと主張しました。彼女はドラフトを生成し、それを完全に自分の声で書き直しました。最終的な作品は間違いなく彼女のものでした—私はそれに賭けても良いと思っていました。しかし、それは私に疑問を抱かせました：サラがAIの執筆を本当に人間らしいものに変えることができるなら、私は違いを見分けられなくなったのではないか？そして、もし私がそれを見分けられなければ、それは私が学生の作品を評価する方法にとって何を意味するのか？私はブラインドテストを設計しました。5つのジャンル：学術論文、創作フィクション、ビジネスメール、個人的な物語、詩。各ジャンルに対して、私は学生から4つの人間のサンプル（許可を得て）を収集し、ChatGPT-4を使用して4つのAIサンプルを生成しました。私は学生に与えたのと全く同じプロンプトをAIに与え、単語数や具体的な要件も含めました。その後、私は200人の参加者を募集しました：80人は私の大学の英語学部から、60人は地元の作家グループ、40人はプロの編集者、20人は出版された著者です。各参加者は、ジャンルと番号でラベル付けされた全40のサンプルをランダムな順序で受け取りました。彼らの任務は簡単でした：各サンプルを「人間」または「AI」としてマークすること。私は同僚たちがこれを完璧にこなすと思っていました。私たちは声、真実性、人間の思考の微妙なマーカーを見抜くように訓練されてきました。私たちは学生に独自の視点を育てるように教えるキャリアを過ごしています。私たちは壮大に失敗しました。

方法論：どのように200人の読者をテストしたか

実験は春学期の6週間にわたって行われました。私は厳格な条件を望んだので、厳しいプロトコルを設けました。人間のサンプルについては、AIツールを一度も使用したことがない学生の作品を選びました（インタビューやデジタルフォレンジックを通じて確認済み）。私は異なるスキルレベルを表す作品を選びました—一部は洗練され、一部は粗削りで、すべてが本物です。異なる人口統計を持つ学生の作品を含めました：母国語話者と非母国語話者、異なる年齢層、さまざまな文化的背景。 AIサンプルについては、正確に私の課題指示を模倣した慎重に作成されたプロンプトを使用してChatGPT-4を使いました。出力を厳選することはありませんでした。AIが最初に生成したものをそのままテストに入れました。編集なし、再生成なし、人間的な手を加えていません。各参加者には、全40サンプルを含むデジタルパケットが渡されました。彼らには評価を完了するための2週間がありました。私は参加者に一人で作業し、他の人とサンプルについて話し合わないように頼み、各判断の自信レベルを1〜5のスケールで記録するように求めました。また、人口統計データも収集しました：執筆経験の年数、彼らがAIツールを使用したことがあるかどうか、主要なジャンルの専門知識、およびAIに対する一般的な態度（肯定的、中立的、または否定的）。サンプルはそれぞれ200から500語の範囲でした。声とスタイルを確立するのに十分な長さで、参加者が疲れ切ってしまわないのに十分な短さでした。疲労バイアスを防ぐために、各参加者の順序をランダム化しました—誰も同じ順序でサンプルを見ませんでした。彼らが評価を提出した後、私はフォローアップの調査を送り、彼らがどのような手がかりを使って判断したのかを記述するように頼みました。何が「人間らしい」または「人工的」に感じるのか？この定性的なデータは、数値と同じくらい明らかでした。

私がすべてを疑問視させた学生

データを共有する前に、マーカスについてお話しする必要があります。マーカスは私の高度な構成クラスの3年生で、コンピュータサイエンスの専攻で執筆の選択科目を受講していました。静かで、計画的なタイプの学生で、次の段落に進む前に単一の段落を7回修正することもありました。彼の執筆は技術的には完璧でしたが、感情的には距離がありました—よくプログラムされたアルゴリズムを読むようでした。学期の中頃、何かが変わりました。彼のエッセイには突然温かみがあり、予期しない隠喩、真摯な洞察の瞬間がありました。技術的な正確さは残っていましたが、今はそれが人間の声にサービスを提供するのではなく、置き換えるものになっていました。私は興奮しました。これが私が教える理由です—学生たちが彼らの本物の声を見つけるのを見守ること。その後、私はマーカスの新しいエッセイの1つを私のブラインドテストに含めました。それは、彼の祖母のベトナムからの移民に関する個人的な物語で、感覚的な詳細と感情的なニュアンスに満ちていました。参加者の83%がそれをAI生成だとマークしました。マーカスに伝えたとき、彼は笑いました。「それは僕が今まで書いた中で最も人間らしいものだよ」と彼は言いました。「6時間祖母にインタビューした。彼女の実際の言葉、彼女の思い出だ。書きながら泣いた。」 83%の専門家が「人工的」と呼んだエッセイは、深い人間的なつながり、慎重な研究、感情的な脆弱性の産物でした。一方、「困難を克服する」という内容のChatGPT生成の作品は—一般的で、安全で、期待されるすべての要素を含んでいました—71%の読者を欺いてそれが人間のものであると思わせることに成功しました。これが、私たちが実際にはAIを検出しているのではなく、まったく別の何かを検出しているという最初の手がかりでした。

データ：200人の専門家が実際に検出したもの

200人の執筆専攻者が人間とAIの執筆を区別しようとしたときに何が起こったのかは次のとおりです：

ジャンル	全体的な精度	偽陽性（人間をAIと呼んだ）	偽陰性（AIを人間と呼んだ）	平均自信
学術論文	48%	54%	50%	3.2/5
創作フィクション	61%	35%	43%	3.8/5
ビジネスメール	45%	58%	52%	2.9/5
個人的な物語	53%	49%	45%	3.4/5
詩	73%	22%	32%	4.1/5
全体の平均	52%	44%	44%	3.5/5

これが意味することを明確にしましょう：ほとんどのジャンルでは、専門家の読者は無作為な推測以上のことを実行できませんでした。もし彼らに注意深く読む代わりにコインを投げるように頼んでいたら、同じ結果を得たでしょう。しかし、詩を見てください。突然、精度は73%に跳ね上がり、自信レベルは大幅に高くなっています。これは小さな影響ではありません—すべての参加者グループにわたる大規模で一貫したパターンでした。偽陽性率は特に問題です。44%の確率で、読者は人間の執筆をAI生成とマークしました。つまり、ほぼ半分の本物の人間の作品が誤って特定されました。マーカスのような学生たちが、自分の人間的な物語に心を注ぎ、「ロボットのように聞こえる」という評価を受けているのです。参加者の専門知識によってデータを分析したところ、さらに気になることがわかりました：出版された著者は平均よりも若干悪い成績（49%の精度）を収めた一方で、AIツールを定期的に使用した人々はわずかに良い残り（56%の精度）を出しました。人間の執筆の経験は役に立たなかっただけでなく、AIの知識はわずかに役立ちました。自信評価はご自身の物語を語っています。参加者は詩について最も自信を持って（4.1/5）、ビジネスメールについては最も自信を持っていませんでした（2.9/5）。しかし、自信は精度とは相関しませんでした。学術論文では、自信が3.2であったのに、精度は48%—無作為よりも悪かった。人々は自信を持って間違っていました。

読者が実際に私に伝えたこと：彼らが検出していたこと

テストの後、私は50人の参加者に対して決定プロセスについて詳細にインタビューしました。彼らの説明からは、気になるパターンが明らかになりました。ある編集者は私にこう言いました：

「私は完璧さを求めました。文法が完璧であるか、すべての文章がスムーズに流れるか、ぎこちない表現がないか—それがAIです。人間は間違いを犯します。私たちには癖、繰り返し、スレッドを失う瞬間があります。執筆があまりにもクリーンすぎると、それは疑わしいです。」

この編集者はマーカスのエッセイをAIとマークしていました。彼女は、些細な文法エラーを含む3つの実際のAI作品を人間としてマークしたこともありました（これらはAIが時折わずかに変形した出力を生成するために後で気づいたことです）。ある出版された小説家は彼のアプローチを説明しました：

「私はクリシェや一般的な表現をチェックしました。AIは「世界」や「重要な点は〜」というフレーズが好きです。それを見たとき、私はAIとマークしました。執筆がリスクを取ったり、予期しない隠喩を使ったり、独特のリズムを持っていると、それが人間らしいと感じました。」

この小説家は68%のサンプルを正しく識別しましたが、平均を上回る結果でした。しかし、彼の方法には欠陥がありました：彼は伝統的な学術スタイルに従った執筆をすべてAIとしてマークしたのです。たとえそれらの慣習が私が学生に使うように教えたものであっても。別の教授がこの洞察を共有しました：

「AIの作品は安全だと感じました。それらは決して物議を醸すことを言わず、強い立場を取らず、誰かを怒らせるかもしれないユーモアを使用しません。人間の作家はもっと雑然としています。私たちには意見があります。リスクを取ります。誰かを不快にしないようにしようとしていると感じるものを読むと、それは中立を保つAIだと思いました。」

彼女はAIの安全性への傾向について正しかった。しかし、彼女は「礼儀正しすぎる」と「強い主張を避ける」と彼女がマークしたいくつかの留学生のエッセイをAIとしてマークしました—これは人工生成ではなく、文化的なコミュニケーションスタイルを反映していることを認識していませんでした。パターンは明確になりました：読者はAIを検出しているのではなく、艶、慣習、そして慎重さを検出していました。彼らはルールに従い、リスクを避け、プロフェッショナルなトーンを維持する執筆を罰していました。言い換えれば、彼らは良い学生の執筆—私が何年も教えてきた種類のもの—を人工的とマークしていたのです。

私たちが挑戦しなければならない仮定：「私はただ分かる」

学術的および専門的な執筆のサークルで流布している危険な神話があります：経験豊富な読者は、何かがAI生成であると「ただ分かる」ことができるというものです。彼らはそれを感じる、言葉の背後にある人間の意識の欠如を感じると主張します。私のデータはこの仮定を打ち砕きます。私の研究に参加した20人の出版された著者—数十年にわたり散文を作成し、分析してきた人々—は平均49%の精度でした。無作為以下です。彼らの長年の経験は、AIを検出するのに役立ちませんでした。実際、それが彼らを傷つけた可能性があります。なぜなら、彼らは「良い執筆」がどのようなものかについて強い直感を発展させており、AIはまさにそのパターンを模倣することを学んだからです。実際に執筆を評価し、改善する仕事をしている40人のプロの編集者は、51%の精度に達しました。ほぼ無作為です。彼らの訓練された目、声やスタイルに対する敏感さ、言語への深い親しみ—それらのどれも彼らに有利に働きませんでした。レトリックと構成の専門家を含む80人の英語教授でさえ、53%の精度しか達成できませんでした。私たちは近くで読むこと、学生に本物の声を育てる方法を教えること、強い執筆を弱い執筆と区別することに基づいてキャリアを築いてきました。そして私たちは、人間とAIの違いを運が良くない限り見分けられないのです。しかし、私が本当に心配しているのは：自信は精度と相関しませんでしたが、専門的な地位と相関していました。出版された著者は、彼らの判断において最も自信を持っていました（平均...