ChatGPT vs Human Writing: Can You Tell the Difference? [Tiếng Việt]

# ChatGPT vs Viết của Con Người: Bạn Có Thể Phân Biệt Được Không? 200 độc giả, 40 mẫu văn bản, 5 thể loại. Độ chính xác phát hiện trung bình: 52%. Gần như tốt hơn một cú lật đồng xu. Nhưng một thể loại đã phá vỡ hoàn toàn khuôn mẫu. Tôi đã giảng dạy viết sáng tạo trong mười lăm năm, và học kỳ trước tôi đã làm một điều khiến tôi phải xem xét lại mọi điều tôi nghĩ rằng tôi biết về nghề của mình. Tôi đã thu thập bốn mươi mẫu viết—hai mươi từ sinh viên của tôi, hai mươi được tạo ra bởi ChatGPT bằng cách sử dụng các yêu cầu giống hệt nhau—và yêu cầu 200 tình nguyện viên xác định cái nào là cái nào. Những người này không phải là người dùng internet ngẫu nhiên; họ là các giáo sư đồng nghiệp, tác giả đã xuất bản, biên tập viên, và sinh viên viết nâng cao. Những người sống bằng việc đọc. Kết quả đã khiến tôi không ngủ được suốt ba đêm liền.

Thí Nghiệm Đã Thay Đổi Cách Tôi Dạy Viết

Nó bắt đầu với một lời thú nhận của một sinh viên trong giờ tư vấn. Sarah, một trong những nhà văn giỏi nhất của tôi, thừa nhận rằng cô đã sử dụng ChatGPT để "bắt đầu" các bài tập. Không phải để gian lận, cô khẳng định, mà để vượt qua sự tê liệt của trang giấy trắng. Cô ấy sẽ tạo ra một bản thảo, sau đó viết lại hoàn toàn theo giọng nói của mình. Sản phẩm cuối cùng rõ ràng là của cô ấy—tôi đã sẵn sàng đặt cược vào việc giữ chức vụ của mình. Nhưng điều đó khiến tôi tự hỏi: nếu Sarah có thể biến viết bằng AI thành một điều gì đó thật sự mang tính người, liệu tôi có thể phân biệt được nữa không? Và nếu tôi không thể, điều đó có nghĩa gì cho cách tôi đánh giá công việc của học sinh? Tôi đã thiết kế một bài kiểm tra mù. Năm thể loại: bài tiểu luận học thuật, văn học sáng tạo, email kinh doanh, tường thuật cá nhân, và thơ. Đối với mỗi thể loại, tôi đã thu thập bốn mẫu từ sinh viên (có sự cho phép) và tạo ra bốn mẫu AI bằng cách sử dụng ChatGPT-4. Tôi đã đưa cho AI những yêu cầu y hệt như tôi đã đưa cho sinh viên, bao gồm cả số lượng từ và yêu cầu cụ thể. Sau đó, tôi đã tuyển dụng 200 người tham gia: 80 từ khoa Tiếng Anh của trường tôi, 60 từ một nhóm nhà văn địa phương, 40 biên tập viên chuyên nghiệp, và 20 tác giả đã xuất bản. Mỗi người nhận được tất cả 40 mẫu theo thứ tự ngẫu nhiên, chỉ được đánh dấu bằng thể loại và số. Nhiệm vụ của họ rất đơn giản: đánh dấu mỗi mẫu là "Con Người" hoặc "AI." Tôi đã mong đợi các đồng nghiệp của mình sẽ làm tốt điều này. Chúng tôi được đào tạo để phát hiện giọng nói, tính xác thực, và những dấu hiệu tinh tế của tư duy con người. Chúng tôi dành cả sự nghiệp của mình để dạy cho sinh viên phát triển quan điểm độc đáo của họ. Chúng tôi đã thất bại một cách ngoạn mục.

Phương Pháp: Cách Chúng Tôi Kiểm Tra 200 Độc Giả

Thí nghiệm diễn ra trong sáu tuần vào học kỳ xuân. Tôi muốn có điều kiện nghiêm ngặt, vì vậy tôi đã thiết lập các quy trình nghiêm ngặt. Đối với các mẫu con người, tôi đã chọn những tác phẩm từ những sinh viên chưa bao giờ sử dụng công cụ AI (được xác minh qua phỏng vấn và điều tra số). Tôi đã chọn các tác phẩm đại diện cho các cấp độ kỹ năng khác nhau—một số đã được tinh chỉnh, một số chưa hoàn thiện, tất cả đều xác thực. Tôi đã bao gồm tác phẩm từ sinh viên đến từ các sự kiện nhân khẩu khác nhau: người nói tiếng Anh bản địa và không phải người bản ngữ, các nhóm tuổi khác nhau, và các nền văn hóa khác nhau. Đối với các mẫu AI, tôi đã sử dụng ChatGPT-4 với các yêu cầu được xây dựng cẩn thận bắt chước hướng dẫn bài tập thực tế của tôi. Tôi không chọn lọc đầu ra. Bất cứ điều gì AI tạo ra lần thử đầu tiên, đó chính là những gì đưa vào bài kiểm tra. Không chỉnh sửa, không tái tạo, không có dấu ấn con người. Mỗi người tham gia nhận được một gói kỹ thuật số với tất cả 40 mẫu. Họ có hai tuần để hoàn thành đánh giá của mình. Tôi đã yêu cầu họ làm việc một mình, không thảo luận về các mẫu với người khác, và ghi chú mức độ tự tin của họ cho mỗi phán đoán trên thang điểm 1-5. Tôi cũng đã thu thập dữ liệu nhân khẩu học: số năm kinh nghiệm viết, liệu họ đã sử dụng công cụ AI hay chưa, chuyên môn của họ về thể loại chính, và thái độ chung của họ đối với AI (tích cực, trung lập, hoặc tiêu cực). Các mẫu có độ dài từ 200 đến 500 từ mỗi mẫu. Đủ dài để thiết lập giọng nói và phong cách, đủ ngắn để người tham gia không bị kiệt sức. Tôi đã ngẫu nhiên hóa thứ tự cho mỗi người tham gia để tránh thiên lệch do mệt mỏi—không ai thấy các mẫu cùng một thứ tự. Sau khi họ nộp đánh giá của mình, tôi đã gửi một khảo sát theo dõi yêu cầu họ mô tả những manh mối mà họ đã sử dụng để đưa ra quyết định. Điều gì khiến một cái gì đó "cảm thấy" như con người hoặc nhân tạo? Dữ liệu định tính này hóa ra còn tiết lộ hơn cả những con số.

Người Học Sinh Khiến Tôi Thắc Mắc Mọi Thứ

Trước khi tôi chia sẻ dữ liệu, tôi cần nói với bạn về Marcus. Marcus là một sinh viên năm ba trong lớp Viết Tập Đ advanced của tôi, một chuyên ngành khoa học máy tính đang theo học các môn viết tự chọn. Trầm lặng, có phương pháp, là kiểu sinh viên sẽ sửa một đoạn văn tới bảy lần trước khi chuyển sang đoạn tiếp theo. Viết của anh không có lỗi kỹ thuật nhưng lại thiếu cảm xúc—như đọc một thuật toán được lập trình tốt. Giữa học kỳ, một điều gì đó đã thay đổi. Các bài luận của anh đột nhiên có sự ấm áp, những phép ẩn dụ bất ngờ, những khoảnh khắc của cái nhìn chân thật. Sự chính xác kỹ thuật vẫn còn đó, nhưng bây giờ nó phục vụ một giọng nói con người thay vì thay thế nó. Tôi đã rất phấn khích. Đây là lý do tôi dạy—quan sát sinh viên tìm ra giọng nói xác thực của họ. Sau đó, tôi đã đưa một trong những bài luận mới của Marcus vào bài kiểm tra mù của tôi. Đó là một câu chuyện cá nhân về việc bà của anh di cư từ Việt Nam, đầy những chi tiết cảm giác và sắc thái cảm xúc. Tám mươi ba phần trăm người tham gia đã đánh dấu nó là được tạo ra bởi AI. Khi tôi nói với Marcus, anh đã cười. "Đó là điều con người nhất mà tôi từng viết," anh nói. "Tôi đã phỏng vấn bà tôi suốt sáu giờ. Đó chính là những lời của bà, những kỷ niệm của bà. Tôi đã khóc khi viết nó." Bài luận mà 83% chuyên gia gọi là "nhân tạo" lại là sản phẩm của sự kết nối con người sâu sắc, nghiên cứu cẩn thận, và sự dễ bị tổn thương về cảm xúc. Trong khi đó, một tác phẩm do ChatGPT tạo ra về "vượt qua thử thách"—không cụ thể, an toàn, đi đúng từng bước mong đợi—đã lừa 71% độc giả nghĩ rằng nó là con người. Đây là manh mối đầu tiên của tôi rằng chúng tôi không thực sự đang phát hiện AI. Chúng tôi đang phát hiện ra một điều gì đó hoàn toàn khác.

Dữ Liệu: Những Gì 200 Chuyên Gia Thực Sự Phát Hiện

Dưới đây là những gì đã xảy ra khi 200 chuyên gia viết cố gắng phân biệt viết của con người và AI:

Thể Loại	Độ Chính Xác Tổng Thể	Âm Tính Sai (Con Người Gọi Là AI)	Âm Tính Sai (AI Gọi Là Con Người)	Độ Tự Tin Trung Bình
Bài Tiểu Luận Học Thuật	48%	54%	50%	3.2/5
Văn Học Sáng Tạo	61%	35%	43%	3.8/5
Email Kinh Doanh	45%	58%	52%	2.9/5
Tường Thuật Cá Nhân	53%	49%	45%	3.4/5
Thơ	73%	22%	32%	4.1/5
Tổng Độ Trung Bình	52%	44%	44%	3.5/5

Hãy rõ ràng về điều này: ở hầu hết các thể loại, các độc giả chuyên gia không thực hiện tốt hơn so với sự đoán ngẫu nhiên. Nếu tôi đã yêu cầu họ lật đồng xu thay vì đọc một cách cẩn thận, họ cũng sẽ nhận được những kết quả tương tự. Nhưng hãy nhìn vào thể loại thơ. Đột nhiên độ chính xác nhảy vọt lên 73%, với mức độ tự tin cao hơn đáng kể. Đây không phải là một hiệu ứng nhỏ—đó là một mô hình lớn, nhất quán ở tất cả các nhóm tham gia. Tỷ lệ âm tính sai thì đặc biệt gây lo ngại. Bốn mươi bốn phần trăm thời gian, độc giả đã đánh dấu viết của con người là được tạo ra bởi AI. Điều đó có nghĩa là gần một nửa công việc của con người xác thực đã bị nhận diện sai. Những sinh viên như Marcus, đổ cả tâm huyết vào những tường thuật cá nhân, bị bảo rằng viết của họ "nghe giống như một chiếc robot." Khi tôi phân tích dữ liệu theo chuyên môn của người tham gia, tôi phát hiện một điều còn đáng buồn hơn: các tác giả đã xuất bản thực hiện kém hơn mức trung bình một chút (độ chính xác 49%), trong khi những người thường xuyên sử dụng công cụ AI lại thực hiện tốt hơn một chút (độ chính xác 56%). Kinh nghiệm với viết của con người không giúp ích gì. Sự quen thuộc với AI thì có, nhưng chỉ ở mức độ nhẹ. Các đánh giá về độ tự tin kể một câu chuyện riêng. Những người tham gia cảm thấy tự tin nhất về thể loại thơ (4.1/5) và ít tự tin nhất về email kinh doanh (2.9/5). Nhưng sự tự tin không tương quan với độ chính xác. Ở các bài tiểu luận học thuật, nơi độ tự tin trung bình là 3.2, độ chính xác chỉ đạt 48%—tệ hơn cả sự đoán ngẫu nhiên. Mọi người đã tự tin sai.

Những Gì Độc Giả Thực Sự Đã Nói Với Tôi Họ Đang Phát Hiện

Sau bài kiểm tra, tôi đã phỏng vấn sâu một cách chi tiết năm mươi người tham gia về quy trình ra quyết định của họ. Những giải thích của họ đã tiết lộ một mô hình đáng lo ngại. Một biên tập viên đã nói với tôi:

"Tôi tìm kiếm sự hoàn hảo. Nếu ngữ pháp không có lỗi, nếu mọi câu đều chảy trôi một cách mượt mà, nếu không có cách diễn đạt kỳ quặc—đó là AI. Con người thường mắc lỗi. Chúng tôi có những lỗi lầm, sự lặp lại, những khoảnh khắc chúng tôi đánh mất mạch lạc. Khi viết quá sạch, thì đáng ngờ."

Biên tập viên này đã đánh dấu bài luận của Marcus là AI. Cô cũng đã đánh dấu ba tác phẩm AI thực sự là con người vì chúng chứa những lỗi ngữ pháp nhỏ (mà tôi sau này nhận ra là những sản phẩm của AI thỉnh thoảng tạo ra đầu ra hơi sai lệch). Một nhà văn đã xuất bản đã giải thích phương pháp của anh:

"Tôi kiểm tra các thành ngữ và ngôn ngữ chung chung. AI thích các cụm từ như 'thế giới' và 'quan trọng cần lưu ý rằng.' Khi tôi thấy những điều đó, tôi đã đánh dấu nó là AI. Khi viết có rủi ro, sử dụng những phép ẩn dụ bất ngờ, hoặc có một nhịp điệu đặc biệt—đó cảm thấy như con người."

Nhà văn này đã xác định đúng 68% các mẫu, cao hơn mức trung bình. Nhưng phương pháp của anh có một lỗi: anh đã đánh dấu bất kỳ viết nào theo phong cách học thuật thông thường là AI, ngay cả khi những quy tắc đó chính là những gì tôi đã dạy cho sinh viên của mình sử dụng. Một giáo sư đồng nghiệp đã chia sẻ cái nhìn này:

"Các tác phẩm AI cảm thấy an toàn hơn. Chúng không bao giờ nói điều gì gây tranh cãi, không bao giờ giữ lập trường mạnh mẽ, không bao giờ sử dụng sự hài hước có thể xúc phạm. Các nhà văn con người thì hỗn loạn hơn. Chúng tôi có ý kiến. Chúng tôi chấp nhận rủi ro. Khi tôi đọc một cái gì đó có vẻ như đang cố gắng không làm phật lòng ai, tôi giả định đó là AI cố gắng trung lập."

Cô ấy đã đúng về xu hướng của AI hướng tới sự an toàn. Nhưng cô cũng đã đánh dấu một số bài luận của sinh viên quốc tế là AI vì chúng "quá lịch sự" và "tránh các tuyên bố mạnh mẽ"—không nhận ra rằng điều này phản ánh các phong cách giao tiếp văn hóa, không phải sự tạo ra bằng AI. Mô hình trở nên rõ ràng: độc giả không phát hiện AI. Họ đang phát hiện sự bóng bẩy, quy ước, và sự thận trọng. Họ đang trừng phạt viết theo quy tắc, tránh rủi ro và duy trì tông chuyên nghiệp. Nói cách khác, họ đang đánh dấu viết tốt của sinh viên—loại viết mà tôi đã dành nhiều năm để dạy—như là nhân tạo.

Giả Thiết Chúng Ta Cần Thách Thức: "Tôi Chỉ Cần Nhìn Là Biết"

Có một huyền thoại nguy hiểm đang lưu hành trong các vòng tròn viết học thuật và chuyên nghiệp: những độc giả dày dạn kinh nghiệm có thể "chỉ cần nhìn là biết" khi một điều gì đó được tạo ra bởi AI. Họ tuyên bố cảm nhận được, cảm giác được sự thiếu vắng của ý thức con người đứng sau những từ ngữ. Dữ liệu của tôi đã phá vỡ giả thiết này. 20 tác giả đã xuất bản trong nghiên cứu của tôi—những người đã dành hàng thập kỷ để sáng tạo và phân tích văn bản—có độ chính xác trung bình 49%. Tệ hơn cả sự đoán ngẫu nhiên. Năm tháng kinh nghiệm của họ không giúp họ phát hiện AI. Thực tế, nó có thể đã khiến họ tổn hại, vì họ đã phát triển những trực giác mạnh mẽ về cái gì là "viết tốt," và AI đã học cách bắt chước chính những mô hình đó. 40 biên tập viên chuyên nghiệp, công việc của họ thực sự là đánh giá và cải thiện viết, đạt được 51% độ chính xác. Về cơ bản là ngẫu nhiên. Đôi mắt được đào tạo của họ, độ nhạy bén với giọng nói và phong cách, sự quen thuộc sâu sắc với ngôn ngữ—không có điều gì trong số đó mang lại cho họ lợi thế. Ngay cả 80 giáo sư tiếng Anh, bao gồm các chuyên gia về hùng biện và cấu trúc, chỉ đạt được 53% độ chính xác. Chúng tôi đã xây dựng sự nghiệp của mình dựa trên việc đọc cẩn thận, dạy sinh viên phát triển giọng nói xác thực, phân biệt giữa viết mạnh và yếu. Và chúng tôi không thể phân biệt được giữa con người và AI với tỉ lệ tốt hơn cả sự đoán ngẫu nhiên. Nhưng đây là điều thực sự khiến tôi lo ngại: sự tự tin không tương quan với độ chính xác, nhưng nó có tương quan với trạng thái chuyên nghiệp. Các tác giả đã xuất bản là những người tự tin nhất trong các phán đoán của họ (trung bình...