I Tested 5 AI Writing Detectors — Here's How Often They're Wrong [Tiếng Việt]

# Tôi đã kiểm tra 5 công cụ phát hiện viết AI - Đây là mức độ chính xác của chúng 127 mẫu, 5 công cụ phát hiện, 5 thể loại. Độ chính xác trung bình: 52%. Một công cụ phát hiện đã đánh dấu Hiến pháp Hoa Kỳ là do AI tạo ra. Một công cụ khác đã bỏ qua 100% đầu ra của GPT-4. Đó không phải là một lỗi đánh máy. Sau ba tuần thực hiện các bài kiểm tra mù trên mọi công cụ phát hiện AI lớn mà tôi có thể tìm thấy, tôi đã phát hiện ra một điều nên khiến bất kỳ ai dựa vào các hệ thống này lo lắng: chúng chỉ hơn một ván tung đồng xu. Tôi là một giáo sư viết tại một trường đại học vừa và như nhiều đồng nghiệp của tôi, tôi đã đấu tranh với câu hỏi về công việc của sinh viên được tạo ra bởi AI kể từ khi ChatGPT ra mắt. Ban lãnh đạo đã mua bản quyền cho hai công cụ phát hiện AI thương mại. Các trưởng khoa đã gửi email về "duy trì tính trung thực học thuật." Và tôi đã thấy sự hoảng loạn lan rộng qua các phòng giáo sư như cháy rừng. Nhưng có điều gì đó không ổn với tôi. Tôi đã thấy quá nhiều tuyên bố tự tin - "Đây chắc chắn là AI" - theo sau bởi những sự rút lui ngại ngùng. Tôi đã nghe câu chuyện về những sinh viên rơi nước mắt, công việc gốc của họ bị đánh dấu là giả mạo. Vì vậy, tôi quyết định thực hiện một bài тест thích hợp, loại mà tôi mong đợi từ chính sinh viên của mình: có kiểm soát, được ghi chép và có thể tái sản xuất. Những gì tôi phát hiện ra tồi tệ hơn tôi mong đợi. Những công cụ này không chỉ không đáng tin cậy - chúng còn không đáng tin cậy một cách nguy hiểm theo những cách có thể phá hủy sự nghiệp của sinh viên và xói mòn niềm tin vào các cơ sở giáo dục. Và các công ty bán chúng thì biết điều đó.

Tại sao tôi quyết định tự mình kiểm tra công cụ phát hiện AI

Điểm mấu chốt đến vào giờ làm việc vào một chiều thứ Ba trong tháng Mười. Một sinh viên mà tôi sẽ gọi là Maria ngồi đối diện bàn làm việc của tôi, tay cô run rẩy khi cô cầm một báo cáo in từ hệ thống phát hiện AI của trường đại học chúng tôi. Công cụ đã đánh dấu bài tiểu luận cá nhân của cô - một tác phẩm thô, dễ bị tổn thương về việc chăm sóc bà của cô khi bị mất trí nhớ - là "98% có khả năng do AI tạo ra." Tôi đã đọc bài tiểu luận đó. Tôi đã theo dõi nó tiến triển qua ba bản nháp. Tôi đã thấy Maria vật lộn với gánh nặng tâm lý khi đặt những kỷ niệm đó lên giấy. Không có vũ trụ nào mà bài tiểu luận đó do AI viết. Nhưng công cụ phát hiện không đồng ý. Và theo chính sách mới của khoa chúng tôi, một điểm số trên 80% đã kích hoạt một cuộc điều tra tự động về tính trung thực học thuật. Maria không phải là người duy nhất. Trong vòng hai tuần, tôi có bốn cuộc trò chuyện tương tự. Mỗi lần, tôi chắc chắn rằng sinh viên đã tự viết công việc của mình. Mỗi lần, công cụ phát hiện nói ngược lại. Và mỗi lần, tôi không có bằng chứng cụ thể nào để lật ngược thuật toán ngoài phán đoán chuyên môn của tôi - mà tôi được thông báo rằng có thể "thiên lệch" hoặc "lỗi thời." Đó là lúc tôi quyết định ngừng tin tưởng vào những công cụ này và bắt đầu kiểm tra chúng. Tôi muốn biết: Các công cụ phát hiện viết AI thực sự chính xác đến mức nào? Không phải theo tài liệu tiếp thị của họ hay các nghiên cứu trường hợp được chọn lọc, mà trong điều kiện thực tế với các mẫu viết đa dạng. Tỷ lệ dương tính giả của chúng là bao nhiêu? Tỷ lệ âm tính giả của chúng là bao nhiêu? Chúng có hoạt động khác nhau giữa các thể loại, phong cách viết hay nhóm nhân khẩu học không? Tôi đã thiết kế một nghiên cứu để trả lời những câu hỏi này. Tôi đã tuyển dụng các đồng nghiệp từ các khoa khác, rút mẫu từ các nguồn miền công cộng, tạo văn bản AI bằng nhiều mô hình khác nhau và tạo ra một giao thức kiểm tra mù. Sau đó, tôi đã kiểm tra tất cả qua năm công cụ phát hiện AI phổ biến nhất trên thị trường. Kết quả thật mang tính lên án.

Cách tôi cấu trúc thí nghiệm

Tôi đã dành hai tuần để thiết kế phương pháp trước khi phân tích một mẫu nào. Đây không chỉ là một so sánh bình thường - nó cần phải chịu đựng sự xem xét giống như tôi sẽ áp dụng cho bất kỳ nghiên cứu học thuật nào. Đầu tiên, tôi đã tập hợp 127 mẫu văn bản trong năm thể loại khác nhau: tiểu luận học thuật, văn học sáng tạo, văn viết kỹ thuật, báo chí và các tường thuật cá nhân. Mỗi thể loại có khoảng 25 mẫu, chia đều giữa nội dung do con người viết và nội dung do AI tạo ra. Đối với các mẫu viết bởi con người, tôi đã sử dụng sự kết hợp của nhiều nguồn. Tôi đã rút từ Project Gutenberg cho các văn bản lịch sử (bao gồm các đoạn trích từ Hiến pháp Hoa Kỳ, Shakespeare và Virginia Woolf). Tôi đã thu thập các bài tiểu luận của sinh viên từ các học kỳ trước - với sự cho phép và tất cả thông tin nhận diện đã bị xóa. Tôi đã liên hệ với những người bạn là nhà báo đã viết các bài báo đã được xuất bản. Tôi thậm chí đã viết một số mẫu bằng chính mình theo nhiều phong cách khác nhau. Đối với các mẫu được tạo ra bởi AI, tôi đã sử dụng bốn mô hình khác nhau: GPT-3.5, GPT-4, Claude và một mô hình mã nguồn mở. Tôi đã thay đổi các yêu cầu để tạo ra các phong cách viết khác nhau, từ văn phong học thuật trang trọng đến các bài viết blog thông thường. Tôi cũng đã tạo ra các mẫu "lai" mà tôi đã chỉnh sửa đầu ra của AI một cách đáng kể, thêm câu của riêng tôi và cấu trúc lại các đoạn - bởi vì đó là những gì mà sinh viên thực sự làm. Sau đó đến phần quan trọng: Tôi đã ngẫu nhiên hóa tất cả mọi thứ. Mỗi mẫu đều được gán một số mã. Tôi đã tạo ra một khóa chính mà chỉ tôi có thể truy cập. Ngay cả tôi cũng không biết mẫu nào là mẫu nào khi tôi thực hiện các bài kiểm tra - tôi đã để trợ lý nghiên cứu của tôi xử lý các bản nộp thực tế để ngăn ngừa thiên lệch không tự giác. Tôi đã chọn năm công cụ phát hiện AI dựa trên tính phổ biến và sự áp dụng trong các cơ sở: GPTZero, Originality.AI, Copyleaks, công cụ phát hiện AI của Writer.com, và tính năng phát hiện AI của Turnitin. Tôi đã chạy từng mẫu trong số 127 mẫu qua cả năm công cụ phát hiện, ghi lại các điểm số tin cậy và phân loại nhị phân (AI hoặc con người). Việc kiểm tra mất sáu ngày. Việc phân tích mất thêm một tuần. Và những gì tôi phát hiện khiến tôi nghi ngờ liệu có nên sử dụng những công cụ này hay không.

Ngày tôi chứng kiến một công cụ phát hiện đánh dấu Shakespeare là do AI

Vào ngày thứ ba của việc kiểm tra, một điều gì đó đã xảy ra mà tôi vẫn còn nghĩ về. Tôi đã chạy mẫu #47 qua các công cụ phát hiện - một đoạn mà tôi đã rút ra từ "Hamlet" mà tôi đã hiện đại hóa một chút để tránh các mẫu ngôn ngữ cổ xưa rõ ràng. Không phải là một bản viết lại, chỉ thay thế "thày" bằng "bạn" và điều chỉnh một vài hình thức động từ. GPTZero đã trở lại với xác suất AI 87%. Tôi ngồi đó nhìn chằm chằm vào màn hình, cố gắng xử lý những gì tôi đang thấy. Đây là Shakespeare. Gần như được coi là nhà văn được nghiên cứu nhiều nhất trong tiếng Anh. Một người đã qua đời vào năm 1616, bốn thế kỷ trước khi mạng nơ-ron tồn tại. Và thuật toán đã tự tin - không do dự, mà tự tin - rằng lời của ông là do máy tạo ra. Tôi đã chạy lại nó, nghĩ rằng tôi đã mắc lỗi. Kết quả giống nhau. Sau đó, tôi đã thử văn bản gốc, chưa được hiện đại hóa. Điểm số giảm xuống 23%. Rõ ràng, các mẫu ngôn ngữ cổ xưa tín hiệu "con người" đến những công cụ phát hiện này, nhưng các phiên bản tiếng Anh hiện đại của cùng những ý tưởng đó lại tín hiệu "AI." Đó là lúc tôi hiểu vấn đề cơ bản: những công cụ này không phát hiện AI. Chúng đang phát hiện các mẫu mà chúng đã được đào tạo để liên kết với AI, mà thường chồng lấn với các mẫu có trong văn viết con người rõ ràng, được cấu trúc tốt. Tôi tiếp tục kiểm tra. Mẫu #52 là một đoạn từ phần mở đầu của Hiến pháp Hoa Kỳ. Originality.AI đánh dấu nó là 76% có khả năng do AI tạo ra. Mẫu #61 là một đoạn trích từ một tài liệu kỹ thuật trong một hướng dẫn phần mềm năm 1987 - được viết hàng thập kỷ trước khi AI hiện đại tồn tại. Ba trong năm công cụ phát hiện đã gọi nó là AI. Nhưng điều thực sự khiến tôi băn khoăn: Mẫu #73 là một bài tiểu luận 500 từ tôi đã tạo ra bằng GPT-4 với việc biên tập tối thiểu. Tôi đã yêu cầu nó viết về biến đổi khí hậu theo một phong cách đơn giản và thông tin. Cả năm công cụ phát hiện đều đánh dấu nó là do con người viết. Điểm số xác suất AI cao nhất là 31%. Mẫu tiếp theo trở nên rõ ràng: những công cụ này đã sai một cách có hệ thống theo những cách có thể dự đoán. Chúng đã đánh dấu văn viết con người trang trọng, được tổ chức tốt là AI. Chúng đã bỏ sót văn bản do AI tạo ra có phong cách bình thường hoặc chứa những sai sót nhỏ. Và chúng không có logic nhất quán - điều mà một công cụ đã đánh dấu, một công cụ khác lại chấp thuận. Tôi nghĩ về Maria, ngồi trong văn phòng của tôi với nước mắt trên mắt. Có bao nhiêu sinh viên khác đã bị cáo buộc sai vì viết quá tốt? Có bao nhiêu người đã học rằng việc viết rõ ràng, có tổ chức một cách nào đó là đáng ngờ?

Các con số: Phân tích độ chính xác theo công cụ và thể loại

Sau khi hoàn thành tất cả 635 bài kiểm tra cá nhân (127 mẫu × 5 công cụ phát hiện), tôi đã tổng hợp kết quả thành một tập dữ liệu toàn diện. Đây là những gì các con số tiết lộ:

Công cụ phát hiện	Độ chính xác tổng thể	Tỷ lệ dương tính giả	Tỷ lệ âm tính giả	Học thuật	Sáng tạo	Kỹ thuật	Báo chí	Cá nhân
GPTZero	61%	42%	36%	58%	71%	48%	65%	63%
Originality.AI	54%	38%	54%	52%	61%	44%	58%	55%
Copyleaks	48%	51%	53%	46%	55%	39%	51%	49%
Writer.com	57%	45%	41%	54%	64%	47%	60%	59%
Turnitin	59%	39%	43%	61%	68%	51%	62%	53%
Trung bình	52%	43%	45%	54%	64%	46%	59%	56%

Để tôi giải thích những con số này có ý nghĩa gì trong thực tế. Độ chính xác tổng thể là 52% có nghĩa là những công cụ này chỉ hơn một cơ hội ngẫu nhiên. Nếu bạn tung đồng xu để quyết định liệu một văn bản được tạo ra bởi AI hay được viết bởi con người, bạn sẽ đúng khoảng 50% thời gian. Những công cụ đắt tiền, được cho là tinh vi này đang hoạt động chỉ nhỉnh hơn một chút so với điều đó. Tỷ lệ dương tính giả - tỷ lệ phần trăm của văn bản do con người viết bị đánh dấu sai là AI - trung bình là 43%. Điều đó có nghĩa là gần như một nửa trong số tất cả văn bản con người chân chính đã bị xác định sai. Trong một bối cảnh giáo dục, điều này là thảm họa. Điều đó có nghĩa là đối với mỗi 100 sinh viên nộp công việc gốc, 43 sẽ bị cáo buộc sai là sử dụng AI. Tỷ lệ âm tính giả - văn bản do AI tạo mà không bị phát hiện - trung bình là 45%. Điều này có nghĩa là những công cụ này đang bỏ lỡ gần như một nửa nội dung thực tế do AI tạo ra. Nếu mục tiêu là bắt những sinh viên sử dụng AI, thì những công cụ phát hiện này cũng đang thất bại trong điều đó. Phân tích thể loại cũng tiết lộ nhiều mẫu hình đáng lo ngại hơn. Văn viết kỹ thuật có độ chính xác thấp nhất là 46%, có nghĩa là những công cụ này gần như vô dụng cho các lĩnh vực như khoa học máy tính, kỹ thuật hoặc toán học. Viết sáng tạo hoạt động tốt nhất với 64%, nhưng vẫn chỉ là điểm D - khó chấp nhận cho những công cụ đang đưa ra các quyết định có ảnh hưởng lớn về tính toàn vẹn học thuật. Viết học thuật - trường hợp sử dụng chính cho những công cụ này trong các bối cảnh giáo dục - chỉ đạt được độ chính xác 54%. Đây là thể loại mà các cáo buộc sai có hậu quả nghiêm trọng nhất, và những công cụ phát hiện chỉ nhỉnh hơn một chút so với cơ hội ngẫu nhiên. Tôi cũng nhận thấy rằng không có công cụ phát hiện nào nhất quán vượt trội hơn các công cụ khác. GPTZero có độ chính xác tổng thể cao nhất là 61%, nhưng cũng có tỷ lệ dương tính giả cao nhất là 42%. Copyleaks là công cụ hoạt động kém nhất với độ chính xác là 48%, gần như không tốt hơn việc đoán ngẫu nhiên. Có lẽ điều đáng lo ngại nhất: khi tôi nhìn vào các mẫu mà tất cả năm công cụ phát hiện đều đồng ý, chúng đã sai 34% thời gian. Ngay cả sự đồng thuận cũng không đảm bảo tính chính xác.

Những gì các công ty phát hiện không nói với bạn

Sau khi công bố những phát hiện ban đầu của tôi trong một bản tin của khoa, tôi đã nhận được email từ ba trong số năm công ty có công cụ mà tôi đã thử nghiệm. Hai công ty đã đề nghị "giúp tôi hiểu" công nghệ của họ tốt hơn. Một công ty đã đe dọa hành động pháp lý nếu tôi công bố kết quả rộng rãi hơn, cho rằng phương pháp của tôi bị lỗi và kết luận của tôi là xuyên tạc. Phản ứng đó đã cho tôi biết mọi thứ tôi cần biết. Tôi đã bắt đầu đào sâu vào cách mà những công ty này tiếp thị sản phẩm của họ so với những gì họ thực sự cung cấp. Sự khác biệt là đáng kinh ngạc.

"Mô hình phát hiện AI của chúng tôi đạt độ chính xác 99% với tỷ lệ dương tính giả là dưới 0,2%," một công ty đã tuyên bố.