Tại sao tôi quyết định tự mình kiểm tra công cụ phát hiện AI
Điểm mấu chốt đến vào giờ làm việc vào một chiều thứ Ba trong tháng Mười. Một sinh viên mà tôi sẽ gọi là Maria ngồi đối diện bàn làm việc của tôi, tay cô run rẩy khi cô cầm một báo cáo in từ hệ thống phát hiện AI của trường đại học chúng tôi. Công cụ đã đánh dấu bài tiểu luận cá nhân của cô - một tác phẩm thô, dễ bị tổn thương về việc chăm sóc bà của cô khi bị mất trí nhớ - là "98% có khả năng do AI tạo ra." Tôi đã đọc bài tiểu luận đó. Tôi đã theo dõi nó tiến triển qua ba bản nháp. Tôi đã thấy Maria vật lộn với gánh nặng tâm lý khi đặt những kỷ niệm đó lên giấy. Không có vũ trụ nào mà bài tiểu luận đó do AI viết. Nhưng công cụ phát hiện không đồng ý. Và theo chính sách mới của khoa chúng tôi, một điểm số trên 80% đã kích hoạt một cuộc điều tra tự động về tính trung thực học thuật. Maria không phải là người duy nhất. Trong vòng hai tuần, tôi có bốn cuộc trò chuyện tương tự. Mỗi lần, tôi chắc chắn rằng sinh viên đã tự viết công việc của mình. Mỗi lần, công cụ phát hiện nói ngược lại. Và mỗi lần, tôi không có bằng chứng cụ thể nào để lật ngược thuật toán ngoài phán đoán chuyên môn của tôi - mà tôi được thông báo rằng có thể "thiên lệch" hoặc "lỗi thời." Đó là lúc tôi quyết định ngừng tin tưởng vào những công cụ này và bắt đầu kiểm tra chúng. Tôi muốn biết: Các công cụ phát hiện viết AI thực sự chính xác đến mức nào? Không phải theo tài liệu tiếp thị của họ hay các nghiên cứu trường hợp được chọn lọc, mà trong điều kiện thực tế với các mẫu viết đa dạng. Tỷ lệ dương tính giả của chúng là bao nhiêu? Tỷ lệ âm tính giả của chúng là bao nhiêu? Chúng có hoạt động khác nhau giữa các thể loại, phong cách viết hay nhóm nhân khẩu học không? Tôi đã thiết kế một nghiên cứu để trả lời những câu hỏi này. Tôi đã tuyển dụng các đồng nghiệp từ các khoa khác, rút mẫu từ các nguồn miền công cộng, tạo văn bản AI bằng nhiều mô hình khác nhau và tạo ra một giao thức kiểm tra mù. Sau đó, tôi đã kiểm tra tất cả qua năm công cụ phát hiện AI phổ biến nhất trên thị trường. Kết quả thật mang tính lên án.Cách tôi cấu trúc thí nghiệm
Tôi đã dành hai tuần để thiết kế phương pháp trước khi phân tích một mẫu nào. Đây không chỉ là một so sánh bình thường - nó cần phải chịu đựng sự xem xét giống như tôi sẽ áp dụng cho bất kỳ nghiên cứu học thuật nào. Đầu tiên, tôi đã tập hợp 127 mẫu văn bản trong năm thể loại khác nhau: tiểu luận học thuật, văn học sáng tạo, văn viết kỹ thuật, báo chí và các tường thuật cá nhân. Mỗi thể loại có khoảng 25 mẫu, chia đều giữa nội dung do con người viết và nội dung do AI tạo ra. Đối với các mẫu viết bởi con người, tôi đã sử dụng sự kết hợp của nhiều nguồn. Tôi đã rút từ Project Gutenberg cho các văn bản lịch sử (bao gồm các đoạn trích từ Hiến pháp Hoa Kỳ, Shakespeare và Virginia Woolf). Tôi đã thu thập các bài tiểu luận của sinh viên từ các học kỳ trước - với sự cho phép và tất cả thông tin nhận diện đã bị xóa. Tôi đã liên hệ với những người bạn là nhà báo đã viết các bài báo đã được xuất bản. Tôi thậm chí đã viết một số mẫu bằng chính mình theo nhiều phong cách khác nhau. Đối với các mẫu được tạo ra bởi AI, tôi đã sử dụng bốn mô hình khác nhau: GPT-3.5, GPT-4, Claude và một mô hình mã nguồn mở. Tôi đã thay đổi các yêu cầu để tạo ra các phong cách viết khác nhau, từ văn phong học thuật trang trọng đến các bài viết blog thông thường. Tôi cũng đã tạo ra các mẫu "lai" mà tôi đã chỉnh sửa đầu ra của AI một cách đáng kể, thêm câu của riêng tôi và cấu trúc lại các đoạn - bởi vì đó là những gì mà sinh viên thực sự làm. Sau đó đến phần quan trọng: Tôi đã ngẫu nhiên hóa tất cả mọi thứ. Mỗi mẫu đều được gán một số mã. Tôi đã tạo ra một khóa chính mà chỉ tôi có thể truy cập. Ngay cả tôi cũng không biết mẫu nào là mẫu nào khi tôi thực hiện các bài kiểm tra - tôi đã để trợ lý nghiên cứu của tôi xử lý các bản nộp thực tế để ngăn ngừa thiên lệch không tự giác. Tôi đã chọn năm công cụ phát hiện AI dựa trên tính phổ biến và sự áp dụng trong các cơ sở: GPTZero, Originality.AI, Copyleaks, công cụ phát hiện AI của Writer.com, và tính năng phát hiện AI của Turnitin. Tôi đã chạy từng mẫu trong số 127 mẫu qua cả năm công cụ phát hiện, ghi lại các điểm số tin cậy và phân loại nhị phân (AI hoặc con người). Việc kiểm tra mất sáu ngày. Việc phân tích mất thêm một tuần. Và những gì tôi phát hiện khiến tôi nghi ngờ liệu có nên sử dụng những công cụ này hay không.Ngày tôi chứng kiến một công cụ phát hiện đánh dấu Shakespeare là do AI
Vào ngày thứ ba của việc kiểm tra, một điều gì đó đã xảy ra mà tôi vẫn còn nghĩ về. Tôi đã chạy mẫu #47 qua các công cụ phát hiện - một đoạn mà tôi đã rút ra từ "Hamlet" mà tôi đã hiện đại hóa một chút để tránh các mẫu ngôn ngữ cổ xưa rõ ràng. Không phải là một bản viết lại, chỉ thay thế "thày" bằng "bạn" và điều chỉnh một vài hình thức động từ. GPTZero đã trở lại với xác suất AI 87%. Tôi ngồi đó nhìn chằm chằm vào màn hình, cố gắng xử lý những gì tôi đang thấy. Đây là Shakespeare. Gần như được coi là nhà văn được nghiên cứu nhiều nhất trong tiếng Anh. Một người đã qua đời vào năm 1616, bốn thế kỷ trước khi mạng nơ-ron tồn tại. Và thuật toán đã tự tin - không do dự, mà tự tin - rằng lời của ông là do máy tạo ra. Tôi đã chạy lại nó, nghĩ rằng tôi đã mắc lỗi. Kết quả giống nhau. Sau đó, tôi đã thử văn bản gốc, chưa được hiện đại hóa. Điểm số giảm xuống 23%. Rõ ràng, các mẫu ngôn ngữ cổ xưa tín hiệu "con người" đến những công cụ phát hiện này, nhưng các phiên bản tiếng Anh hiện đại của cùng những ý tưởng đó lại tín hiệu "AI." Đó là lúc tôi hiểu vấn đề cơ bản: những công cụ này không phát hiện AI. Chúng đang phát hiện các mẫu mà chúng đã được đào tạo để liên kết với AI, mà thường chồng lấn với các mẫu có trong văn viết con người rõ ràng, được cấu trúc tốt. Tôi tiếp tục kiểm tra. Mẫu #52 là một đoạn từ phần mở đầu của Hiến pháp Hoa Kỳ. Originality.AI đánh dấu nó là 76% có khả năng do AI tạo ra. Mẫu #61 là một đoạn trích từ một tài liệu kỹ thuật trong một hướng dẫn phần mềm năm 1987 - được viết hàng thập kỷ trước khi AI hiện đại tồn tại. Ba trong năm công cụ phát hiện đã gọi nó là AI. Nhưng điều thực sự khiến tôi băn khoăn: Mẫu #73 là một bài tiểu luận 500 từ tôi đã tạo ra bằng GPT-4 với việc biên tập tối thiểu. Tôi đã yêu cầu nó viết về biến đổi khí hậu theo một phong cách đơn giản và thông tin. Cả năm công cụ phát hiện đều đánh dấu nó là do con người viết. Điểm số xác suất AI cao nhất là 31%. Mẫu tiếp theo trở nên rõ ràng: những công cụ này đã sai một cách có hệ thống theo những cách có thể dự đoán. Chúng đã đánh dấu văn viết con người trang trọng, được tổ chức tốt là AI. Chúng đã bỏ sót văn bản do AI tạo ra có phong cách bình thường hoặc chứa những sai sót nhỏ. Và chúng không có logic nhất quán - điều mà một công cụ đã đánh dấu, một công cụ khác lại chấp thuận. Tôi nghĩ về Maria, ngồi trong văn phòng của tôi với nước mắt trên mắt. Có bao nhiêu sinh viên khác đã bị cáo buộc sai vì viết quá tốt? Có bao nhiêu người đã học rằng việc viết rõ ràng, có tổ chức một cách nào đó là đáng ngờ?Các con số: Phân tích độ chính xác theo công cụ và thể loại
Sau khi hoàn thành tất cả 635 bài kiểm tra cá nhân (127 mẫu × 5 công cụ phát hiện), tôi đã tổng hợp kết quả thành một tập dữ liệu toàn diện. Đây là những gì các con số tiết lộ:| Công cụ phát hiện | Độ chính xác tổng thể | Tỷ lệ dương tính giả | Tỷ lệ âm tính giả | Học thuật | Sáng tạo | Kỹ thuật | Báo chí | Cá nhân |
|---|---|---|---|---|---|---|---|---|
| GPTZero | 61% | 42% | 36% | 58% | 71% | 48% | 65% | 63% |
| Originality.AI | 54% | 38% | 54% | 52% | 61% | 44% | 58% | 55% |
| Copyleaks | 48% | 51% | 53% | 46% | 55% | 39% | 51% | 49% |
| Writer.com | 57% | 45% | 41% | 54% | 64% | 47% | 60% | 59% |
| Turnitin | 59% | 39% | 43% | 61% | 68% | 51% | 62% | 53% |
| Trung bình | 52% | 43% | 45% | 54% | 64% | 46% | 59% | 56% |
Những gì các công ty phát hiện không nói với bạn
Sau khi công bố những phát hiện ban đầu của tôi trong một bản tin của khoa, tôi đã nhận được email từ ba trong số năm công ty có công cụ mà tôi đã thử nghiệm. Hai công ty đã đề nghị "giúp tôi hiểu" công nghệ của họ tốt hơn. Một công ty đã đe dọa hành động pháp lý nếu tôi công bố kết quả rộng rãi hơn, cho rằng phương pháp của tôi bị lỗi và kết luận của tôi là xuyên tạc. Phản ứng đó đã cho tôi biết mọi thứ tôi cần biết. Tôi đã bắt đầu đào sâu vào cách mà những công ty này tiếp thị sản phẩm của họ so với những gì họ thực sự cung cấp. Sự khác biệt là đáng kinh ngạc."Mô hình phát hiện AI của chúng tôi đạt độ chính xác 99% với tỷ lệ dương tính giả là dưới 0,2%," một công ty đã tuyên bố.