Một nghiên cứu vừa công bố trên tạp chí The Lancet cho thấy gần 3.000 bài báo y khoa đã sử dụng các tài liệu tham khảo không tồn tại. Phát hiện này đang gióng lên hồi chuông cảnh báo về nguy cơ AI tạo sinh làm suy giảm độ tin cậy của khoa học hiện đại.
Ảnh minh họa: AI
Trong nhiều năm qua, AI được xem như công cụ có thể rút ngắn thời gian nghiên cứu, hỗ trợ xử lý dữ liệu và tăng tốc quá trình viết học thuật. Tuy nhiên, cùng với tốc độ phát triển mạnh mẽ của các mô hình ngôn ngữ lớn, một vấn đề mới bắt đầu xuất hiện. AI không chỉ hỗ trợ tạo nội dung mà còn có thể “bịa” ra cả những tài liệu khoa học nghe hoàn toàn hợp lý.
Đó là kết luận từ nghiên cứu do nhóm chuyên gia thuộc Columbia University School of Nursing thực hiện. Bằng hệ thống kiểm tra tự động kết hợp AI, các nhà khoa học đã rà soát khoảng 2,5 triệu bài báo y khoa được xuất bản trên cơ sở dữ liệu PubMed Central Open Access từ đầu năm 2023 đến giữa tháng 2/2026.
Khối lượng dữ liệu được phân tích lên tới hơn 97 triệu tài liệu tham khảo. Kết quả cho thấy có 4.046 trích dẫn giả xuất hiện trong 2.810 bài báo đã vượt qua quy trình phản biện và được công bố chính thức.
Điều khiến giới khoa học lo ngại không chỉ nằm ở số lượng mà còn ở tốc độ gia tăng của hiện tượng này. Nếu trong năm 2023, trung bình gần 3.000 bài báo mới xuất hiện một bài chứa tài liệu tham khảo giả thì chỉ sau hai năm, tỷ lệ này đã tăng nhanh đáng kể. Đến năm 2025, cứ 458 bài báo lại có một bài sử dụng trích dẫn không tồn tại. Sang những tuần đầu năm 2026, con số tiếp tục leo lên mức một trên 277 bài.
Theo nhóm nghiên cứu, bước ngoặt xuất hiện từ giữa năm 2024, thời điểm các công cụ AI tạo sinh bắt đầu được sử dụng rộng rãi trong hoạt động viết học thuật. Những hệ thống này có thể tạo ra văn bản trôi chảy, đúng cấu trúc khoa học và đặc biệt rất giỏi tạo ra các tài liệu tham khảo “nghe có vẻ đáng tin”.
Tiến sĩ Maxim Topaz, trưởng nhóm nghiên cứu, cho rằng đây không còn là vấn đề kỹ thuật đơn thuần của ngành xuất bản học thuật. Hệ quả của nó có thể lan rộng tới cả hệ thống y tế và người bệnh.
Ông dẫn lại một trường hợp trong đó có tới 18 trên tổng số 30 tài liệu tham khảo của bài báo là giả. Đáng ngại hơn, nhiều trích dẫn không có thật này tiếp tục được các nghiên cứu khác dẫn lại rồi dần xuất hiện trong các bài tổng quan hệ thống loại tài liệu thường được sử dụng để xây dựng hướng dẫn điều trị và phác đồ lâm sàng.
Theo các chuyên gia, đây chính là điểm nguy hiểm nhất của hiện tượng “trích dẫn ma”. Một khi lọt qua vòng phản biện, thông tin sai có thể được tái sử dụng nhiều lần, tạo cảm giác như đó là tri thức đã được kiểm chứng bởi cộng đồng khoa học.
Các tài liệu tham khảo giả hiện nay được tạo ra ngày càng tinh vi. Chúng có tiêu đề hợp logic, trình bày đúng chuẩn học thuật, gắn tên tác giả có thật và đi kèm năm xuất bản hoàn toàn thuyết phục. Trong một nghiên cứu về kỹ thuật phẫu thuật tiết niệu đăng trên một tạp chí ung thư truy cập mở năm 2025, nhóm nghiên cứu phát hiện tới 60% tài liệu tham khảo là bịa đặt hoàn toàn.
Báo cáo cũng chỉ ra ba nguyên nhân chính dẫn tới tình trạng này: hoạt động của các “paper mill” những tổ chức thương mại chuyên sản xuất bài báo khoa học để bán, hành vi gian lận học thuật có chủ đích và việc lạm dụng AI trong quá trình viết nghiên cứu.
Áp lực công bố quốc tế ngày càng lớn đang khiến nhiều nhà nghiên cứu tìm đến AI như một công cụ tiết kiệm thời gian. Tuy nhiên, các mô hình ngôn ngữ lớn lại có xu hướng tạo ra những thông tin nghe hợp lý nhưng không tồn tại ngoài thực tế. Một số nghiên cứu trước đây từng ước tính từ 30% đến gần 70% tài liệu tham khảo do AI tạo ra trong lĩnh vực y sinh là giả.
Điều đáng lo ngại là quy trình phản biện hiện nay chưa đủ khả năng phát hiện hiệu quả dạng sai lệch này. Nhiều tạp chí khoa học vẫn chưa bắt buộc kiểm tra tính xác thực của từng tài liệu tham khảo trước khi bài báo được công bố.
Các bài tổng quan khoa học được xác định có nguy cơ chứa trích dẫn giả cao hơn 57% so với những dạng nghiên cứu khác. Đây lại là nhóm tài liệu có ảnh hưởng đặc biệt lớn vì thường được dùng để xây dựng hướng dẫn điều trị, chính sách y tế và định hướng nghiên cứu tiếp theo.
Trong quá trình rà soát, nhóm nghiên cứu cũng phát hiện những dấu hiệu bất thường liên quan tới các “nhà máy sản xuất bài báo”. Một trường hợp cho thấy cùng hai tác giả liên tục xuất hiện trong 11 bài báo đăng trên một tạp chí phẫu thuật năm 2025, với hàng loạt trích dẫn giả liên quan đến công nghệ CRISPR, vaccine nano tích hợp AI và dấu ấn sinh học hệ vi sinh đường ruột.
Trước thực trạng này, các nhà khoa học kêu gọi những nhà xuất bản nhanh chóng triển khai hệ thống kiểm tra tài liệu tham khảo bằng công nghệ tự động trước khi bài báo được phản biện và công bố. Nhóm nghiên cứu cũng đề xuất các cơ sở dữ liệu khoa học bổ sung cơ chế đánh dấu độ tin cậy của trích dẫn, đồng thời rà soát lại các công trình đã xuất bản để đính chính hoặc rút bài nếu tài liệu tham khảo giả làm sai lệch kết luận khoa học.
Tuy vậy, tốc độ xử lý hiện vẫn rất chậm. Tại thời điểm nghiên cứu được thực hiện, có tới 98,4% bài báo chứa tài liệu tham khảo giả chưa bị các nhà xuất bản can thiệp.
Trong bài bình luận đi kèm nghiên cứu, Tiến sĩ Howard Bauchner và Tiến sĩ Frederick P. Rivara nhận định đây là dấu hiệu “đáng báo động” đối với tính liêm chính của khoa học toàn cầu. Theo hai chuyên gia, niềm tin của công chúng vào khoa học vốn đã suy giảm ở nhiều nơi, trong khi AI lại khiến việc tạo ra các nghiên cứu thiếu trung thực trở nên dễ dàng và khó phát hiện hơn.
“Học giả và tác giả nghiên cứu phải chịu trách nhiệm với toàn bộ nội dung bài báo, bao gồm cả tài liệu tham khảo”, hai chuyên gia nhấn mạnh.
Sự bùng nổ của AI đang mở ra một kỷ nguyên mới cho nghiên cứu khoa học nhưng đồng thời cũng đặt ra câu hỏi lớn về ranh giới giữa hỗ trợ công nghệ và gian lận học thuật. Khi những “trích dẫn ma” bắt đầu len vào các công trình khoa học và thậm chí ảnh hưởng tới y học lâm sàng, điều bị đe dọa không chỉ là chất lượng nghiên cứu mà còn là nền tảng niềm tin vào chính tri thức khoa học.
HT (Theo The Lancet)