Tôi rất hân hạnh chia sẻ cùng các bạn một bài loại ‘discussion paper’ về 10 vấn đề trong phương pháp nghiên cứu khoa học [1]. Bài này công bố dưới dạng Open Access, nên các bạn có thể download thoải mái và … nhớ trích dẫn.
Trong bài này tôi nêu 10 vấn đề phổ biến mà tôi đặt tên theo kiểu chơi chữ trong slide (không phải trong bài báo): power failure, confounding and collision, percentage fallacy, dichotomania, machine thinking, Darwin’s moral algebra, significosis, data torture, too big to fail, và wishful thinking.

Vấn đề 1: Thiếu cỡ mẫu (𝐩𝐨𝐰𝐞𝐫 𝐟𝐚𝐢𝐥𝐮𝐫𝐞): tức là các nghiên cứu không đủ cỡ mẫu, có độ nhạy (power) thấp và do đó cho ra kết quả không đáng tin cậy. Ít người biết rằng nghiên cứu với cỡ mẫu thấp (số tế bào, số tissue, số bệnh nhân, v.v.) thường cho ra kết quả dương tính, nhưng kết quả đó rất khó lặp lại (tức dỏm). Nghiên cứu có cỡ mẫu không đủ chẳng khác gì mất điện trong đời thường.
Vấn đề 2: Sai lệnh và sai lệch đồng căn. Trùng hợp và va chạm (confounding and collision). Đây là những sai sót về cách chọn mẫu, về yếu tố nhiễu, và một sai lệch mà ít người biết đến: sai lệch đồng căn (collider). Mấy sai lệch này có thể làm cho kết quả nghiên cứu sai. Trong thực tế có thể X và Y chẳng có liên quan gì với nhau, nhưng bằng chọn chọn mẫu (ví dụ như trong bệnh viện) thì X và Y lại có liên quan! Lí do là do sai lệch (bias) trong chọn mẫu và yếu tố nhiễu.
Vấn đề 3: Nghịch lí phần trăm (percentage fallacy): Nghịch lí phần trăm (percentage fallacy). Đây là những sai sót về phân tích số phần trăm trong nghiên cứu theo thời gian. Nhiều người không nhận ra rằng khi theo dõi bệnh nhân ở 2 thời điểm với 2 giá trị (x1 và x2) thì cách tính phần trăm thay đổi kiểu (x2 – x1) / x1*100 là bậy. Đa số các nhà nghiên cứu không am hiểu thường dùng ANOVA cho nghiên cứu theo thời gian, nhưng phương pháp này dễ dẫn đến sai lầm.
Vấn đề 4: Chia nhóm theo kiểu nhị phân. Rất rất nhiều người (nhứt là ở Việt Nam) thích chia một biến số liên tục thành 2 nhóm (kiểu ‘cao’ và ‘thấp’), nhưng họ không hiểu rằng cách phân chia này là sai về lí thuyết đo lường. Ví dụ như chia độ tuổi theo kiểu 0-9, 10-19, 20-29, v.v. và dùng đó như là biến tiên lượng. Nhưng cách chia nhóm này rất dở vì làm mất thông tin và có thể dẫn đến kết quả sai lệch.
Vấn đề 5: Máy móc và stepwise regression. Rất rất nhiều người dùng phương pháp stepwise để chọn biến số liên quan, nhưng phương pháp này đã bị chứng minh là cho ra kết quả bậy bạ lâu rồi. Tệ nhứt là cứ để cho máy làm mà không chịu đầu tư suy nghĩ, và tôi gọi đó là ‘bệnh máy móc’. Bệnh này không chịu dùng kiến thức chuyên môn mà cứ để cho máy điều khiển mình. Bệnh này rất phổ biến.
Vấn đề 6: Over-fitting hay ‘đại số đạo đức’. Hồi xưa ông Darwin trước khi đi đến hôn nhân ổng ngồi xuống tính toán lợi và hại khi lập gia đình. Trong danh sách lợi hại, ông ấy cho rằng có người tâm sự thủ thỉ là lợi, nhưng hại là tốn tiền và ít có thời gian đọc sách. Đó là over-fitting theo ngôn ngữ ngày nay. Nhiều người làm nghiên cứu chỉ có 10 người bị bệnh trong số 1000 người, nhưng họ có đến 20 biến tiên lượng — đó là over-fitting, mô hình thái quá (như Darwin).
Vấn đề 7: Bệnh ‘viêm thống kê’ (significosis). Mấy người mắc bệnh này hau chạy theo trị số P và họ làm mọi cách để sao cho P < 0.05 cho công bố khoa học. Trị số P < 0.05 được xem là ‘giấy thông hành’ cho công bố khoa học. Bệnh này càng ngày càng nhiều trong giới khoa học, và hiện nay vẫn chưa có thuốc trị. Có thuốc Bayes, nhưng ít ai chịu uống.
Vấn đề 8: Tra tấn dữ liệu (data torture). Nhiều nhà nghiên cứu trở thành những chuyên gia tra tấn dữ liệu cho đến khi nào chúng khai P < 0.05. Thói quen dã man này xuất phát từ nghiên cứu có ra kết quả ‘tiêu cực’, nên họ trở nên nóng nảy và phải dùng đến biện pháp tra tấn dữ liệu. Mà, cũng như tù nhân, càng tra tấn thì họ càng khai bậy, tra tấn dữ liệu nhiều quá chúng cũng cho ra kết quả sai. Tra tấn tù nhân là tội phạm; tra tấn dữ liệu là vi phạm đạo đức khoa học.
Vấn đề 9: Cỡ mẫu quá lớn. Nhiều nhà nghiên cứu không nhận ra rằng với nghiên cứu mà cỡ mẫu quá lớn (như hàng trăm ngàn hay hàng triệu) thì trị số P ~ 0.05 không còn ứng dụng nữa. Những nghiên cứu quá lớn này (Big Data) rất dễ cho ra kết quả có ý nghĩa thống kê, nhưng là kết quả vô nghĩa. Bài này giới thiệu một chỉ số Q (của IJ Good) để giải quyết vấn đề này.
Vấn đề 10: Diễn giải sai khoảng tin cậy 95%. Đây là những người diễn giải sai khoảng tin cậy 95% là xác suất 95%. Chẳng hạn như nếu “95% confidence interval of RR ranged from 1.1 to 2.1” họ diễn giải là “Xác suất RR dao động từ 1.1 đến 2.1 là 95%”, nhưng diễn giải/hiểu này sai. Tôi gọi đó là ‘wishful thinking’ (mơ tưởng). Có thể nói rằng 99% các nhà khoa học trên thế giới đều hiểu sai như thế. Cách diễn giải đó chỉ có thể qua Bayes mà thôi.
Tuyệt đại đa số các kết quả nghiên cứu khoa học được công bố là sai. Sai là do nhiều lí do, kể cả những vấn đề được mô tả trong bài này. Do đó, biết sai sót để tránh là một điều rất cần thiết.
Đây là bài tôi muốn viết đã lâu, nhưng không có dịp, mãi đến khi tập san O&S (Osteoporosis and Sarcopenia) mời đóng góp [2]. Tuy là viết cho các đồng nghiệp tôi trong thế giới nghiên cứu xương, nhưng trong thực tế 10 vấn đề nêu trong bài cũng ứng dụng cho tất cả các chuyên ngành khác. Tôi rất muốn viết thành 1 bài bằng tiếng Việt, nhưng không biết tập san nào chịu đăng (và nói cho ngay cũng làm biếng dịch). Hi vọng các bạn đọc và học được một vài ý tưởng trong bài discussion này.
____
[1] https://www.sciencedirect.com/science/article/pii/S2405525520301084
[2] Tập san O&S là thuộc liên hội loãng xương Châu Á – Thái Bình Dương, và tôi là một trong những thành viên sáng lập O&S. Hiện nay, O&S do một bạn bên Hàn Quốc làm chủ bút và anh ấy làm rất tốt. Hàn Quốc dù sao cũng giàu hơn các nước Á châu khác, và nền khoa học của họ cũng ok hơn các nước Á châu khác, nên họ điều hành tập san rất ok.