Cần thử nghiệm vaccine trên bao nhiêu người để có kết quả tin cậy?

Đây là một câu hỏi quan trọng có liên quan trực tiếp đến vaccine ‘made in Vietnam’. Trong cái note này, tôi cố gắng cung cấp một lời giải đáp cho câu hỏi và lí giải rằng con số 13,000 tình nguyện viên mà nhóm nghiên cứu nhắm tới có lẽ không đủ.

Con đường phát triển vaccine rất ngoằn ngoèo, và có khi không có kết quả như chúng ta mong đợi. Thông thường, trước khi đến bệnh nhân, vaccine phải qua nghiên cứu cơ bản, trên động vật, trên người (3 giai đoạn). Kết quả của giai đoạn nghiên cứu đều phải được công bố trên các tập san có bình duyệt. Qui ước này không phân biệt nhà sản xuất là công ti dược hay labo của Nhà nước.

Ở Úc, một vaccine Covid-19 đã qua nghiên cứu cơ bản và động vật với những kết quả rất tốt, nhưng khi đến nghiên cứu trên người thì thất bại và chương trình nghiên cứu phải dừng. Cho đến nay, chúng ta vẫn chưa có vaccine cho HIV, SARS và MERS. Đó là tình hình chung về nghiên cứu vaccine, và nó đòi hỏi chúng ta phải rất cẩn thận với vaccine.

Nhưng trong thực tế một số nhà sản xuất không tuân thủ theo những qui ước và qui định đó. Họ chưa công bố kết quả nghiên cứu trên một tập san khoa học, nhưng đã vội vã công bố trên báo chí và điều này vi phạm Qui ước Ingelfinger. Hậu quả là họ đã làm mất niềm tin ở công chúng về vaccine. Đa số (62%) người Mĩ cho rằng FDA vội vã phê chuẩn các vaccine mà không qua các qui trình đảm bảo chất lượng và hiệu quả.

Vaccine ‘Made in Vietnam’

Nanocovax là một hi vọng về vaccine nội địa. Cách đây không lâu, một viên chức của công ti họ biết họ sẽ xuất khẩu vaccine made in Vietnam ra thế giới. Thế nhưng, thông tin khoa học về vaccine đó rất ít. Không có một bài báo khoa học nào về vaccine đó được công bố. Chỉ có một vài chi tiết khá thô sơ về thử nghiệm lâm sàng giai đoạn II được đăng kí trên trang clinicaltrials.gov [1], không đủ để công chúng và giới khoa học đánh giá. Thế nhưng nhà sản xuất đã tuyên bố rằng ‘Chúng tôi đã công bố thử nghiệm lâm sàng với thế giới, trong đó có trang ClinicalTrial.gov của Mỹ‘ [2]. Công bố trên trang đó không có nghĩa là đã qua bình duyệt.

Theo thông tin từ [1] thì đây là một thử nghiệm lâm sàng giai đoạn I và II, bắt đầu từ 12/2020 đến tháng 8/2021 thì kết thúc. Theo đề cương, nghiên cứu này sẽ tuyển mộ 620 tình nguyện viên tuổi từ 12 đến 75. Kết cục (outcome) của nghiên cứu là phản ứng phụ (adverse events) và một chỉ số về kháng thể ‘Anti-S IgG’. Vì đến tháng 8 mới xong, nên cho đến nay, chúng ta chưa thấy bất cứ kết quả nào được công bố. Chúng ta cũng chưa thấy dữ liệu về nghiên cứu trên động vật được công bố.

Thế nhưng một thông tin mới nhứt cho thấy nhà sản xuất đã làm thử nghiệm lâm sàng giai đoạn 3. Theo một nguồn tin từ Học viện Quân y, “đã có 1.000 người tình nguyện tiêm liều một vaccine Nanocovax, hiện sức khỏe ổn định” [3]. Bài báo này còn cho biết rằng thử nghiệm giai đoạn III cần 13,000 tình nguyện viên. 

Dù chưa biết kết quả ra sao, nhà sản xuất đã có văn bản đề nghị Thủ tướng phê chuẩn khẩn cấp cho sử dụng. Tuy nhiên, hôm qua một viên chức thuộc Bộ Y tế cho biết chứng cớ khoa học về vaccine Nanocovax chưa đủ để Bộ phê chuẩn khẩn cấp [4]. Ông có cung cấp vài thông tin đáng chú ý và tôi tóm tắt như sau:

Ông nói số cỡ mẫu mà công ti đang nghiên cứu quá thấp. Thấp là bao nhiêu? Báo VNexpress cho biết nhà sản xuất dự kiến nghiên cứu trên 13,000 người, nhưng hiện nay mới có được 1,000 người mà thôi. Ông còn cho biết số liệu về miễn dịch vẫn còn phải qua đánh giá bởi các chuyên gia độc lập.

Cần bao nhiêu tình nguyện viên?

Con số cỡ mẫu 13,000 người từ đâu mà ra? Chúng ta không biết; chỉ có nhóm nghiên cứu biết. Nhưng tôi có lí do để nói con số cỡ mẫu đó là thấp so với các nghiên cứu về vaccine của Tàu, Nga, Mĩ, Anh, Đức, v.v. Các thử nghiệm lâm sàng do các công ti Pfizer [5], AstraZenaca [6], Moderna [7], J&J [8], và thậm chí Nga [9] đều có số cỡ mẫu trên 23,000 người.

Do đó, tôi không rõ tại sao thử nghiệm vaccine ở Việt Nam có số cỡ mẫu thấp như vậy. Dĩ nhiên, nhóm nghiên cứu có lí do, nhưng chúng ta không biết lí do đó có hợp lí khoa học hay không.

Chúng ta thử làm vài tính toán xem sao. Trên phương diện lí thuyết dịch tễ – thống kê học, số cỡ mẫu (số tình nguyện viên) cần thiết cho một nghiên cứu về hiệu quả của vaccine phụ thuộc vào 2 yếu tố chánh:

  • Mức độ khác biệt về nguy cơ nhiễm virus giữa nhóm vaccine và nhóm chứng; và
  • Tỉ lệ dương tính giả và tỉ lệ âm tính giả.

Về tỉ lệ dương tính giả (còn gọi là sai sót loại I) thì thường lấy giá trị 1% hay 5% làm chuẩn. Điều này có nghĩa là nếu kết quả nghiên cứu là dương tính (vaccine có hiệu quả) thì nhà nghiên cứu vẫn có thể sai chừng 1-5%. Tỉ lệ âm tính giả thường là 10 hay 20%. Con số này có nghĩa là nếu kết quả nghiên cứu cho thấy vaccine không có hiệu quả thì nhà nghiên cứu vẫn có thể sai từ 10 đến 20%. Vì đây là nghiên cứu vaccine, nên chúng ta phải chắc chắn, do đó tôi chọn tỉ lệ dương tính giả là 1% và tỉ âm tính giả là 10%.

Về tỉ lệ nhiễm virus thì chắc chắn nhóm nghiên cứu không biết được. Họ, cũng như chúng ta, chỉ có thể đoán. Tôi có thể đoán tỉ lệ nhiễm từ các nghiên cứu trước trên thế giới [5-9]. Cách tốt nhứt là xem xét tỉ lệ nhiễm ở nhóm chứng, và bảng dưới đây (Bảng 1) trình bày tỉ lệ đó cho từng nghiên cứu trong thời gian qua.

Như các bạn thấy, tỉ lệ nhiễm virus rất thấp: dao động từ 0.93% đến 1.78%, và trung bình là 1.39%. Nhưng Việt Nam là nước có tỉ lệ nhiễm thấp (dù báo chí làm chúng ta lo lắng). Do đó, tôi sẽ lấy tỉ lệ nhiễm cho nhóm chứng là 0.9% hay 9 trên 1000 (xem bảng 1).

Bước kế đến, tôi phải nghĩ đến hiệu quả của vaccine. Nhóm nghiên cứu dĩ nhiên không thể biết hiệu quả của vaccine là bao nhiêu. (Ai nói biết là … rất bậy). Chúng ta lại phải dựa vào nghiên cứu trước đây. Tôi thử làm một ‘meta-analysis’ đơn giản [10] và thấy hiệu quả vaccine — tính trung bình — dao động từ 0.72 đến 0.94 (xem bảng 2). Chúng ta sẽ ‘bảo thủ’ và khiêm tốn bằng cách lấy trị số 72%.

Bước kế tiếp là xác định độ tin cậy của hiệu quả vaccine. Ở trên, tôi đưa ra con số 72%, nhưng trong thực tế vì dao động mẫu nên nó có thể dao động. Chúng ta phải kiểm soát dao động này sao cho hiệu quả vaccine có thể tin cậy được — ý nói là công chúng tin được. Điều này dính dáng đến một tham số gọi là ‘relative width’ (RW, tức là khoảng dao động), và chúng ta cần RW càng thấp càng tốt. Nhưng thấp quá thì sẽ khó có thể có đủ tình nguyện viên, còn cao quá thì chẳng ai tin. Do đó, tôi lấy con RW tương đối chấp nhận được là 0.3.

Phân tích hiệu quả vaccine của các hãng Pfizer, AstraZeneca, Moderna, J&J và Nga. Số liệu trình bày là tỉ số odds (odds ratio). Hiệu quả vaccine = 1 trừ cho OR.

Bây giờ thì chúng ta đã có đủ ‘chất liệu’ để tính toán cỡ mẫu cho một thử nghiệm lâm sàng về vaccine ở Việt Nam: hiệu quả (VE) là 72% và RW là 0.3. Với hai tham số này, chúng ta có thể viết một chương trình R nhỏ để tính số tình nguyện viên cần thiết (xem ghi chú [11]).

Kết quả tính toán là 23,728 người. Nói cách khác, nếu hiệu quả của vaccine là 72% và với độ tin cậy 0.3, thì thử nghiệm lâm sàng cần phải tuyển gần 24,000 tình nguyện viên. Chúng ta thử tính cho vài tình huống xem sao:

Hiệu quả vaccine 70%, số tình nguyện viên cần thiết: 27,093

Hiệu quả vaccine 75%, số tình nguyện viên cần thiết: 19,379

Hiệu quả vaccine 80%, số tình nguyện viên cần thiết: 13,673

Hiệu quả vaccine 90%, số tình nguyện viên cần thiết: 6,609

Những ước tính trên đây dựa vào giả định tỉ lệ dương tính giả (type I error) là 1% và tỉ lệ âm tính giả (type II error) là 10%.

Do đó, số cỡ mẫu cần thiết tuỳ thuộc vào hiệu quả của vaccine. Cái khó là chúng ta không biết hiệu quả của vaccine made in Vietnam có hiệu quả bao nhiêu. Ngay cả nhà sản xuất cũng không biết. Do đó, tôi nghĩ lấy ngưỡng hiệu quả 70% là ‘an toàn’ (an toàn cho nghiên cứu) nhứt. Vói8 ngưỡng này, thử nghiệm lâm sàng cần phải tuyển 27,000 tình nguyện viên (chớ không phải 13,000 mà họ dự kiến).

Nhân đây, tôi xin chia sẻ với các bạn rằng số cỡ mẫu (hay tình nguyện viên) cho một thử nghiệm lâm sàng rất quan trọng. Quan trọng là vì nó không chỉ liên quan đến khoa học mà còn y đức. Nếu số cỡ mẫu thấp hơn cần thiết thì nghiên cứu sẽ không cho kết quả đáng tin cậy. Nếu số cỡ mẫu cao hơn cần thiết thì nhà nghiên cứu sẽ làm phiền và có thể nguy hiểm cho tình nguyện viên. Cả 2 tình huống đều thể hiện một sự vi phạm y đức.

Tóm lại, những phân tích trên đây cho thấy nhận định của viên chức thuộc Bộ Y tế về vaccine Nanocovax là hợp lí. Số cỡ mẫu (1000 tình nguyện viên) còn quá thấp để biết được hiệu quả của vaccine ra sao. Ngay cả nghiên cứu tuyển đủ 13,000 người thì có thể kết quả cũng không đủ tính thuyết phục (vì số cỡ mẫu cần thiết có thể lên đến 27,000 người).

Cần phải suy nghĩ một mô hình nghiên cứu khác (như Bayesian adaptive design chẳng hạn) để giảm số tình nguyện viên mà vẫn có kết quả đáng tin cậy, nhưng bây giờ thì có lẽ quá muộn rồi.

_____

[1] https://clinicaltrials.gov/ct2/show/NCT04683484

[2] https://vnexpress.net/vi-sao-nanogen-xin-cap-phep-khan-cap-vaccine-covid-19-nanocovax-4298596.html

[3] https://vnexpress.net/1-000-nguoi-da-tiem-vaccine-nanocovax-giai-doan-ba-4297866.html

[4] https://vnexpress.net/bo-y-te-chua-du-co-so-khoa-hoc-cap-phep-vaccine-nanocovax-4298152.html

[5] https://www.nejm.org/doi/full/10.1056/nejmoa2034577

[6] https://www.sciencedirect.com/science/article/pii/S0140673621004323?via%3Dihub

[7] https://www.nejm.org/doi/full/10.1056/nejmoa2035389

[8] https://www.nejm.org/doi/full/10.1056/NEJMoa2101544

[9] https://www.thelancet.com/journals/lancet/article/PIIS0140-6736(21)00234-8/fulltext

[10] Mã R cho phân tích tổng hợp (meta-analysis) 5 thử nghiệm lâm sàng:

Vaccine = c(“Pfizer”, “AZ”, “Moderna”, “J&J”, “Russia”)

Rx = c(17411, 5807, 14134, 19514, 14964)

Con = c(17511, 5829, 14073, 19544, 4902)

Cases1 = c(8, 30, 11, 116, 16)

Cases0 = c(162, 101, 185, 348, 62)

NInf1 = Rx-Cases1

NInf0 = Con-Cases0

Inc1 = Cases1/Rx*100

Inc0 = Cases0/Con*100

df = data.frame(Vaccine, Rx, Con, Cases1, Cases0, NInf1, NInf0, Inc1, Inc0)

library(metafor)

es = escalc(measure=”OR”, ai=Cases1, bi=NInf1, ci=Cases0, di=NInf0, data=df, append=T)

rma = rma(yi, vi, data=es)

summary(rma)

forest(rma, atransf=exp, slab=paste(df$Vaccine), header=T)

[11] Mã R để tính số cỡ mẫu cần thiết cho một thử nghiệm lâm sàng về hiệu quả vaccine (muốn biết phương pháp đằng sau, có thể email để tôi cung cấp):

ss = function(ARU, RW) {

  VE = 0.72

  y = RW*VE/(2*(1-VE))

  d = log(y + sqrt(y^2+1))

  return((2.58)^2/d^2*((1+1/(1-VE))/ARU-2))

}

Những vấn đề phổ biến về phương pháp nghiên cứu

Tôi rất hân hạnh chia sẻ cùng các bạn một bài loại ‘discussion paper’ về 10 vấn đề trong phương pháp nghiên cứu khoa học [1]. Bài này công bố dưới dạng Open Access, nên các bạn có thể download thoải mái và … nhớ trích dẫn.

Trong bài này tôi nêu 10 vấn đề phổ biến mà tôi đặt tên theo kiểu chơi chữ trong slide (không phải trong bài báo): power failure, confounding and collision, percentage fallacy, dichotomania, machine thinking, Darwin’s moral algebra, significosis, data torture, too big to fail, và wishful thinking.

Vấn đề 1: Thiếu cỡ mẫu (𝐩𝐨𝐰𝐞𝐫 𝐟𝐚𝐢𝐥𝐮𝐫𝐞): tức là các nghiên cứu không đủ cỡ mẫu, có độ nhạy (power) thấp và do đó cho ra kết quả không đáng tin cậy. Ít người biết rằng nghiên cứu với cỡ mẫu thấp (số tế bào, số tissue, số bệnh nhân, v.v.) thường cho ra kết quả dương tính, nhưng kết quả đó rất khó lặp lại (tức dỏm). Nghiên cứu có cỡ mẫu không đủ chẳng khác gì mất điện trong đời thường.

Vấn đề 2: Sai lệnh và sai lệch đồng căn. Trùng hợp và va chạm (confounding and collision). Đây là những sai sót về cách chọn mẫu, về yếu tố nhiễu, và một sai lệch mà ít người biết đến: sai lệch đồng căn (collider). Mấy sai lệch này có thể làm cho kết quả nghiên cứu sai. Trong thực tế có thể X và Y chẳng có liên quan gì với nhau, nhưng bằng chọn chọn mẫu (ví dụ như trong bệnh viện) thì X và Y lại có liên quan! Lí do là do sai lệch (bias) trong chọn mẫu và yếu tố nhiễu.

Vấn đề 3: Nghịch lí phần trăm (percentage fallacy): Nghịch lí phần trăm (percentage fallacy). Đây là những sai sót về phân tích số phần trăm trong nghiên cứu theo thời gian. Nhiều người không nhận ra rằng khi theo dõi bệnh nhân ở 2 thời điểm với 2 giá trị (x1 và x2) thì cách tính phần trăm thay đổi kiểu (x2 – x1) / x1*100 là bậy. Đa số các nhà nghiên cứu không am hiểu thường dùng ANOVA cho nghiên cứu theo thời gian, nhưng phương pháp này dễ dẫn đến sai lầm.

Vấn đề 4: Chia nhóm theo kiểu nhị phân. Rất rất nhiều người (nhứt là ở Việt Nam) thích chia một biến số liên tục thành 2 nhóm (kiểu ‘cao’ và ‘thấp’), nhưng họ không hiểu rằng cách phân chia này là sai về lí thuyết đo lường. Ví dụ như chia độ tuổi theo kiểu 0-9, 10-19, 20-29, v.v. và dùng đó như là biến tiên lượng. Nhưng cách chia nhóm này rất dở vì làm mất thông tin và có thể dẫn đến kết quả sai lệch.

Vấn đề 5: Máy móc và stepwise regression. Rất rất nhiều người dùng phương pháp stepwise để chọn biến số liên quan, nhưng phương pháp này đã bị chứng minh là cho ra kết quả bậy bạ lâu rồi. Tệ nhứt là cứ để cho máy làm mà không chịu đầu tư suy nghĩ, và tôi gọi đó là ‘bệnh máy móc’. Bệnh này không chịu dùng kiến thức chuyên môn mà cứ để cho máy điều khiển mình. Bệnh này rất phổ biến.

Vấn đề 6: Over-fitting hay ‘đại số đạo đức’.  Hồi xưa ông Darwin trước khi đi đến hôn nhân ổng ngồi xuống tính toán lợi và hại khi lập gia đình. Trong danh sách lợi hại, ông ấy cho rằng có người tâm sự thủ thỉ là lợi, nhưng hại là tốn tiền và ít có thời gian đọc sách. Đó là over-fitting theo ngôn ngữ ngày nay. Nhiều người làm nghiên cứu chỉ có 10 người bị bệnh trong số 1000 người, nhưng họ có đến 20 biến tiên lượng — đó là over-fitting, mô hình thái quá (như Darwin).

Vấn đề 7: Bệnh ‘viêm thống kê’ (significosis).  Mấy người mắc bệnh này hau chạy theo trị số P và họ làm mọi cách để sao cho P < 0.05 cho công bố khoa học. Trị số P < 0.05 được xem là ‘giấy thông hành’ cho công bố khoa học. Bệnh này càng ngày càng nhiều trong giới khoa học, và hiện nay vẫn chưa có thuốc trị. Có thuốc Bayes, nhưng ít ai chịu uống.

Vấn đề 8: Tra tấn dữ liệu (data torture). Nhiều nhà nghiên cứu trở thành những chuyên gia tra tấn dữ liệu cho đến khi nào chúng khai P < 0.05. Thói quen dã man này xuất phát từ nghiên cứu có ra kết quả ‘tiêu cực’, nên họ trở nên nóng nảy và phải dùng đến biện pháp tra tấn dữ liệu. Mà, cũng như tù nhân, càng tra tấn thì họ càng khai bậy, tra tấn dữ liệu nhiều quá chúng cũng cho ra kết quả sai. Tra tấn tù nhân là tội phạm; tra tấn dữ liệu là vi phạm đạo đức khoa học.

Vấn đề 9: Cỡ mẫu quá lớn. Nhiều nhà nghiên cứu không nhận ra rằng với nghiên cứu mà cỡ mẫu quá lớn (như hàng trăm ngàn hay hàng triệu) thì trị số P ~ 0.05 không còn ứng dụng nữa. Những nghiên cứu quá lớn này (Big Data) rất dễ cho ra kết quả có ý nghĩa thống kê, nhưng là kết quả vô nghĩa. Bài này giới thiệu một chỉ số Q (của IJ Good) để giải quyết vấn đề này.

Vấn đề 10: Diễn giải sai khoảng tin cậy 95%. Đây là những người diễn giải sai khoảng tin cậy 95% là xác suất 95%. Chẳng hạn như nếu “95% confidence interval of RR ranged from 1.1 to 2.1” họ diễn giải là “Xác suất RR dao động từ 1.1 đến 2.1 là 95%”, nhưng diễn giải/hiểu này sai. Tôi gọi đó là ‘wishful thinking’ (mơ tưởng). Có thể nói rằng 99% các nhà khoa học trên thế giới đều hiểu sai như thế. Cách diễn giải đó chỉ có thể qua Bayes mà thôi.

Tuyệt đại đa số các kết quả nghiên cứu khoa học được công bố là sai. Sai là do nhiều lí do, kể cả những vấn đề được mô tả trong bài này. Do đó, biết sai sót để tránh là một điều rất cần thiết.

Đây là bài tôi muốn viết đã lâu, nhưng không có dịp, mãi đến khi tập san O&S (Osteoporosis and Sarcopenia) mời đóng góp [2]. Tuy là viết cho các đồng nghiệp tôi trong thế giới nghiên cứu xương, nhưng trong thực tế 10 vấn đề nêu trong bài cũng ứng dụng cho tất cả các chuyên ngành khác. Tôi rất muốn viết thành 1 bài bằng tiếng Việt, nhưng không biết tập san nào chịu đăng (và nói cho ngay cũng làm biếng dịch). Hi vọng các bạn đọc và học được một vài ý tưởng trong bài discussion này.

____

[1] https://www.sciencedirect.com/science/article/pii/S2405525520301084

[2] Tập san O&S là thuộc liên hội loãng xương Châu Á – Thái Bình Dương, và tôi là một trong những thành viên sáng lập O&S. Hiện nay, O&S do một bạn bên Hàn Quốc làm chủ bút và anh ấy làm rất tốt. Hàn Quốc dù sao cũng giàu hơn các nước Á châu khác, và nền khoa học của họ cũng ok hơn các nước Á châu khác, nên họ điều hành tập san rất ok.