Bất cứ ai làm nghiên cứu y khoa chắc biết đến phương pháp “logistic regression”, và “Life table” hay “Survival analysis”, nhưng ít ai biết tác giả của hai phương pháp đó là Gs David Roxbee Cox, người mới qua đời vào ngày 18/1/2022, thọ 97 tuổi. Ông là một “siêu sao” và một tấm gương sáng của khoa học, đứng ngang hàng với những vĩ nhân như Darwin, Einstein, Faraday, và Gauss.

Một đóng góp quan trọng
Trong khoa học cũng như nghệ thuật, chỉ cần một công trình nghiên cứu hay một tác phẩm văn nghệ là đủ làm nên tên tuổi của một người. Đó chính là trường hợp của Giáo sư David Cox, người đã có những đóng góp rất lớn cho khoa học và y khoa qua chỉ một phương pháp sau này mang tên ông. Với phương pháp này, ông đã giúp cho giới khoa học có rất rất nhiều khám phá, và giúp cứu hàng triệu triệu người trên thế giới.
Đó là một bài báo 34 trang xuất bản vào năm 1972 có tựa đề là “Regression models and life-tables” [1]. Trong bài đó, ông đề xướng một phương pháp để phân tích những dữ liệu về thời gian dẫn đến một biến cố (time-to-event data). Ví dụ như trong y khoa, thời gian từ lúc chẩn đoán ung thư đến tử vong, hay từ lúc ung thử khởi phát đến tử vong được gọi là “time to event” (thời gian dẫn đến biến cố). Hiệu quả của thuốc điều trị ung thư được xác định dựa trên thời gian dẫn đến biến cố. Mà, để ước tính hiệu quả của thuốc cho loại dữ liệu này rất khó. Trong bài báo năm 1972, Gs David Cox chỉ ra một phương pháp mà sau này gọi là “Cox’s proportional hazards model” hay “Cox’s regression” để ước tính hiệu quả của thuốc trong điều kiện thời gian dẫn đến biến cố. Phương pháp này đã trở thành chuẩn mực trong nghiên cứu y khoa, nhưng cũng được ứng dụng cho rất nhiều chuyên ngành khác.

Bài báo năm 1972 có mức độ ảnh hưởng rất lớn, và mở ra hàng loạt nghiên cứu khác. Rất nhiều phương pháp mới được phát triển dựa trên nền tảng của phương pháp Cox. Hầu như tất cả các nghiên cứu RCT mà biến outcome là thời gian dẫn đến biến cố đều phải sử dụng phương pháp Cox. Phương pháp Cox đã dẫn đến rất rất nhiều khám phá trong khoa học (không chỉ y khoa). Ông được trao giải thưởng Turing Award (tương đương với giải Abel và Nobel) vì đóng góp quan trọng đó. Tính đến nay, bài báo này đã được trích dẫn hơn 56,000 lần! (Một nhà khoa học có thể bỏ ra cả đời nghiên cứu với hàng trăm bài báo khoa học cũng không đạt được con số này).
Trong một bài nói chuyện về tiến bộ y học trong thế kỉ 20, một giáo sư Mĩ lừng danh là John Ioanndidis nói rằng mô hình Cox là một trong những tiến bộ quan trọng nhứt. Mà, đúng như thế. Làm sao chúng ta có thể xác định hiệu quả của thuốc điều trị, của thuật can thiệp; làm sao chúng ta có cách chọn phương pháp điều trị tối ưu và cứu sống bệnh nhân. Ứng dụng mô hình Cox đã giúp y khoa trả lời những câu hỏi đó. Qua mô hình Cox, ông đã gián tiếp cứu vô số bệnh nhân trên toàn thế giới. Qua mô hình đó, ông cũng đã làm thay đổi cách phân tích của các nhà khoa học, kinh tế học, xã hội học, công nghệ, v.v. và giúp họ có những khám phá có ích cho đời. Nhìn như thế, chúng thấy mức độ ảnh hưởng của David Cox quả là to lớn, và khó có thể đo lường bằng chỉ số lần trích dẫn. Do đó, không ngạc nhiên khi 3 năm trước, Tạp chí Nature xếp công trình “Cox’s model” là một trong 100 công trình có ảnh hưởng lớn nhất trong lịch sử khoa học (“top 100 most-cited papers of all time for all fields”).
Trước công trình Cox’s model, ông đã công bố một công trình quan trọng khác nhưng ít người chú ý: đó là bài báo “The regression analysis of binary sequences“. Bài báo này mở đầu cho phương pháp hồi qui logistic (hay logistic regression). Bài này được công bố vào năm 1958 [2], và sau này được triển khai thành một cuốn sách tựa đề là “Analysis of binary data“. Công trình này cũng gây ảnh hưởng lớn trong khoa học, và sau này trở thành một trong những mô hình quan trọng của Machine Learning.

Không xuất thân từ thống kê học
David Roxbee Cox sanh 17/7/1924 tại Birmingham, Anh. Thân phụ ông là chủ tiệm vàng nhỏ. Ông theo học toán ở St John College, thuộc Đại học Cambridge, nhưng ông tốt nghiệp tiến sĩ từ Đại học Leeds vào năm 1949. Thầy hướng dẫn luận án tiến sĩ của ông là Henry Daniels và Bernard Welch, nhưng cả hai không nổi tiếng bằng trò.
Ông xuất thân không hẳn từ khoa bảng, mà từ kĩ nghệ. Trong thời gian 1944 đến 1946, ông làm việc cho hãng máy bay Royal Aircraft Establishment. Từ 1946 đến 1950, ông làm việc cho hiệp hội nghiên cứu về vải len. Nhưng sự nghiệp ông bắt đầu nổi bật khi làm nghiên cứu viên cho Labo Thống kê của ĐH Cambridge từ năm 1950 đến 1955. Từ 1956 đến 1966 ông được bổ nhiệm và giữ chức Reader (tương đương với associate professor) và sau này thành giáo sư (professor) tại Birkbeck College thuộc Imperial College London (ICL), một đại học lừng danh thế giới. Sau khi xong nhiệm kì giáo sư, ông được bổ nhiệm là chủ nhiệm (chair) về thống kê học của ICL. Năm 1988 ông được bổ nhiệm làm Warden (như hiệu trưởng) của Nuffield College, và một thành viên của Bộ môn thống kê học thuộc ĐH Oxford. Năm 1994, ông chính thức nghỉ hưu từ các chức vụ khoa bảng, nhưng vẫn còn tham gia nghiên cứu và công bố khoa học.
Cũng như phần lớn những nhà thống kê học nổi tiếng, David Cox xuất thân là dân “ngoại đạo” thống kê. Ông cho biết thời gian ông làm việc cho hãng máy bay Royal Aircraft Establishment, ông phải đương đầu với phân tích dữ liệu, nhưng ông chuyên môn về toán của ông không giúp gì cho công việc cả. Hãng máy bay thì nghĩ những người làm toán có thể làm thống kê, nhưng họ sai lầm tai hại, vì đa số những nhà toán học không am hiểu về thống kê học.
Thế là ông phải tự học về xác suất, nhưng ông phát hiện xác suất cũng không giúp ông giải quyết được những vấn đề mang tính thí nghiệm. Thế là ông quay sang học về thống kê học, nhưng khốn khổ thay, thời đó rất ít chương trình dạy về thống kê học, nên ông chỉ tự học và tham vấn các nhà thống kê học như Ronald Fisher và Dennis Lindley. Ông cho biết ông không đến với thống kê học, và thực tế ép ông vào cái vị trí phải học thống kê để … giữ việc.
Khi đã học qua thống kê học, ông tự tin tìm việc ở hiệp hội nghiên cứu vải len. Ở đó, ông có nhiều cơ hội giúp thiết kế thí nghiệm và phân tích dữ liệu để sản xuất vải len đẹp hơn và bền hơn. Ông cho biết lúc đó ngay cả những người giao việc cho ông cũng không nghĩ thống kê học có thể giúp cho các nhà khoa học thiết kế thí nghiệm tốt hơn!
Gs Cox cho biết ông có sáng kiến về mô hình “proportional hazards model” là từ thực tế. Ông cho biết rằng trước đó ông đã quan tâm đến vấn đề reliability trong kĩ thuật trong thời gian làm việc cho hãng máy bay và hiệp hội vải len, nhưng chưa nghĩ ra cách phân tích. Ông dành đến 4 năm cho công trình này. Có đêm ông thức giấc và nghĩ đến nó, nhưng rồi lại … ngủ.
Vĩ nhân khiêm tốn
Gs David Cox là người rất khiêm tốn. Ông nói năng nhẹ nhàng, phong cách nho nhã. Tôi có cơ duyên nghe ông giảng một lần khi ông ghé qua Sydney. Không giống như những nhà khoa học khác, ông nói không cần slides. Ông nói về hành trình dẫn đến công trình lừng dang “Cox’s model” rất ư là gần gũi, và suốt một giờ đồng hồ, ông chỉ nói có vài ba thuật ngữ thống kê! Đến phần thảo luận, người ta hỏi ông nhiều về những vấn đề liên quan đến dữ liệu sống còn, và câu trả lời của ông thường là … không biết. Ông thường bắt đầu câu trả lời bằng câu “Tôi không biết”, nhưng ngay sau đó ông bàn về ý tưởng giải quyết vấn đề. Khi hỏi về trường phái Bayes, ông tỏ ra rất ngoại giao, cho rằng cả hai trường phái tần số (frequentist) và Bayes đều có ích, nhưng ông có vẻ nghiêng về Bayes trong thời đại dữ liệu lớn.
Khi được hỏi về phát triển quan trọng trong thời gian gần đây là gì, ông nghĩ rằng Dữ liệu Lớn (Big Data) là một phát triển đáng chú ý. Đáng chú ý là vì dữ liệu lớn đặt ra nhiều câu hỏi và vấn đề cho suy luận thống kê, và sẽ dẫn đến ý tưởng mới. Phần lớn những phương pháp và mô hình thống kê được phát triển cho các nghiên cứu nhỏ hay tương đối lớn, chứ không cho các vấn đề với hàng tỉ tỉ dữ liệu. Nhưng ông cũng cảnh báo rằng những phát triển quan trọng và những khám phá mang tính cơ bản sẽ, cũng như trong quá khứ, xuất phát từ những nghiên cứu nhỏ nhưng được thiết kế chặt chẽ, hơn là thu thập hàng tỉ thông tin từ hàng triệu người.
Trong sự nghiệp trải dài hơn 50 năm, ông công bố chừng 400 bài báo khoa học và 5 cuốn sách chuyên khảo. Những nghiên cứu của ông trải dài và rộng đến nổi có hai nhà khoa học là David Hand và A. M. Herzberg phải biên tập thành hai tập sách (xem cuốn “Selected papers of Sir David Cox”).
Với những đóng góp đồ sộ đó, ông được Nữ hoàng phong tước “Sir” (hiệp sĩ) vào năm 1985, và được trao hơn 20 bằng ‘Doctor of Science’ (Tiến sĩ Khoa học) từ các đại học trên khắp thế giới. Ông còn được trao rất rất nhiều giải thưởng, kể cả những giải danh giá như Turing (như đề cập trên), giải Guy, và Huy chương Copley. Với Huy chương Copley ông đứng chung với những vĩ nhân như Charles Darwin, Albert Einstein, Niels Bohr, Michael Faraday, và Carl Friedrich Gauss.
Dù Gs David Cox đã qua đời, nhưng những đóng góp quan trọng của ông sẽ còn gây ảnh hưởng tích cực đến khoa học và y khoa trong vài trăm năm nữa. Trong thời đại Precision Medicine, Data Science (Khoa học Dữ liệu) và Trí năng Nhân tạo (AI) thì mô hình Cox và hồi qui logistic sẽ còn có nhiều ứng dụng thú vị hơn nữa.
_____
[1] Bài về Cox’s model: https://www.jstor.org/stable/2985181
[2] Bài về logistic regression: https://www.jstor.org/stable/2983890 [3] Nếu các bạn muốn tìm hiểu về mô hình Cox, thì tôi có một bài giới thiệu ở đây: https://www.youtube.com/watch?v=obYRBPgmpfM