Thông báo khoá học Phương pháp phân tích dữ liệu cơ bản

Tháng 12 này là tháng nghỉ hè nhưng tôi có một chương trình làm việc rất bận rộn ở Việt Nam. Trong chương trình này sẽ có một khoá học 6 ngày về phương pháp phân tích dữ liệu tại Hà Nội. Kính mời các bạn đồng nghiệp xa gần tham dự.

Không nói ra thì các bạn cũng biết rằng phân tích dữ liệu đóng vai trò rất quan trọng trong nghiên cứu khoa học. Kinh nghiệm của tôi trong thời gian làm editor cho tập san y khoa cho thấy khoảng 70% các bản thảo bài báo khoa học bị từ chối là do không đạt chuẩn trong phân tích dữ liệu. Xin nhắc lại: 70%.

Do đó, một trong những mục tiêu chúng tôi đặt ra là giúp nâng cao năng lực phân tích dữ liệu. Đây là khoá học cơ bản và đầu tiên sau đại dịch Covid tại Hà Nội. Trước đây, chúng tôi đã làm vài khoá học như thế này ngoài Hà Nội và cứ mỗi lớp học chúng tôi giúp cho nhiều bạn có bài báo công bố hay làm xong luận án. Niềm vui của chúng tôi chỉ có thế: giúp cho các bạn làm nghiên cứu tốt hơn.

Khoá học này sẽ có 18 bài giảng, đi từ phân tích mô tả đến mô hình hồi qui logistic. Cũng sẽ có một bài giảng về phương pháp ước tính cỡ mẫu. Tôi tin rằng các bạn sinh viên, nghiên cứu sinh, bác sĩ, chuyên gia các ngành khác sẽ học được nhiều điều có ích từ khoá học này.

Lớp học sẽ kéo dài 6 ngày, trực tuyến và trực tiếp. Buổi sáng sẽ nghe bài giảng, buổi chiều làm bài tập. Bài tập sẽ là những nghiên cứu lấy từ trong ngành y sinh và khoa học xã hội. Do đó, khoá học này không phải chỉ cho ngành y mà còn cho các bạn ngoài ngành y muốn có kĩ năng phân tích dữ liệu. Kĩ năng phân tích dữ liệu được xem là kĩ năng quan trọng trong thế kỉ 21.

Phụ trách giảng và hướng dẫn khoá học sẽ có Ts Trần Sơn Thạch, Ts Hà Tấn Đức, và tôi. Chúng tôi có lợi thế là những người vừa trực tiếp làm nghiên cứu, vừa làm biên tập hay chuyên gia bình duyệt cho các tập san khoa học. Trong những vai trò đó, chúng tôi có kinh nghiệm thực tế (chứ không phải trong sách), và học được những ‘trick’ và ‘traps’ để chia sẻ lại với các bạn.

Cũng là dịp các bạn hỏi thoải mái những gì liên quan đến phương pháp nghiên cứu khoa học. Biết thì chúng tôi chia sẻ, còn không biết thì … nghiên cứu thêm. 🙂

Rất mong gặp các bạn từ mọi miền đất nước nhân dịp Noel tháng 12 này!

Chi tiết khoá học có trong trang web Viện nghiên cứu Tâm Anh: https://tamri.vn/dao-tao/phuong-phap-phan-tich-du-lieu-co-ban

Link để ghi danh: https://docs.google.com/forms/d/1KlYC33e95GIrb4WTBT9AmLCLwE6rmiout06apeEpMBc/edit

Thôngbáo lớp học Phân tích dữ liệu và Công bố quốc tế (ĐH Văn Lang 12/2022)

Tôi rất hân hạnh thông báo đến các bạn một khoá học về ứng dụng mô hình hồi qui (applied regression analysis) và công bố quốc tế do Đại học Văn Lang tổ chức. Khoá học 7 ngày sẽ diễn ra từ 19/12 đến 26/12/2022.

Các mô hình hồi qui là ‘guồng máy’ đằng sau Machine Learning (ML) và Khoa học Dữ liệu. Tuy nhiều bạn làm ML và data science nhưng kiến thức và kĩ năng về các mô hình hồi qui còn hạn chế. Do đó, mục tiêu của khoá học này là đem lại kiến thức và trang bị kĩ năng phân tích dữ liệu dùng mô hình hồi qui tuyến tính và hồi qui logistic. Sau khi hoàn tất khoá học, chúng tôi kì vọng rằng học viên sẽ:

  • biết sử dụng ngôn ngữ R;
  • biết cách hiển thị dữ liệu khoa học;
  • diễn giải ý nghĩa của các mô hình hồi qui;
  • biết cách soạn bài báo khoa học;
  • biết tiêu chuẩn đứng tên tác giả;
  • biết nguyên lí của đạo đức khoa học trong công bố;
  • biết cách phân biệt tập san chánh thống và dỏm.

Chương trình học bao gồm 20 bài giảng được chia ra 2 phần như sau:

Phần 1: Các mô hình hồi qui

Bài giảng 1: Giới thiệu R. Ngày nay, học về khoa học dữ liệu hay phương pháp phân tích đòi hỏi phải biết ngôn ngữ R. (Hãy quên đi mấy software thương mại vì mắc tiền quá). Học viên sẽ học về các hàm/lệnh căn bản trong R để đọc dữ liệu, biên tập dữ liệu, và làm các phân tích đơn giản.

Bài giảng 2: RStudio và R Markdown. Trong phần này học viên sẽ làm quen với RStudio và RMarkdown, hai phần rất quan trọng trong các công cụ của khoa học dữ liệu. RStudio là một ‘add on’ nhằm giúp người sử dụng R quản lí file tốt hơn. RMarkdown là một sáng kiến tuyệt vời nhằm giúp cho việc lưu trữ các mã phân tích và chia xẻ files với nhau. Với RMardown, người dùng có thể tạo ra một trang web cá nhân trên Rpubs.com và ‘báo cáo’ kết quả phân tích ngay trên đó.

Bài giảng 3: Quản lí và biên tập dữ liệu bằng tidyverse. Bài này sẽ giới thiệu các nguyên lí quản lí dữ liệu cho phân tích (vì đây là một bước rất quan trọng). Bài giảng cũng sẽ hướng dẫn sử dụng các hàm căn bản trong việc biên tập dữ liệu, đặc biệt là dùng chương trình tidyverse.

Bài giảng 4-5: Nguyên lí hiển thị dữ liệu và giới thiệu “ggplot2” cho biểu đồ chất lượng cao. Ngày nay, bài báo khoa học với biểu đồ phẩm chất cao là vô cùng quan trọng, vì nó thể hiện tính chuyên nghiệp và tinh tế của nhà khoa học. Nhu liệu ‘ggplot2’ là một chương trình tuyệt vời để cho nhà khoa học soạn các biểu đồ ‘không chê vào đâu được’.  Học về ggplot2 không dễ, nhưng chúng tôi đã tìm ra một cách giới thiệu mà học viên có thể học rất nhanh.

Bài giảng 6: Phân tích mô tả. Bài giảng giới thiệu cách mô tả dữ liệu liên tục (continuous data) và dữ liệu phân nhóm (categorical data) dùng các hàm đơn giản trong R.

Bài giảng 7: Giới thiệu mô hình hồi qui tuyến tính. Giới thiệu mô hình hồi qui tuyến tính, cách ước tính tham số, giả định và ứng dụng. Nói chung, mô hình hồi qui tuyến tính có 3 ứng dụng: tìm hiểu mối liên quan, hiệu chỉnh cho yếu tố nhiễu, và tiên lượng.

Bài giảng 8: Kiểm tra giả định, ảnh hưởng tương tác, hoán chuyển dữ liệu: Trong phần này, học viên sẽ học cách diễn giải các tham số trong mô hình như RMSE, R-squared.

Bài giảng 9: Ứng dụng mô hình hồi qui tuyến tính. Bài giảng hướng dẫn cách ứng dụng mô hình hồi qui tuyến tính trong việc thay thế t-test, đánh giá sự tương tác, cách đánh giá tầm quan trọng của biến số, và cách chọn mô hình tối ưu.

Bài giảng 10: Khái niệm odds và odds ratio. Giới thiệu khái niệm odds, odds ratio, và log odds.

Bài giảng 11: Mô hình hồi qui logistic. Học viên sẽ học về mô hình hồi qui logistic và cách diễn giải kết quả của mô hình logistic.

Bài giảng 12: Phương pháp tìm mô hình “tối ưu” (tìm các yếu tố liên quan). Một trong những vấn đề làm nhiều người ‘đau đầu’ là trong số hàng trăm — thậm chí hàng triệu — biến số, thì biến nào có liên quan đến outcome. Nhiều người nghĩ đến phương pháp stepwise, nhưng đó là cách làm sai. Trong bài này, chúng tôi sẽ giới thiệu một phương pháp Bayes và LASSO để tìm các biến số liên quan.

Phần 2: Công bố khoa học

Phần 2 của khoá học là 3 ngày tập trung vào cách soạn và công bố bài báo khoa học. Mục tiêu chung của khoá học (3 ngày) này là trang bị kiến thức và kĩ năng cho học viên trong việc soạn một bài báo khoa học. Chúng tôi kì vọng rằng sau khi xong lớp học, học viên sẽ:

  • hiểu tại sao cần phải công bố khoa học;
  • biết cơ cấu của một bài báo khoa học;
  • biết các nguyên tắc viết phần Dẫn nhập, Bàn luận, Kết quả của một bài báo; và
  • biết phân biệt tập san dỏm và thật.

Bài giảng 13: Phương pháp viết Title. Bài giảng sẽ giới thiệu cấu trúc chuẩn của một bài báo khoa học là IMRaD. Những bước cần chuẩn bị cho việc soạn một bài báo khoa học. Phần nào cần viết trước và phần nào cần viết sau sẽ được bàn luận trong bài giảng. Tựa đề bài báo khoa học là một yếu tố rất quan trọng, có khi quyết định sự thành bại của bài báo, nhưng rất ít được các tác giả chú ý. Bài giảng này sẽ giới thiệu những nguyên tắc trong việc đặt tựa đề, cùng những điều không nên làm khi đặt tựa đề. Một số nghiên cứu khoa học về tựa đề bài báo cũng sẽ được trình bày để minh họa cho các nguyên tắc chung.

Bài giảng 14: Phương pháp viết phần Abstract. Bài báo khoa học đòi hỏi phải có một abstract (tóm tắt), thường giới hạn trong 250 đến 300 chữ. Tóm lược một bài báo 20-30 trang thành 250-300 chữ là một thách thức. Bài giảng này sẽ giới thiệu hai dạng abstract: loại có cấu trúc và loại không có cấu trúc. Bài giảng cũng sẽ bàn về những chiến lược cụ thể để viết phần abstract sao cho đầy đủ thông tin trong vòng 250-300 chữ.

Bài giảng 15: Phương pháp viết phần Kết Quả. Kết quả là trái tim của một công trình nghiên cứu. Nhưng viết phần Kết quả có khi là một thách thức đáng kể cho những người mới vào nghiên cứu, vì không biết viết cái gì trước và cái gì sau, hay viết sao cho thuyết phục. Bài giảng này sẽ trình bày một số phương pháp và nguyên tắc quan trọng trong việc mô tả kết quả nghiên cứu. Phần đầu sẽ bàn về cách viết. Phần hai hướng dẫn cách thiết kế bảng số liệu và những biểu đồ có phẩm chất cao.

Bài giảng 16: Phương pháp viết phần Dẫn Nhập và Bàn Luận. Phần Dẫn nhập của một bài báo khoa học là lí do tồn tại của bài báo, nên cần phải được quan tâm đúng mức. Bài giảng sẽ giới thiệu công thức viết dẫn nhập có tên là CaRS (creating a research space). Bàn luận là phần khó viết nhất trong một bài báo khoa học. Trong bài giảng này, học viên sẽ học một công thức đơn giản (gồm 6 đoạn văn) nhưng rất hiệu quả trong việc cấu trúc phần bàn luận.

Bài giảng 17: Phương pháp viết phần Phương Pháp. Bài giảng sẽ giới thiệu những thông tin liên quan đến thiết kế nghiên cứu, đối tượng nghiên cứu, phương pháp đo lường, phương pháp phân tích, v.v. cho một bài báo khoa học. Mỗi mục sẽ được minh họa bằng những câu văn quen thuộc hay những mô tả đã được công bố trên các tập san khoa học nổi tiếng trên thế giới.

Bài giảng 18: Tiếng Anh trong khoa học. Tiếng Anh là một khó khăn đáng kể cho các nhà nghiên cứu mà tiếng mẹ đẻ không phải là tiếng Anh. Tiếng Anh trong khoa học càng là một loại ‘ngôn ngữ’ khá đặc thù. Trong bài giảng này, chúng tôi sẽ giới thiệu nguyên lí IDEA cho viết văn khoa học dùng tiếng Anh.

Bài giảng 19: Tiêu chuẩn đứng tên tác giả. Đứng tên tác giả một bài báo khoa học là một vấn đề tế nhị nhưng quan trọng. Bài giảng sẽ điểm qua các tiêu chuẩn đứng tên tác giả theo Tuyên bố ICMJE và trách nhiệm của tác giả bài báo khoa học.

Bài giảng 20: Tiêu chuẩn chọn tập san khoa học để công bố. Chọn tập san thích hợp để công bố kết quả nghiên cứu đang là một vấn đề thời sự, vì có quá nhiều tập san “dỏm” trên thế giới. Điều nguy hiểm hơn nữa là có những tập san nằm ở biên giới dỏm và thật. Rất nhiều nhà khoa học Việt Nam đã trở thành nạn nhân của những tập san dỏm. Bài giảng này sẽ giới thiệu các tiêu chuẩn để giúp các bạn phân biệt tập san dỏm và tập san thật, cùng những tiêu chí để chọn tập san chuyên ngành thích hợp cho nghiên cứu.

Liên lạc

Mọi thông tin chi tiết về chương trình, học viên vui lòng liên hệ Trung tâm Đào tạo và Phát triển – Tập đoàn Giáo dục Văn Lang


Hotline: 0287.1099.137 – 0908.046.521

Email: dtpt.vlg@vlu.edu.vn

Link đăng ký: http://bit.ly/dangky-DHVL

https://www.vanlanguni.edu.vn/tin-tuc-size-bar/3633-dang-ky-khoa-hoc-phan-tich-du-lieu-va-cong-bo-quoc-te-cung-gs-ts-nguyen-van-tuan-giao-su-top-1-the-gioi

Hai sai sót phổ biến trong nghiên cứu y khoa

Có dịp quan sát và tham gia nghiên cứu y khoa ở Việt Nam tôi phát hiện ra một số sai sót liên quan đến cách thiết kế, phân tích và diễn giải kết quả. Trong loạt bài giảng sắp tới tôi sẽ giải thích những sai sót đó và hướng dẫn cách giải quyết vấn đề. Còn ở đây tôi giới thiệu 2 bài giảng bàn về vấn đề cắt biến số liên tục thành nhiều nhóm và vấn đề phân tích trước và sau can thiệp.

Sai sót 1: Phân tích trước – sau (before-after study)

Trong nhiều nghiên cứu lâm sàng, nhà nghiên cứu có thể có 2 nhóm bệnh nhân (ví dụ như cao huyết áp), một nhóm chứng và một nhóm được can thiệp bằng thuốc. Mục tiêu là đánh giá xem thuốc có hiệu quả giảm huyết áp hay không. Mỗi bệnh nhân được đo 2 lần, trước và sau can thiệp. Biến số đo lường có thể là (ví dụ) huyết áp. Nếu thuốc có hiệu quả, nhà nghiên cứu kì vọng rằng nhóm can thiệp sẽ giảm huyết áp, còn nhóm chứng thì không.

Phương pháp phân tích rất phổ biến là nhà nghiên cứu tính phần trăm thay đổi huyết áp cho mỗi bệnh nhân. Gọi huyết áp trước khi can thiệp là X0, và sau can thiệp là X1, thì phương pháp này tính pct = 100*(X1 – X0) / X0. Sau đó, nhà nghiên cứu sẽ dùng t-test để so sánh pct giữa nhóm can thiệp và nhóm chứng. Nếu t-test cho ra kết quả P < 0.05, nhà nghiên cứu kết luận rằng thuốc có hiệu quả, còn nếu P > 0.05 thì … bac luck (làm nghiên cứu tiếp).

Nhưng phương pháp trên là sai. Để hiểu tại sao sai, chúng ta có thể lấy một ví dụ đơn giản: một bệnh nhân có kết quả đo huyết áp trước và sau can thiệp là 100 và 110 mmHg. Dùng phương pháp trên, nhà nghiên cứu sẽ kết luận rằng huyết áp của bệnh nhân tăng 10% (tức lấy 110 trừ cho 100, rồi chia kết quả cho 100). Nhưng nếu nhà nghiên cứu muốn biết so với sau can thiệp, huyết áp trước can thiệp giảm bao nhiêu, thì kết quả là giảm 9% (lấy 100 trừ cho 110, rồi lấy kết quả chia cho 110). Tại sao so với trước điều trị thì tăng 10%, còn so với sau điều trị thì giảm 9% (đáng lí ra là 10% chớ). Lí do là vì cách tính đó (pct) thiếu tính cân đối, hay tiếng Anh gọi là ‘asymmetry’. Con số phần trăm thay đổi so với baseline thiếu tính cân đối, và vì thế nó thể hiện một sai sót trong phân tích dữ liệu.

Cách tính đúng hơn cho bệnh nhân trên là: (a) tính số trung bình cho bệnh nhân, tức (100 + 110)/2 = 105 mmHg; (b) tính phần trăm thay đổi delta = (110 – 100) / 105 = 9.5%. Nhà nghiên cứu nên dùng delta để làm t-test thì chính xác hơn. Có nhiều lí do tại sao dùng delta chính xác hơn là pct, kể cả lí do về sai số đo lường và hồi qui về số trung bình mà tôi nghĩ không cần giải thích ở đây.

Tuy nhiên, ngay cả phương pháp delta mô tả trên cũng không phải là tốt nhứt. Phương pháp tốt nhứt là ancova, mà tôi sẽ giải thích trong bài giảng hôm nay:

Sai sót 2: Chia nhóm tuỳ tiện.

Trong phần lớn các bài báo khoa học, các tác giả có xu hướng chia một biến số liên tục (như độ tuổi, lymphocyte, thời gian, v.v.) thành nhiều nhóm một cách tùy tiện.  Chẳng hạn như có tác giả chi độ tuổi thành từng nhóm theo 10-tuổi như 40-49, 50-59, và 60-69, nhưng một nghiên cứu khác có tác giả chia thành nhóm tuổi lẻ như 35-45, 46-55, và trên 55. Có khi ngay trong một nghiên cứu, tác giả lại tự mình mâu thuẫn: lúc đầu thì chia thành 4 nhóm độ tuổi (1 đến 12 tháng, 1 – 5 tuổi, 6-10, 10-15) nhưng ngay sau đó lại chia thành 3 nhóm (1 – 12 tháng, 13 tháng đến 5 tuổi, và 6 đến 15 tuổi)!  Ngay cả các biến như huyết áp cũng bị cắt thành từng nhóm như thế, và cách chia cắt đó hoàn toàn không có một lí do lâm sàng nào.

Đứng trên phương diện lí thuyết đo lường, việc biến đổi một một biến số liên tục thành một biến số không liên tục (như cách chia cắt trên) là một sai sót, bởi vì việc biến đổi đó làm cho thông tin bị mất (information loss) của biến số.  Chẳng hạn như một phân tích tiên đoán nguy cơ mắc bệnh dựa vào hai biến liên tục như độ tuổi và trọng lượng của bệnh nhân, nếu phân tích dựa trên biến liên tục thì số tham số cần thiết lúc nào cũng ít hơn so với mô hình dùng biến phân nhóm.

Ngoài ra, đứng trên phương diện logic và thực tế lâm sàng, không có lí do gì để chia hai bệnh nhân với trọng lượng 55 kg và 56 kg thành hai nhóm khác nhau cả.  Chính vì thế mà các tập san y khoa khuyến cáo nên tránh cách phân chia một biến số liên tục một cách tùy tiện.

Tỉ số odds

Khi được hỏi tại sao chia biến liên tục thành nhiều nhóm, thì có tác giả giải thích là phải làm như vậy để tính tỉ số odds (OR) vì nếu để biến liên tục thì không tính được OR. Nhưng đây là một hiểu lầm. Trong thực tế, nhà nghiên cứu vẫn có thể tính OR cho biến liên tục, và đơn vị là thay vì tính trên mỗi kilogram cân nặng, người ta có thể tính trên mỗi 5 kg hay 10 kg. Cái nguy hiểm của chia biến số thành nhiều nhóm để tính OR là kết quả có thể sai. Thật vậy, đã có nhiều trường hợp khi phân tích trên biến liên tục thì kết quả có P < 0.05, nhưng khi phân tích theo nhóm thì P > 0.05. Lí do là vì khi cắt biến số thành nhiều nhóm thì số cỡ mẫu cũng giảm đi và do đó độ nhậy của kết quả cũng suy giảm theo.

Bài giảng trên youtube sẽ bàn về vấn đề này và giúp các bạn phân tích đúng:

3. Bài giảng về loãng xương

Ngoài ra, tôi cũng upload một bài giảng tổng quan về các loại thuốc đang được dùng cho điều trị loãng xương:

Đây là bài đầy đủ nhứt và cập nhựt mới nhứt tính đến tháng 2/2021.

****

Sai sót trong các nghiên cứu lâm sàng và dịch tễ học thì rất nhiều. Có thể nói rằng không có nghiên cứu nào là không có sai sót. Ngay cả những nghiên cứu đã được công bố cũng có nhiều sai sót. Tuy nhiên, những sai sót này chỉ ảnh hưởng đến phẩm chất khoa học của nghiên cứu, chớ ít khi nào ảnh hưởng đến kết luận của nghiên cứu.

Những sai sót này thường liên quan đến vấn đề thiết kế và phân tích. Cách chọn mẫu nghiên cứu không thích hợp hay thiếu hệ thống, tính toán sai về cỡ mẫu, phương pháp đo lường đơn sơ, và nhứt là sai sót về phân tích dữ liệu. Những sai sót về phân tích dữ liệu trong các nghiên cứu ở Việt Nam không phải là mới, vì đã được đề cập nhiều lần trong các nghiên cứu ở nước ngoài. Cách đây hơn 10 năm tôi có nêu ra những sai sót về thiết kế trên Tạp chí Thời sự Y học, nhưng cho đến nay tình hình vẫn còn nhiều sai sót.

Trong thế giới khoa học ngày nay, mức độ cạnh tranh để có công bố trên những tập san ‘chánh thống’ rất cao. Những tập san này thường đòi hỏi phẩm chất khoa học phải cao, nhứt là phương pháp phân tích phải đúng và cách trình bày phải chỉnh chu, chuyên nghiệp. Hi vọng rằng loạt bài giảng này sẽ giúp cho các đồng nghiệp nâng cao cơ may được công bố trên các tập san hàng đầu trên thế giới.