Giới thiệu sách mới “Mô hình hồi qui và khám phá khoa học”

Tôi rất hân hạnh giới thiệu đến các bạn một cuốn sách mới có tựa đề là “Mô hình hồi qui và khám phá khoa học” (có thể dịch sang tiếng Anh là “Regression models for discoveries“) do Nhà xuất bản TPHCM mới xuất bản. Tôi tin rằng các bạn sinh viên, nghiên cứu sinh, nhà nghiên cứu khoa học sẽ tìm thấy ở cuốn sách một số ý tưởng và phương pháp có ích cho việc làm phong phú và nâng cao chất lượng nghiên cứu của các bạn.

Đa số những ai làm nghiên cứu khoa học cũng đều biết đến hay nghe qua mô hình hồi qui tuyến tính. Đó là một mô hình rất phổ biến trong nghiên cứu khoa học, và ý tưởng bắt nguồn từ thế kỉ 19 khi nhà khoa học trứ danh Francis Galton muốn định lượng mối liên quan giữa chiều cao và yếu tố di truyền. Kể từ đó đến nay, mô hình hồi qui tuyến tính đã được phát triển và ứng dụng trong nhiều chuyên ngành khoa học. Trong cuốn sách này, bạn đọc không chỉ học về mô hình hồi qui tuyến tính, mà còn làm quen với những mô hình hồi qui ít được đề cập trong các sách giáo khoa căn bản như mô hình hồi qui logistic, hồi qui Cox, hồi qui nhị phân, hồi qui Poisson, v.v. Mỗi mô hình hồi qui thích hợp cho một tình huống cụ thể, và biết qua những ý tưởng đằng sau của mỗi mô hình giúp cho việc định lượng hoá những câu hỏi nghiên cứu tốt hơn.

Trong thời gian gần đây, những thuật ngữ mới như ‘data science‘ (khoa học dữ liệu), ‘machine learning‘ (máy hoá mô hình), ‘artificial intelligence‘ (trí năng nhân tạo), v.v. xuất hiện ngày càng dày đặc trong thế giới khoa học. Nhưng ít ai biết hay ghi nhận rằng một phần lớn đằng sau các danh từ ‘hào nhoáng’ đó là các mô hình hồi qui, lí thuyết và phương pháp thống kê học. Tuy nhiên, những cách tiếp cận vừa kể làm cho ứng dụng của các mô hình hồi qui thêm phong phú. Trong sách này, một số mô hình hồi qui cũng được triển khai theo mô thức của machine learning, và bạn đọc sẽ hiểu hơn về các khái niệm như calibrationdiscrimination.

Cuốn sách bao gồm 23 chương được chia thành 3 phần. Phần 1 bao gồm những vấn đề cơ bản như qui luật xác suất, hiển thị dữ liệu (data visualization), kiểm định giả thuyết và ngôn ngữ R. Phần 2 bao gồm 11 chương liên quan đến mô hình hồi qui tuyến tính, từ ý tưởng, cách ước tính đến các mô hình hồi qui đa thức và hồi qui ‘robust’. Phần 3 là những chương viết về các mô hình hồi qui logistic, Cox, Poission, và phân tích sống còn. Mỗi mô hình được minh hoạ bằng một dữ liệu nghiên cứu thực tế cùng các mã máy tính (dùng ngôn ngữ R) để bạn đọc có thể thực hành ngay. Một phần quan trọng trong mỗi chương là hướng dẫn cách diễn giải kết quả phân tích để bạn đọc cảm nhận được ý nghĩa đằng sau của mỗi phương pháp.

Tôi vẫn cho rằng mô hình là một cách suy nghĩ (mà có người gọi là ‘tư duy’) và đặt câu hỏi. Đó là những suy nghĩ về kiểm định giả thuyết, về lượng giá các mối tương quan, và về dự báo tương lai. Ở cấp độ định tính, chúng ta có thể suy nghĩ về câu hỏi có hay không có mối liên quan. Ở mức độ định lượng, chúng ta quan tâm đến mức độ liên quan là bao nhiêu. Ở mức độ chuyên sâu hơn, chúng ta hỏi mức độ liên quan có độc lập với các yếu tố khác trong qui luật tự nhiên. Các mô hình trình bày trong cuốn sách này giúp cho bạn đọc suy nghĩ và đặt câu hỏi chuyên sâu hơn cách suy nghĩ đơn giản.

Tiêu đề của cuốn sách là khám phá, và tôi nghĩ cần có đôi lời giải thích. Khám phá là niềm hân hoan của người làm khoa học. Thử tưởng tượng sau nhiều năm miệt mài nghiên cứu, bạn tạo ra được một bộ dữ liệu với hàng triệu biến thể gen, và phát hiện được biến thể nào có liên quan đến tuổi thọ phải nói là một khám phá có ý nghĩa. Để đi đến phát hiện đó, các mô hình hồi qui sẽ giúp cho bạn sàng lọc những tín hiệu từ dữ liệu lớn. Các mô hình hồi qui không chỉ là một phương tiện khám phá, mà còn một phương pháp dự báo rất hữu hiệu. Do đó, hiểu được những ý tưởng, và nắm vững những kĩ năng liên quan đến mô hình hồi qui là một nhu cầu không thể thiếu được trong nghiên cứu khoa học.

Tôi nghiệm ra rằng cách học phương pháp mới tốt nhứt là học từ các vấn đề thực tế qua những câu chuyện. Do đó, cuốn sách này được soạn thảo theo phong cách kể chuyện. Những câu chuyện được kể trong sách bao gồm câu chuyện về sự ra đời của ý tưởng tương quan (correlation) và mô hình hồi qui tuyến tính, những câu chuyện đằng sau các công trình nghiên cứu thú vị mà các mô hình hồi qui giúp giải đáp.

Đây là một cuốn sách tôi đã có ý soạn từ lâu, vì qua hàng trăm chương trình tập huấn ở Việt Nam trong thời gian 20 năm qua tôi nhận ra nhu cầu cho một cuốn sách thể loại này. Nhưng mãi đến khi đại dịch Covid-19 xảy ra, và tôi phải làm việc từ nhà, nên mới có thời gian viết cuốn sách. Nhân dịp này tôi trân trọng cảm ơn Tiến sĩ Trần Sơn Thạch (Viện nghiên cứu Garvan, Úc) và Tiến sĩ Hà Tấn Đức (Bệnh viện Đa khoa Trung ương Cần Thơ) đã giúp tôi thực hiện các chương trình tập huấn trong thời gian qua. Tiến sĩ Thạch đã đọc bản thảo đầu tiên và cho nhiều góp ý để cải tiến cuốn sách. Tôi cũng cảm ơn biên tập viên La Lan (Nhà xuất bản Tổng Hợp) đã chịu khó đọc, kiểm tra từng công thức và dàn trang cho cuốn sách. Tuy nhiên, nếu sách có sai sót, và tôi nghĩ chắc chắn có, thì trách nhiệm sau cùng là của tôi. Nếu tìm thấy sai sót, bạn đọc có thể viết email cho tôi để lần sau tái bản hoàn chỉnh hơn. Xin chân thành cám ơn các bạn trước.

Mỗi cuốn sách có thể ví von như là một người bạn thầm lặng. Tôi mong muốn cuốn sách “Mô hình hồi qui và khám phá khoa học” là một người bạn khoa học âm thầm bên cạnh bạn và các nghiên cứu của các bạn, hay nói theo Tiên điền tiên sinh, là mua vui cũng được một vài trống canh.

Có thể xem video giới thiệu tại:

Thông tin về sách:

Nhà xuất bản TPHCM

Số trang: 326 trang, khổ 18 x 25 cm

Giá bán: 150,000 đồng

Có thể mua tại nhiều nhà sách, kể cả trực tuyến và tại:

Các chủ đề được đề cập trong sách

  • Mô hình hồi qui tuyến tính, logistic, binomial, Poission, và Cox
  • Mô hình đa thức, spline, và robust regression
  • Hồi qui hồi qui logistic đa thức (polytomous logistic regression)
  • Hoán chuyển dữ liệu (data transformation)
  • Phân chia dữ liệu (data splitting)
  • Phương pháp tìm mô hình tối ưu
  • Phương pháp calibration, discrimination
  • Phương pháp bootstrap, k-fold cross-validation
  • LASSO, Ridge, Bayesian Model Averaging

Dữ liệu thực hành có thể download từ trang web sau đây:

https://github.com/tuanvnguyen/Regression-Book

Giới thiệu sách về R

Nhiều bạn đọc hỏi tôi cuốn “Phân tích dữ liệu với R” và “Phân tích dữ liệu với R: Hỏi và Đáp” có gì khác nhau. Tôi xin trả lời ngay là rất khác nhau. Như tựa đề sách hàm ý, cuốn thứ hai được soạn theo thể ‘vấn đáp’, còn cuốn thứ nhất được soạn theo kiểu sách giáo khoa. Cả hai cuốn — theo ý tôi — đều có ích cho các bạn đang làm nghiên cứu khoa học và phân tích dữ liệu từ những nghiên cứu khoa học.

1.

Cuốn “Phân tích dữ liệu khoa học với R” được soạn từ những năm 2000; sau này được soạn lại và do Nhà xuất bản Tổng Hợp ấn hành vào năm 2014. ‘Lịch sử’ cuốn sách đó khởi đầu từ một chương trình workshop ở Khoa Hoá, Đại học Bách Khoa SG với Nguyễn Hoàng Dũng (bây giờ chắc là giáo sư rồi) từ những năm cuối thể kỉ 20 (nói vậy cho … xưa). Sau vài workshop như vậy, tôi tự hỏi sao mình không soạn một cuốn sách để nhiều nguời có dịp tiếp xúc và học R. Thế là ngồi xuống viết. Thoạt đầu do Nhà xuất bản gì đó ngoài Bắc ấn hành, nhưng họ không quảng bá và cũng chẳng mặn mà gì, nên ít ai biết đến.

Sau này, tôi soạn hoàn toàn mới, với nội dung nhiều hơn và ví dụ nhiều hơn bản trước. Thật ra, tôi soạn cuốn đó trong những ngày … dưỡng bệnh ở nhà. Tôi giao cho Nhà xuất bản Tổng Hợp TPHCM ấn hành. Phải nói là tôi đã may mắn chọn đúng nhà xuất bản; dù là của Nhà nước, nhưng các bạn ở đây làm việc rất ư là ‘thị trường’ và đúng cách dân Sài Gòn.

Cuốn sách đó gồm 21 chương (hơn 500 trang), được chia thành 4 phần:

  • Phần đầu giới thiệu về R, cách đọc và biên tập dữ liệu.
  • Phần II là các phương pháp phân tích mô tả, như t-test, Ki bình phương phân tích bằng biểu đồ, và ANOVA.
  • Phần III là các phương pháp trong nhóm ‘hồi qui’, như linear regression logistic regression, Cox’s model, và mixed-effects model.
  • Phần IV là các phương pháp đa biến như factor analysis, principal component analysis, phân tích time series, bootstrap, và meta-analysis.

Mỗi chương có phần giới thiệu tổng quan về lí thuyết, và sau đó là những ví dụ cụ thể để thực hiện các phân tích bằng R. Chẳng hạn như khi bàn về phân tích tổng hợp (meta-analysis), tôi viết đôi ba dòng về lịch sử, và ý tưởng của mô hình phân tích (xem hình) và cách thực hiện bằng R. Ngoài ra, tôi thêm phần phụ lục bao gồm những câu lệnh (R gọi là ‘function’) để các bạn tham khảo. Tôi biết lần đầu học R, chúng ta rất dễ quên lệnh, nên phần phụ lục có thể giúp chúng ta tìm các lệnh một cách nhanh chóng.

Từ những ngày ‘khai phá’ đầu thế kỉ đến nay, Việt Nam đã có một (hay nhiều) cộng đồng sử dụng R. Hình như ngoài Bắc phát triển hơn trong Nam. Nhiều đại học và viện nghiên cứu cũng dùng R để giảng dạy cho sinh viên hay cho nghiên cứu khoa học. Đó là một xu hướng đúng, vì R đã trở thành một loại ngôn ngữ chuẩn trong khoa học thống kê. Có kĩ năng R giúp các bạn tìm việc dễ dàng hơn, và qua đó nâng cao năng lực ‘data analytics’ cho nước nhà.

Tôi nghĩ, cho đến nay, cuốn sách cung cấp tương đối đầy đủ các phương pháp phân tích thống kê cho nghiên cứu khoa học. Rất nhiều bạn đọc trong và ngoài nước cho biết cuốn sách đã giúp họ trong việc học hành và nghiên cứu. Cho đến nay, sách đã được tái bản và in lại 5 lần.

2.

Cuốn “Phân tích dữ liệu với R: Hỏi và Đáp” được soạn từ năm 2016 và xuất bản vào năm 2017. Ý tưởng cho cuốn sách này cũng xuất phát từ những chương trình tập huấn (workshops) về phân tích dữ liệu, mà theo đó, tôi thấy nhiều bạn không có thì giờ để tìm hiểu kĩ và học về R, nhưng họ có nhu cầu giải quyết những vấn đề rất thực tế và phải giải quyết nhanh (không cần học lí thuyết). Chẳng hạn như sau khi làm xong nghiên cứu, bạn muốn biết có mối liên quan giữa biến insulin và biến BMI, và cách thể hiện mối liên quan bằng biểu đồ. Cuốn sách này sẽ giải quyết câu hỏi đó nhanh và gọn.

Do đó, sách được soạn theo hình thức câu hỏi và trả lời. Chẳng hạn như câu hỏi:

Hỏi: Tôi có một dữ liệu gọi là “bone”. Tôi muốn thể hiện phân bố của mật độ xương fnbmd bằng biểu đồ hộp, phân chia theo giới tính (sex), nhưng thêm giá trị của mỗi đối tượng.

Đáp: Để giải đáp yêu cầu trên, chúng ta cần phải dùng package “ggplot2”:

library(ggplot2)

p = ggplot(bone, aes(x=sex, y=fnbmd, fill=sex))

p = p + geom_boxplot(aes(fill=sex), alpha=1)

p = p + geom_jitter(aes(color=sex, outlier.colour=”red”), size=1.5, alpha=0.5)

Có thể thay đổi giá trị alpha từ 0.1 đến 0.9 và kích thước size = 0.5 đến 1.5 chúng ta sẽ có biểu đồ khác.

Cuốn này bao gồm 18 chương (cũng hơn 500 trang) và cũng chia nội dung theo mô hình cuốn đầu tiên. Tuy nhiên, tôi có thêm 3 chương liên quan đến các phương pháp dịch tễ học, ước tính cỡ mẫu cho nghiên cứu khoa học, và những sai sót phổ biến trong phân tích dữ liệu. Cuốn này cũng đã in lại 3 lần.

Do đó, hai cuốn về R có nội dung rất khác nhau, dù tựa đề thì chỉ khác ở phần tiêu đề. Tôi tin rằng đối với các bạn cần học thống kê như là một môn học ứng dụng cho nghiên cứu khoa học, hai cuốn sách này khá đầy đủ cho nhu cầu căn bản của các bạn. Thật ra, một số chủ đề không hẳn là cơ bản, nhưng tôi cố gắng dùng ngôn ngữ dễ hiểu để các bạn cảm thấy thống kê học gần gũi, chứ không xa lạ như nhiều người nghĩa.

Ngoài ra, các bạn có thể tham khảo hơn 50 bài giảng tôi đã tải lên youtube để học kèm theo hai cuốn sách. Địa chỉ của các bài giảng là:

https://www.youtube.com/user/drnguyenvtuan/playlists