Xếp hạng nhà khoa học và tự trích dẫn

Hôm qua, một nhóm bạn chuyền nhau thông tin vui về một số (n = 28) nhà khoa học Việt Nam hay gốc Việt Nam (như tôi chẳng hạn, n = 80) có tên trong “top 10.000 nhà khoa học hàng đầu thế giới” [1]. Tôi thử tò mò phân tích dữ liệu từ danh sách này thì phát hiện 25 trong số 28 người ở Việt Nam có tỉ lệ tự trích dẫn quá cao, nhưng báo chí không rõ điều này.

May be an image of one or more people and text that says 'GIÁO DỤC LĐO 25/10/2021 11:19 Thích Nhiều nhà khoa học Việt Nam vào top 10.000 thế giới Chia 147 người thích ná dung này. Đãng kydể xem những bạn của thích. Có 28 nhà khoa học người Việt đang công tác tại Việt Nam lọt vào bảng xếp hạng top 100.000 nhà khoa học có ảnh hưởng nhất thế giới trong năm 2021. Phương án đón học sinh trở trường của các địa phương trên cả nước'

bao nhiêu nhà khoa học trong danh sách?

Danh sách năm nay có 186,177 nhà khoa học trên thế giới. Danh sách này có điểm hay là điều chỉnh cho chuyên ngành, cho nên những ngành ít trích dẫn (như toán chẳng hạn) vẫn được hiệu chỉnh cho công bằng với các ngành khác.

Trong số hơn 186,000 người, Việt Nam có 53 người. Nhưng trong số 53 người, 25 người là người ngoại quốc đang công tác hay có hợp đồng làm việc ở các đại học Việt Nam. Do đó, tính đúng ra, Việt Nam có 28 nhà khoa học Việt trong danh sách.

Ngoài ra, còn có 120 nhà khoa học gốc Việt ở nước ngoài. Trong số này, gần phân nửa (n = 58) là từ Mĩ. Số còn lại là từ Úc (18 người), Canada (10), Pháp (8 ), Anh (5), v.v. Như vậy, tính chung thì có chừng 28 + 120 = 148 [3] nhà khoa học Việt Nam hay gốc Việt Nam có tên trong danh sách 100,000 nhà khoa học được xem là đỉnh. Các bạn có thể download danh sách từ đường link dưới đây:

https://github.com/tuanvnguyen/General-datasets/tree/main (tên file: “2021 Fin VNese authors career for R.xlsx”)

Trong số 148 người, chủ yếu phân bố theo 6 chuyên ngành chánh như sau (Biểu đồ 1):

  • Công nghệ thông tin & viễn thông: 33 người
  • Kĩ thuật (engineering): 28
  • Y học lâm sàng: 22
  • Enabling & Strategic Technologies: 19
  • Vật lí và thiên văn học: 14
  • Hoá học: 8

Biểu đồ 1: Phân bố của 108 nhà khoa học Việt Nam hay gốc Việt Nam theo lãnh vực nghiên cứu. Đa số tập trung vào công nghệ thông tin & viễn thông, kĩ thuật, enabling & strategic Technologies, y học lâm sàng, vật lí và thiên văn học.

Đằng sau danh sách

Nguyên văn tác giả viết là “100,000 top scientists” [4], hay có khi là “most-cited scientists” (tức những nhà khoa học được trích dẫn nhiều). Theo tôi thì cách định danh ‘most cited‘ chính xác hơn là ‘top’, vì quả thật nhóm xếp hạng dựa vào những con số về trích dẫn (tức citation).

Chính vì dựa vào số trích dẫn nên danh sách này có cái khiếm khuyết của nó. Thông thường thì một công trình nghiên cứu sau khi công bố và được nhiều đồng nghiệp trích dẫn sau đó, thì đó là tín hiệu công trình nghiên cứu có phẩm chất cao. ‘Phẩm chất’ ở đây hiểu theo nghĩa công trình nghiên cứu có tính khoa học cao (như thiết kế, phân tích), ý tưởng hay, kết quả quan trọng, và do đó có tác động đến chuyên ngành. Nếu không có tác động hay tánh khoa học kém thì chẳng ai trích dẫn. Trong thực tế, rất nhiều (có thể lên đến 70%) những bài báo công bố chưa bao giờ được trích dẫn.

Nhưng số trích dẫn rất dễ bị lạm dụng, và trong thực tế đã bị lạm dụng rất nhiều. Điều này thì tôi đã nói và viết cả 10 năm nay rồi, nhưng lúc đó ít người chú ý (vì lúc đó Việt Nam chưa quan tâm đến công bố khoa học). Trong mấy năm gần đây, sự lạm dụng này trở thành một hiện tượng khi các nước đang phát triển ở Á châu, Trung Đông, và Nam Mĩ cố gắng đuổi kịp các đồng nghiệp phương Tây nên họ sáng tạo ra rất nhiều cách thức để nâng số trích dẫn. Những cách này có khi trở thành một nét văn hoá ở vài nhóm, và nó không nhứt quán với qui ước đạo đức nghiên cứu khoa học.

Tự trích dẫnself-citation

Cách để lạm dụng citation thì rất nhiều, nhưng cách phổ biến nhứt là tự mình trích dẫn bài của mình! Thông thường, tác giả có thể tự trích dẫn bài của mình để làm tiền đề cho nghiên cứu hiện hành, hoặc vì lãnh vực mà tác giả làm là tiên phong (ít ai làm), thì tự trích dẫn không có vấn đề gì. Ví dụ như công trình nghiên cứu “Vietnam Osteoporosis Study” (VOS) của chúng tôi được trích dẫn vài lần là do những bài báo lấy dữ liệu từ đó phải trích dẫn VOS, và điều này hoàn toàn hợp lí. Tuy chẳng có qui định cụ thể, nhưng đa số người trong giới khoa học cho rằng tỉ lệ tự trích dẫn có thể chấp nhận được là dưới 12%.

Thế nhưng trong thực tế, có khá nhiều nhà khoa học tự trích dẫn hơn 15%. Theo danh sách ‘most-cited scientists‘ năm 2019 có đến 250 người với tỉ lệ tự trích dẫn cao hơn 50%. Nói cách khác, cứ 100 trích dẫn họ có được là từ … chính họ. Theo bài báo trên Nature [5], người vô địch về tự trích dẫn là Sundarapandian Vaidyanathan (nhà khoa học máy tính từ Ấn Độ) vì ông có tỉ lệ tự trích dẫn lên đến 94%!

Nhìn chung, các nước như Iran, Ấn Độ (và nay là Việt Nam) có tỉ lệ tự trích dẫn cao hơn thế giới (Biểu đồ 2).

Biểu đồ 2: So sánh tỉ lệ tự trích dẫn ở một số nước: Úc, Canada, Pháp, Ấn Độ, Iran, Mĩ và Việt Nam. Việt Nam và Iran có tỉ lệ tự trích dẫn cao hơn hẳn các nước khác trong bảng so sánh. Đường màu đỏ là trung bình trên thế giới (12%).

Còn tình hình Việt Nam thì sao? Trong số 28 người có tên trong danh sách năm 2021, thì 25 (gần 90%) người có tỉ lệ tự trích dẫn cao hơn 12%. Tỉ lệ tự trích dẫn trung bình của các nhà khoa học từ Việt Nam là 25.6%, cao gấp hơn 2 lần so với tỉ lệ ở người gốc Việt Nam ở Mĩ (13.9%) (xem Biểu đồ 3). Có vài người có tỉ lệ tự trích dẫn trên 40%.

Biểu đồ 3: So sánh tỉ lệ tự trích dẫn của các nhà khoa học Việt Nam hay gốc Việt Nam theo quốc gia công tác: Úc, Áo, Canada, Đức, Pháp, Anh, Nam Hàn, Na Uy, Ba Lan, Singapore, Thái Lan, Mĩ và Việt Nam. Biểu đồ cho thấy các nhà khoa học VN hay gốc VN ở Đài Loan (twn), Ba Lan (pol) có tỉ lệ tự trích dẫn khá cao so với trung bình thế giới 12%.

Ép trích dẫn

Chiêu trò này được gọi là coercive citation. Nó thường xảy ra ở những kẻ có quyền thế trong thế giới xuất bản khoa học. Chẳng hạn như các chuyên gia bình duyệt vì muốn nâng cao số trích dẫn, khi bình duyệt bài báo của tác giả khác, họ yêu cầu hay gợi ý tác giả phải trích dẫn bài báo của họ. Tác giả vì không muốn làm phật lòng chuyên gia bình duyệt nên đành phải trích dẫn. Có khi bài báo được trích dẫn chẳng liên quan gì đến chủ đề bài báo của tác giả. Đây là chiêu trò khá phổ biến, đặc biệt là các chuyên gia từ các nước đang phát triển.

Một chiêu trò khác là dùng vị trí biên tập để nâng cao số trích dẫn cho tập san. Chẳng hạn như các ban biên tập ra yêu cầu hay gợi ý tác giả phải trích dẫn những bài báo được công bố trên tập san của họ. Cách làm này nâng cao chỉ số trích dẫn cho tập san và tăng chỉ số gọi là ‘Impact Factor’ (IF). Đây là một cách thức gian lận, và rất phổ biến ở những tập san mới từ các nước đang phát triển. Có những tập san ở Á châu mới ra đời chưa đầy 5 năm nhưng trở thành tập san Q1 (top 25% trong ngành) trong khi các tập san Âu Mĩ ra đời cả 50 năm có khi chưa đạt được vị trí đó.

Citation cartel — tập đoàn trích dẫn

Một hình thức khác để nâng số lần trích dẫn là dùng tập đoàn, giống như tập đoàn buôn bán á phiện, nên mới có tên là ‘citation cartel‘. Theo chiêu này, các tác giả liên kết với nhau thành một mạng, và họ trích dẫn lẫn nhau. Anh trích dẫn bài của tôi; tôi trả nghĩa bằng cách trích dẫn bài của anh; đôi bên cùng có lợi.

Hiện tượng ‘Tập đoàn trích dẫn’ này đã diễn ra hơn 10 năm qua, nhưng chỉ phổ biến trong thời gian gần đây khi các nhà phân tích phát hiện. Cách làm này được xem như là một mafia trong khoa học.

Salami publication — tăng số bài công bố

Một hiện tượng khác có liên quan đến tăng trích dẫn là tăng số bài báo khoa học. Họ hi vọng rằng số bài báo càng nhiều thì số trích dẫn trước sau gì thì cũng gia tăng. Những người này không quan tâm đến chất lượng. Do đó, con số trích dẫn nhiều khi không phản ảnh chất lượng nghiên cứu khoa học.

Trong nghiên cứu khoa học, có khái niệm ‘least publishable unit’ (LPU) để xác định cái gì có thể công bố và cái gì không nên công bố. Nói một cách nôm na, LPU là lượng thông tin tối thiểu cần thiết cho một bài báo khoa học.

Các nhà khoa học nghiêm chỉnh và được huấn luyện bài bản không công bố những nghiên cứu mà họ xem là chưa đủ thông tin. Họ chờ đến khi nghiên cứu xong hay thí nghiệm đã hoàn tất rồi mới công bố một bài đầy đủ. Do đó, những người này thuờng công bố ít bài báo, nhưng bài nào cũng có tầm vóc quan trọng của nó. Người trong ngành chỉ đọc là biết tính công phu và qui mô ra sao. Những công trình này thường chỉ công bố trên các tập san lớn trong chuyên ngành hay trong khoa học.

Nhưng ngày nay, có những người (không biết nên gọi là ‘nhà khoa học’) không hiểu gì về LPU, hay hiểu chút chút, và lạm dụng công bố khoa học. Họ có xu hướng công bố những bài báo mà thông tin rất ít, hay những bài báo mà nói theo cách nói dân dã là ‘không mợ thì chợ vẫn đông‘ (ý nói chẳng có tác động gì đáng kể). Tôi đã từng thấy những người như thế ở Úc này. Có người chưa xong luận án tiến sĩ nhưng trong vòng 3 năm họ đã công bố hơn 30 bài báo! Không cần nói ra, 30 bài đó không bằng 1 bài nghiêm chỉnh.

Có người thì áp dụng chiến thuật ‘salami publication‘. Salami là một loại nem chua cay xônh khói của Ý được gói thành một thỏi như chả lụa của chúng ta. Người ta hay cắt thành từng khoanh nhỏ để ăn với bánh mì. Một thỏi salami có thể cho ra 20-30 khoanh nhỏ. Chiến thuật công bố kiểu salami có nghĩa là nhà khoa học cắt một nghiên cứu thành nhiều mảng nhỏ nhỏ, và mỗi mảng là một bài báo.

Có những người quá tuyệt vọng để có nhiều bài báo, nên họ công bố hàng chục bài báo nhỏ (kiểu tiểu đường và hút thuốc lá, tiểu đường và bia rượu, tiểu đường và vận động thể lực, tiểu đường và gen A, tiểu đường và gen B, v.v.) thay vì theo thông lệ chỉ 1 bài báo là đủ.

Tuy nhiên, cần phân biệt với những trường hợp nghiên cứu lớn, và người ta có thể công bố hàng trăm bài báo khác nhau. Mỗi bài báo giải quyết một giả thuyết khác nhau và phương pháp khác nhau. Công bố trong trường hợp đó là hợp lí, không phải là salami publication.

“Research parasite”

Lại có người không trực tiếp làm nghiên cứu, nhưng công bố rất nhiều nhờ vào dữ liệu của người khác. Họ không có ý tưởng gì mới, họ chỉ thu thập những bài báo đã công bố về một chủ đề trong quá khứ, rồi làm dùng phương pháp thống kê tổng hợp thành một bài báo khoa học và công bố dưới dạng gọi là ‘meta-analysis‘. Có những người công bố hàng trăm bài báo loại này!

Cách làm này phổ biến đến độ người ta (như ở China) lập ra công ti để bán bài báo. Họ chuyên làm những meta-analysis, viết thành bản thảo, và bán bản thảo cho những người có nhu cầu. Một bài như thế có giá từ 2000 USD đến 5000 USD, và công ti bảo đảm chỉ lấy phí khi bài báo đã được công bố.

Thành ra, meta-analysis đã bị lạm dụng và lợi dụng quá nhiều. Thoạt đầu, meta-analysis được xem là một ‘bài báo khoa học‘, nhưng sau này nó bị lạm dụng quá nên các tập san không xem đó là một nghiên cứu. Trong khoa học, người ta gọi hiện tượng này là ‘research parasite‘.

Tuy nhiên, cần phân biệt những bài báo tuy dùng dữ liệu của người khác, nhưng tác giả có ý tưởng mới hay cách tiếp cận mới hay phương pháp mới, thì vẫn xem là một bài báo khoa học. Có thể xem đây là một dạng ‘research parasite’ nhưng là dạng đáng kính nể, không giống như loại chỉ chuyên ăn bám dữ liệu người khác mà không có ý tưởng mới.

Tóm lại

Những dữ liệu về trắc lượng khoa học năm nay (2021) cho thấy Việt Nam đã tăng số lượng nhà khoa học có tên trong danh sách những người được trích dẫn nhiều trên thế giới. Tuy nhiên, tỉ lệ tự trích dẫn của các nhà khoa học trong danh sách này cao hơn gấp 2 lần so với tỉ lệ có thể chấp nhận được (12%). Tự trích dẫn quá cao cũng giống như chứng ái kỉ (narcissism), tức tự thấy mình đẹp, và điều này cần phải tránh trong khoa học nghiêm chỉnh.

________

[1] https://dantri.com.vn/giao-duc-huong-nghiep/5-nha-khoa-hoc-viet-nam-vao-top-10000-nha-khoa-hoc-hang-dau-the-gioi-20211025064656827.htm#dt_source=Home&dt_campaign=MainList&dt_medium=14

[2] https://elsevier.digitalcommonsdata.com/datasets/btchxktzyw/3

[3] Tôi viết ‘chừng 108’ là vì chắc không đủ do chỉ đếm họ mà chưa tính đến những người dùng tên (thay vì họ) trong bài báo

[4] https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3000384

[5] https://www.nature.com/articles/d41586-019-02479-7

[6] https://github.com/tuanvnguyen/General-datasets/tree/main