Trong bài viết gần đây, tôi đã tiến hành phân tích chỉ số phân biệt giới của đệm một và đệm hai nhằm giúp xác định giới của tên cũng như giúp chương trình gợi ý tên cho con đưa ra các đệm phù hợp hơn. Tuy nhiên trong bài viết đó ở phần cuối tôi cũng chỉ ra rằng, đó không phải là biện pháp hay nhất, do có sự khác biệt lớn về số lượng từ trong tên ở nam và nữ, trong khi nữ có khoảng 2/3 số lượng tên có 4 từ, thì nam chỉ khoảng 1/4 số lượng tên có 4 từ mà thôi. Để cải thiện độ chính xác tôi sẽ thống kê chỉ số phân biệt giới của đệm gần tên chính nhất, bất kể đó là đệm một hay đệm hai.
Ví dụ tên Nguyễn Đức Anh, và Lê Hoàng Vĩnh Thịnh thì đệm một lần lượt là Đức và Hoàng. Đệm hai thì tên đầu không có, tên thứ hai là Vĩnh. Đệm gần tên chính nhất lần lượt là Đức và Vĩnh.
Việc sử dụng đệm gần tên chính nhất sẽ làm cho vấn đề số lượng từ trong tên không còn là yếu tố can thiệp, hơn nữa đó cũng là dữ liệu đầu vào tiêu chuẩn của người dùng khi họ muốn xem một tên nào đó cho con, cháu mình, người dùng sẽ nhập đệm gần tên chính nhất + tên chính. Ví dụ trường hợp trên họ sẽ nhập Đức Anh hoặc Vĩnh Thịnh.
Về tỷ lệ đệm sát gần tên chính nhất ở nam và nữ bạn tham khảo bài viết này, nó cho thấy một đệm nào đó phổ biến như thế nào trong họ tên nam và nữ.
Khái niệm chỉ số phân biệt giới của đệm
Ví dụ chúng ta sẽ hiểu ngay. Chẳng hạn trong mẫu có 4440 người có đệm gần tên chính nhất là Bảo, trong đó có 3440 người sử dụng đệm Bảo là nữ, 1000 người sử dụng đệm Bảo trong tên là nam. Thế thì chỉ số phân biệt giới của đệm Bảo dành cho nữ là 3440 / 1000 = 3,44. Còn đối với nam sẽ là 1000 / 3440 = 0,29 (làm tròn đến số thập phân thứ hai).
Chỉ số phân biệt giới của đệm nữ
Trước tiên là chỉ số phân biệt giới của đệm gần tên chính nhất, trong 100 đệm phổ biến nhất ở nữ (riêng với kết quả -1 nghĩa là không tìm thấy bất cứ tên nam nào trong mẫu có đệm đó, điều đó cho thấy đây là đệm rất tốt để dùng làm tên cho nữ):
Thứ tự | Đệm gần tên chính nhất (nữ) | Chỉ số phân biệt giới (nữ / nam) |
1 | Bảo | 3.44 |
2 | Ngọc | 4.21 |
3 | Thanh | 1.65 |
4 | Phương | 14.96 |
5 | Minh | 0.42 |
6 | Kim | 12.5 |
7 | Khánh | 3.55 |
8 | Quỳnh | 200.86 |
9 | Gia | 0.43 |
10 | Như | 27.57 |
11 | Anh | 0.57 |
12 | Thảo | 155.42 |
13 | Mỹ | 149.79 |
14 | Yến | 214.62 |
15 | Hồng | 2.97 |
16 | Thùy | 142.06 |
17 | Tường | 16.06 |
18 | Hoàng | 0.24 |
19 | Thiên | 0.74 |
20 | Tuyết | 180.5 |
21 | Thu | 95.6 |
22 | Mai | 44.63 |
23 | Xuân | 1.28 |
24 | Trúc | 71.42 |
25 | Thúy | 422 |
26 | Bích | 96.09 |
27 | Hà | 12.49 |
28 | Ánh | 50.53 |
29 | Hải | 0.8 |
30 | Nhã | 93 |
31 | Kiều | 95.89 |
32 | Cẩm | 6.75 |
33 | Diễm | 95.5 |
34 | Lan | 150.4 |
35 | Tú | 22.58 |
36 | Vân | 23.45 |
37 | Thủy | 69.4 |
38 | Trâm | 200.33 |
39 | Trà | 118.2 |
40 | Thị | -1 |
41 | Huỳnh | 2.45 |
42 | Uyên | 93.17 |
43 | Hoài | 0.82 |
44 | Nhật | 0.19 |
45 | Cát | 16.45 |
46 | Tâm | 5.9 |
47 | Huyền | 66 |
48 | Hương | 55.5 |
49 | Linh | 14.17 |
50 | Khả | 9.16 |
51 | Ái | 56.43 |
52 | An | 0.98 |
53 | Diệu | 9.94 |
54 | Ngân | 27 |
55 | Thục | 94 |
56 | Quế | 18.6 |
57 | Kỳ | 1.39 |
58 | Tuệ | 12.53 |
59 | Đan | 6.03 |
60 | Thái | 0.21 |
61 | Tố | 75.67 |
62 | Lê | 0.41 |
63 | Bội | 31.14 |
64 | Đông | 1.17 |
65 | Phi | 0.41 |
66 | Hạnh | 22.11 |
67 | Uyển | -1 |
68 | Song | 3.76 |
69 | Nam | 0.38 |
70 | Huệ | 19.56 |
71 | Nguyệt | 86 |
72 | Ý | 18.33 |
73 | Mẫn | 8.2 |
74 | Nguyên | 0.19 |
75 | Phúc | 0.1 |
76 | Châu | 2.13 |
77 | Trang | 31.75 |
78 | Lam | 8.27 |
79 | Tiểu | 4.52 |
80 | Bình | 0.38 |
81 | Hiền | 3.89 |
82 | Lệ | 108 |
83 | Băng | 107 |
84 | Mộng | -1 |
85 | Đoan | -1 |
86 | Triệu | 0.83 |
87 | Hiểu | 2.61 |
88 | Việt | 0.13 |
89 | Thư | 89 |
90 | Vy | 21.75 |
91 | Hạ | 40.5 |
92 | Lâm | 0.43 |
93 | Thụy | 25 |
94 | Hiếu | 0.23 |
95 | Khải | 0.29 |
96 | Phụng | 14.2 |
97 | Diệp | 4.67 |
98 | Thy | 16.75 |
99 | Khiết | 5.45 |
100 | Hân | 18.67 |
Chỉ số phân biệt giới của đệm nam
Còn thông tin bên dưới đây dành cho đệm gần nhất ở tên nam (riêng với kết quả -1 nghĩa là không tìm thấy bất cứ tên nũ nào trong mẫu có đệm đó, điều đó cho thấy đây là đệm rất tốt để dùng làm tên cho nam):
Thứ tự | Đệm gần tên chính nhất (nam) | Chỉ số phân biệt giới (nam / nữ) |
1 | Minh | 2.37 |
2 | Gia | 2.32 |
3 | Hoàng | 4.1 |
4 | Quốc | 256.91 |
5 | Anh | 1.75 |
6 | Thanh | 0.6 |
7 | Thành | 328.92 |
8 | Tuấn | 377.2 |
9 | Tấn | 438.38 |
10 | Đức | 157.16 |
11 | Quang | 218.62 |
12 | Văn | 394.14 |
13 | Bảo | 0.29 |
14 | Nhật | 5.14 |
15 | Đăng | 81.57 |
16 | Duy | 56.55 |
17 | Thiên | 1.36 |
18 | Ngọc | 0.24 |
19 | Trung | 96.15 |
20 | Hữu | 136.93 |
21 | Trọng | 231.5 |
22 | Phúc | 10.4 |
23 | Tiến | 506.67 |
24 | Chí | 138.1 |
25 | Khánh | 0.28 |
26 | Hải | 1.25 |
27 | Huy | 97.17 |
28 | Đình | 34.91 |
29 | Xuân | 0.78 |
30 | Thái | 4.72 |
31 | Công | 177.83 |
32 | Trí | 110.67 |
33 | Thế | 100.89 |
34 | Phước | 18.52 |
35 | Phú | 49.65 |
36 | Hồng | 0.34 |
37 | Nguyên | 5.2 |
38 | Trường | 15.54 |
39 | Việt | 7.87 |
40 | Vĩnh | 17.13 |
41 | Hoài | 1.22 |
42 | Mạnh | 108.17 |
43 | Thiện | 14.45 |
44 | Lê | 2.43 |
45 | Phi | 2.45 |
46 | Nam | 2.61 |
47 | Phương | 0.07 |
48 | Bá | 221.5 |
49 | Đại | 103.5 |
50 | An | 1.02 |
51 | Kim | 0.08 |
52 | Khôi | 17.14 |
53 | Kiến | 48.71 |
54 | Hiếu | 4.36 |
55 | Nhựt | 12.04 |
56 | Bình | 2.61 |
57 | Cao | 24 |
58 | Vũ | 16.88 |
59 | Hùng | 84 |
60 | Khải | 3.41 |
61 | Chấn | 247 |
62 | Huỳnh | 0.41 |
63 | Viết | 43.6 |
64 | Hưng | 194 |
65 | Tùng | 5.39 |
66 | Đông | 0.86 |
67 | Phát | 180 |
68 | Kỳ | 0.72 |
69 | Hạo | 14.83 |
70 | Long | 25.29 |
71 | Nhất | 11 |
72 | Lâm | 2.3 |
73 | Vĩ | 32.2 |
74 | Thuận | 7.85 |
75 | Khang | 7.84 |
76 | Vinh | 24.67 |
77 | Sơn | 4.33 |
78 | Nguyễn | 6.71 |
79 | Quý | 3.29 |
80 | Khắc | 32.75 |
81 | Trần | 21.5 |
82 | Cẩm | 0.15 |
83 | Sỹ | 119 |
84 | Nhân | 6.5 |
85 | Triệu | 1.21 |
86 | Như | 0.04 |
87 | Tuần | -1 |
88 | Tường | 0.06 |
89 | Phong | 20 |
90 | Tần | -1 |
91 | Dương | 6.13 |
92 | Đắc | -1 |
93 | Hào | 43 |
94 | Danh | 17 |
95 | Triều | 3.4 |
96 | Hà | 0.08 |
97 | Tâm | 0.17 |
98 | Hòa | 7.8 |
99 | Sĩ | 35.5 |
100 | Hoàn | 1.48 |
Kết hợp chỉ số phân biệt giới của đệm và chỉ số phân biệt giới của tên, tôi thử viết hàm PHP đơn giản để xác định giới của tên đầu vào. Độ chính xác khi kiểm tra ngược cho kết quả khả quan, với hơn 92% kết quả trả về là đúng trong mẫu.