Chỉ số phân biệt giới của đệm gần tên chính nhất – thông tin đáng tin cậy hơn giúp xác định giới tính của tên

Trong bài viết gần đây, tôi đã tiến hành phân tích chỉ số phân biệt giới của đệm một và đệm hai nhằm giúp xác định giới của tên cũng như giúp chương trình gợi ý tên cho con đưa ra các đệm phù hợp hơn. Tuy nhiên trong bài viết đó ở phần cuối tôi cũng chỉ ra rằng, đó không phải là biện pháp hay nhất, do có sự khác biệt lớn về số lượng từ trong tên ở nam và nữ, trong khi nữ có khoảng 2/3 số lượng tên có 4 từ, thì nam chỉ khoảng 1/4 số lượng tên có 4 từ mà thôi. Để cải thiện độ chính xác tôi sẽ thống kê chỉ số phân biệt giới của đệm gần tên chính nhất, bất kể đó là đệm một hay đệm hai.

Ví dụ tên Nguyễn Đức Anh, và Lê Hoàng Vĩnh Thịnh thì đệm một lần lượt là Đức và Hoàng. Đệm hai thì tên đầu không có, tên thứ hai là Vĩnh. Đệm gần tên chính nhất lần lượt là Đức và Vĩnh.

Việc sử dụng đệm gần tên chính nhất sẽ làm cho vấn đề số lượng từ trong tên không còn là yếu tố can thiệp, hơn nữa đó cũng là dữ liệu đầu vào tiêu chuẩn của người dùng khi họ muốn xem một tên nào đó cho con, cháu mình, người dùng sẽ nhập đệm gần tên chính nhất + tên chính. Ví dụ trường hợp trên họ sẽ nhập Đức Anh hoặc Vĩnh Thịnh.

Về tỷ lệ đệm sát gần tên chính nhất ở nam và nữ bạn tham khảo bài viết này, nó cho thấy một đệm nào đó phổ biến như thế nào trong họ tên nam và nữ.


Khái niệm chỉ số phân biệt giới của đệm

Ví dụ chúng ta sẽ hiểu ngay. Chẳng hạn trong mẫu có 4440 người có đệm gần tên chính nhất là Bảo, trong đó có 3440 người sử dụng đệm Bảo là nữ, 1000 người sử dụng đệm Bảo trong tên là nam. Thế thì chỉ số phân biệt giới của đệm Bảo dành cho nữ là 3440 / 1000 = 3,44. Còn đối với nam sẽ là 1000 / 3440 = 0,29 (làm tròn đến số thập phân thứ hai).


Chỉ số phân biệt giới của đệm nữ

Trước tiên là chỉ số phân biệt giới của đệm gần tên chính nhất, trong 100 đệm phổ biến nhất ở nữ (riêng với kết quả -1 nghĩa là không tìm thấy bất cứ tên nam nào trong mẫu có đệm đó, điều đó cho thấy đây là đệm rất tốt để dùng làm tên cho nữ):

Thứ tự Đệm gần tên chính nhất (nữ) Chỉ số phân biệt giới (nữ / nam)
1 Bảo 3.44
2 Ngọc 4.21
3 Thanh 1.65
4 Phương 14.96
5 Minh 0.42
6 Kim 12.5
7 Khánh 3.55
8 Quỳnh 200.86
9 Gia 0.43
10 Như 27.57
11 Anh 0.57
12 Thảo 155.42
13 Mỹ 149.79
14 Yến 214.62
15 Hồng 2.97
16 Thùy 142.06
17 Tường 16.06
18 Hoàng 0.24
19 Thiên 0.74
20 Tuyết 180.5
21 Thu 95.6
22 Mai 44.63
23 Xuân 1.28
24 Trúc 71.42
25 Thúy 422
26 Bích 96.09
27 12.49
28 Ánh 50.53
29 Hải 0.8
30 Nhã 93
31 Kiều 95.89
32 Cẩm 6.75
33 Diễm 95.5
34 Lan 150.4
35 22.58
36 Vân 23.45
37 Thủy 69.4
38 Trâm 200.33
39 Trà 118.2
40 Thị -1
41 Huỳnh 2.45
42 Uyên 93.17
43 Hoài 0.82
44 Nhật 0.19
45 Cát 16.45
46 Tâm 5.9
47 Huyền 66
48 Hương 55.5
49 Linh 14.17
50 Khả 9.16
51 Ái 56.43
52 An 0.98
53 Diệu 9.94
54 Ngân 27
55 Thục 94
56 Quế 18.6
57 Kỳ 1.39
58 Tuệ 12.53
59 Đan 6.03
60 Thái 0.21
61 Tố 75.67
62 0.41
63 Bội 31.14
64 Đông 1.17
65 Phi 0.41
66 Hạnh 22.11
67 Uyển -1
68 Song 3.76
69 Nam 0.38
70 Huệ 19.56
71 Nguyệt 86
72 Ý 18.33
73 Mẫn 8.2
74 Nguyên 0.19
75 Phúc 0.1
76 Châu 2.13
77 Trang 31.75
78 Lam 8.27
79 Tiểu 4.52
80 Bình 0.38
81 Hiền 3.89
82 Lệ 108
83 Băng 107
84 Mộng -1
85 Đoan -1
86 Triệu 0.83
87 Hiểu 2.61
88 Việt 0.13
89 Thư 89
90 Vy 21.75
91 Hạ 40.5
92 Lâm 0.43
93 Thụy 25
94 Hiếu 0.23
95 Khải 0.29
96 Phụng 14.2
97 Diệp 4.67
98 Thy 16.75
99 Khiết 5.45
100 Hân 18.67


Chỉ số phân biệt giới của đệm nam

Còn thông tin bên dưới đây dành cho đệm gần nhất ở tên nam (riêng với kết quả -1 nghĩa là không tìm thấy bất cứ tên nũ nào trong mẫu có đệm đó, điều đó cho thấy đây là đệm rất tốt để dùng làm tên cho nam):

Thứ tự Đệm gần tên chính nhất (nam) Chỉ số phân biệt giới (nam / nữ)
1 Minh 2.37
2 Gia 2.32
3 Hoàng 4.1
4 Quốc 256.91
5 Anh 1.75
6 Thanh 0.6
7 Thành 328.92
8 Tuấn 377.2
9 Tấn 438.38
10 Đức 157.16
11 Quang 218.62
12 Văn 394.14
13 Bảo 0.29
14 Nhật 5.14
15 Đăng 81.57
16 Duy 56.55
17 Thiên 1.36
18 Ngọc 0.24
19 Trung 96.15
20 Hữu 136.93
21 Trọng 231.5
22 Phúc 10.4
23 Tiến 506.67
24 Chí 138.1
25 Khánh 0.28
26 Hải 1.25
27 Huy 97.17
28 Đình 34.91
29 Xuân 0.78
30 Thái 4.72
31 Công 177.83
32 Trí 110.67
33 Thế 100.89
34 Phước 18.52
35 Phú 49.65
36 Hồng 0.34
37 Nguyên 5.2
38 Trường 15.54
39 Việt 7.87
40 Vĩnh 17.13
41 Hoài 1.22
42 Mạnh 108.17
43 Thiện 14.45
44 2.43
45 Phi 2.45
46 Nam 2.61
47 Phương 0.07
48 221.5
49 Đại 103.5
50 An 1.02
51 Kim 0.08
52 Khôi 17.14
53 Kiến 48.71
54 Hiếu 4.36
55 Nhựt 12.04
56 Bình 2.61
57 Cao 24
58 16.88
59 Hùng 84
60 Khải 3.41
61 Chấn 247
62 Huỳnh 0.41
63 Viết 43.6
64 Hưng 194
65 Tùng 5.39
66 Đông 0.86
67 Phát 180
68 Kỳ 0.72
69 Hạo 14.83
70 Long 25.29
71 Nhất 11
72 Lâm 2.3
73 32.2
74 Thuận 7.85
75 Khang 7.84
76 Vinh 24.67
77 Sơn 4.33
78 Nguyễn 6.71
79 Quý 3.29
80 Khắc 32.75
81 Trần 21.5
82 Cẩm 0.15
83 Sỹ 119
84 Nhân 6.5
85 Triệu 1.21
86 Như 0.04
87 Tuần -1
88 Tường 0.06
89 Phong 20
90 Tần -1
91 Dương 6.13
92 Đắc -1
93 Hào 43
94 Danh 17
95 Triều 3.4
96 0.08
97 Tâm 0.17
98 Hòa 7.8
99 35.5
100 Hoàn 1.48

Kết hợp chỉ số phân biệt giới của đệm và chỉ số phân biệt giới của tên, tôi thử viết hàm PHP đơn giản để xác định giới của tên đầu vào. Độ chính xác khi kiểm tra ngược cho kết quả khả quan, với hơn 92% kết quả trả về là đúng trong mẫu.