Về mẫu họ tên người SG01

[Cập nhật: 16/7/2022]

Mẫu họ tên người SG01 được tôi sử dụng để tạo ra các thống kê gồm:

Đây là mẫu bao gồm số lượng họ tên người lớn nhất mà tôi hiện có, bao gồm 241012 họ tên chủ yếu ở khu vực TP HCM và một số vùng lân cận. Trong đó có 124823 họ tên nam giới và 116189 họ tên nữ giới hợp lệ.

Mẫu thô ban đầu gồm 243963 họ tên nhưng được lọc để loại bỏ các họ tên không phù hợp, bao gồm:

  • Các họ tên có yếu tố nước ngoài, ví dụ họ tên người nước ngoài, họ tên của con lai giữa người Việt Nam và người nước ngoài;
  • Các họ tên sai lỗi chính tả mà không thể sửa được với độ tin cậy cao;
  • Các họ tên có năm sinh không phù hợp, chẳng hạn năm sinh không đúng là năm sinh thực, năm sinh nằm ngoài giới hạn được chọn;

Với mẫu chuẩn SG01 có khoảng 1% số lượng họ tên được sửa lỗi sai chính tả (*), bao gồm:

  • Lỗi dính từ. Ví dụ Nguyễn ĐứcAnh được sửa thành Nguyễn Đức Anh;
  • Lỗi thả dấu. Để thống nhất quy tắc thả dấu, ví dụ Tòan được sửa thành Toàn; Hùynh được sửa thành Huỳnh;
  • Các từ viết tắt rõ ràng, ví dụ Ng~ thành Nguyễn;
  • Loại bỏ các chú thích cuối tên như (HN), (1), (2), (SG),…thường có trong các họ tên trùng nhau trong nhóm hoặc chú thích thêm. Đây là kiểu chú thích chủ động, nhưng trong phân tích họ tên thì cần bỏ đi;
  • Và một số loại trừ lặt vặt khác;

(*): Sai chính tả có nhiều cấp độ. Nếu tính cấp độ nghiêm trọng nhất và khó sửa hơn như lỗi thiếu ký tự, sai dấu thì tỷ lệ rơi vào khoảng 0,3 – 0,5%. Lỗi thả dấu được xem là nhẹ vì đang còn tranh cãi đúng sai và lệ thuộc vào trình gõ tiếng Việt có các cài đặt mặc định thế nào. Lỗi dính từ thường không phải là chủ động trong văn bản họ tên người mà thường do thao tác kỹ thuật liên quan đến ghép tên họ khi người nhập liệu thao tác với văn bản. Tất nhiên nếu xét ở khía cạnh thống kê thì ba kiểu lỗi này nghiêm trọng như nhau vì đều làm sai lệch kết quả.

Đối với ngày tháng năm sinh, nó được chuẩn hóa về dạng dd/mm/yyyy. Tức là năm có 4 số, và nếu ngày hoặc tháng nhỏ hơn 10 sẽ được bổ sung số 0 đằng trước.

Việc chuẩn hóa và sửa các lỗi chính tả cơ bản giúp thống kê có kết quả chính xác hơn.

Ngôn ngữ lập trình được tôi sử dụng để thực hiện thống kê là PHP trên localhost để tận dụng sức mạnh của máy tính tại nhà và cũng để tiết kiệm tiền so với việc thuê VPS hoặc máy chủ.


SG01 chứa những dữ liệu nào?

Mẫu họ tên người chỉ chứa ba trường dữ liệu là:

  • Họ tên
  • Ngày tháng năm sinh
  • Giới tính

Đây là các trường dữ liệu cần và đủ để thống kê các thông tin liên quan đến họ tên người. Ngoài ra SG01 không chứa các dữ liệu khác.


Ưu và nhược điểm của mẫu họ tên SG01

a. Ưu điểm

  • Số lượng họ tên trong mẫu lớn, hơn 240 ngàn họ tên người;
  • Ngay mẫu thô dữ liệu đã khá chuẩn, với chỉ 1% lượng dữ liệu họ tên cần chỉnh sửa;
  • Dữ liệu ngày tháng và dữ liệu giới có tỉ lệ chính xác cao;
  • Dữ liệu nhìn chung có độ thống nhất cao về định dạng;
  • Phản ánh dữ liệu họ tên của người trẻ tuổi, với năm sinh được chọn từ 2007 đến 2011;

b. Nhược điểm

  • Mẫu chủ yếu bao gồm họ tên của người Kinh hoặc người dân tộc thiểu số hoặc người Việt gốc Hoa được thể hiện dưới dạng văn bản như tên của người Kinh. Các tên của người dân tộc thiểu số mà được thể hiện dưới dạng văn bản đặc trưng tiếng dân tộc không có trong mẫu này;
  • Mẫu năm sinh của họ tên không trải dải trong khoảng thời gian đủ lớn, chỉ trong vòng 5 năm, do vậy các thống kê quan trọng khác như sự tăng giảm mức độ phổ biến của một tên, đệm nào đó qua thời gian khó phát hiện. Điều này sẽ được khắc phục trong các mẫu dữ liệu họ tên khác khi đó chúng ta sẽ có các thống kê thú vị liên quan đến sự thay đổi của họ tên người qua thời gian;

Các chỉ số thống kê cơ bản khác của mẫu này

Tổng hàng dữ liệu (tất cả): 243963

Tổng dữ liệu họ tên hợp lệ (nam & nữ): 241012

Năm sinh từ 2007 đến 2011 là năm sinh hợp lệ được chọn.

Tổng dữ liệu họ tên nam hợp lệ: 124823

Tổng dữ liệu họ tên nữ hợp lệ: 116189

Tổng dữ liệu họ tên nam hợp lệ (có 2 từ): 1161

Tổng dữ liệu họ tên nữ hợp lệ (có 2 từ): 235

Tổng dữ liệu họ tên nam hợp lệ (có 3 từ): 90809

Tổng dữ liệu họ tên nữ hợp lệ (có 3 từ): 40366

Tổng dữ liệu họ tên nam hợp lệ (có 4 từ): 32635

Tổng dữ liệu họ tên nữ hợp lệ (có 4 từ): 75011

Tổng dữ liệu họ tên nam hợp lệ (có 5 từ): 215

Tổng dữ liệu họ tên nữ hợp lệ (có 5 từ): 565

Tổng dữ liệu họ tên nam hợp lệ (> 5 từ): 3

Tổng dữ liệu họ tên nữ hợp lệ (> 5 từ): 12

Tổng dữ liệu họ tên nam hợp lệ (có 3 – 5 từ / những tên có đệm): 123659

Tổng dữ liệu họ tên nữ hợp lệ (có 3 – 5 từ / những tên có đệm): 115942

Hợp lệ gồm: (1) họ tên đúng chính tả; (2) có ít nhất 2 từ; (3) ngày tháng năm sinh thực; (4) trong khoảng năm sinh được chọn [từ 2007 đến 2011]; (5) giới tính là nam hoặc nữ.

Mẫu SG01 là mẫu đầu tiên tôi dùng để tạo dữ liệu cho trang bầu.com (về gợi ý tên cho bé).