Về mẫu họ tên người DKL01

Mẫu họ tên người DKL01 thuộc tỉnh Đắk Lắk được dùng để thống kê các kết quả sau:

Mẫu thô bao gồm 234634 họ tên người, sau khi lọc để giữ lại dữ liệu họ tên thuần tiếng Việt và năm hợp lệ (1991 đến 2002) thì số lượng họ tên còn lại là 207299 họ tên gồm cả nam lẫn nữ. Trong đó:

  • Tổng dữ liệu họ tên nam hợp lệ: 90109
  • Tổng dữ liệu họ tên nữ hợp lệ: 117120

Ưu điểm

  • Dữ liệu lấy từ nguồn tin cậy, có độ ổn định cao, ít sai lỗi.
  • Dữ liệu lấy từ duy nhất một vùng địa lý. Điều này làm cho thống kê có tính rất đặc trưng vùng miền.
  • Số lượng mẫu tương đối lớn, với hơn 207 ngàn họ tên người.
  • Hơn 27 ngàn tên từ dữ liệu thô không đưa vào dữ liệu thống kê chính thức không phải do sai lỗi mà chủ yếu vì đó là họ tên người dân tộc thiểu số không thể hiện dưới dạng tiếng Việt (ví dụ các tên như MI Ê~UÔL, SA HĐƠK, vân vân…). Khi hệ thống phân tích hoàn thiện hơn chúng tôi sẽ tiến hành phân tích thêm các kiểu họ tên này.
  • Thời gian trải dài qua 12 năm, từ năm 1991 đến 2002 giúp cho việc phân tích các thay đổi trong cách đặt tên hiệu quả hơn. Để dễ hiểu, chúng tôi có mẫu họ tên SG01 cũng có chất lượng cao nhưng lại chỉ trải qua 5 năm nên các phân tích về biến đổi theo thời gian không thực sự rõ ràng.

Nhược điểm

  • Với các ưu điểm kể trên, mẫu DKL01 gần như không có nhược điểm nào. Nếu có mong muốn, chúng tôi chỉ mong là số lượng mẫu nhiều hơn nữa để các thống kê sát gần với thực tế và đưa ra được thêm nhiều phát hiện thú vị. Tuy nhiên trong bối cảnh hiện tại, chúng tôi khá hài lòng với số lượng mẫu này.

Như đã nói ở phần trước, chúng tôi cũng hy vọng sớm đưa thêm được các phân tích họ tên người dân tộc thiểu số, vì với các tỉnh có số lượng người dân tộc thiểu số đáng kể như Đắk Lắk thì thiếu sót này sẽ bỏ qua một số lượng tên tương đối lớn. Tuy nhiên đây không phải nhược điểm của mẫu, mà là điểm yếu của hệ thống phân tích thống kê hiện tại.


Thống kê tổng quan đầy đủ về mẫu này

Tổng hàng dữ liệu (tất cả): 234634

Tổng dữ liệu họ tên hợp lệ (nam & nữ): 207229

Tổng dữ liệu họ tên nam hợp lệ: 90109

Tổng dữ liệu họ tên nữ hợp lệ: 117120

Tổng dữ liệu họ tên nam hợp lệ (có 2 từ): 1445

Tổng dữ liệu họ tên nữ hợp lệ (có 2 từ): 206

Tổng dữ liệu họ tên nam hợp lệ (có 3 từ): 81686

Tổng dữ liệu họ tên nữ hợp lệ (có 3 từ): 46031

Tổng dữ liệu họ tên nam hợp lệ (có 4 từ): 6904

Tổng dữ liệu họ tên nữ hợp lệ (có 4 từ): 70396

Tổng dữ liệu họ tên nam hợp lệ (có 5 từ): 70

Tổng dữ liệu họ tên nữ hợp lệ (có 5 từ): 468

Tổng dữ liệu họ tên nam hợp lệ (> 5 từ): 4

Tổng dữ liệu họ tên nữ hợp lệ (> 5 từ): 19

Tổng dữ liệu họ tên nam hợp lệ (có 3 – 5 từ / những tên có đệm): 88660

Tổng dữ liệu họ tên nữ hợp lệ (có 3 – 5 từ / những tên có đệm): 116895

Hợp lệ gồm: (1) họ tên đúng chính tả; (2) có ít nhất 2 từ; (3) ngày tháng năm sinh thực; (4) trong khoảng năm được chọn; (5) giới tính là nam hoặc nữ.

Ảnh minh họa đầu bài của tác giả David Brewer: Thác Dray Nur, Đắk Lắk flickr.com/photos/breweruk/9572560669/