Thống kê mô tả là nền tảng của phân tích dữ liệu. Phương pháp này cung cấp cho nhà nghiên cứu những công cụ cần thiết để hiểu số liệu thống kê có sẵn. Nó cung cấp cái nhìn sâu sắc về các đặc điểm của dữ liệu, đó là cách chúng ta có thể dễ dàng diễn giải các tập dữ liệu mẫu lớn.

Nói một cách đơn giản, thống kê mô tả là cầu nối giữa dữ liệu thô và kết luận quan trọng. Khi chúng ta tóm tắt và sắp xếp một tập dữ liệu dựa trên các đặc điểm của nó, đặc biệt là trong nghiên cứu định lượng, chúng ta có thứ gì đó để làm, thứ gì đó hữu hình.

Đi sâu vào các định nghĩa và loại

Nếu bạn đang xử lý hàng tấn dữ liệu từ nghiên cứu định tính, bài đăng này sẽ đi sâu vào cách hoạt động của thống kê mô tả và cách bạn có thể thực hiện loại phân tích này.

Thống kê mô tả là gì?

Thống kê mô tả có dạng hệ số. Chúng tôi sử dụng những thông tin này để tóm tắt một tập dữ liệu, cho dù nó đại diện cho một mẫu hay toàn bộ tổng thể. Khi chúng tôi phân tích các tập hợp dữ liệu lớn, chúng tôi chia số liệu thống kê mô tả thành các thước đo khác nhau (độ biến thiên, xu hướng trung tâm, v.v.)

Trước khi đi sâu vào sự phức tạp của thống kê mô tả, hãy dành một phút để nói về các loại phân tích khác nhau. Có 4 loại chính giúp quá trình phân tích thành công và mỗi loại giải quyết một câu hỏi khác nhau:

  • Phân tích mô tả – Điều gì đã xảy ra?
  • Phân tích chẩn đoán – Tại sao điều đó xảy ra?
  • Phân tích dự đoán – Điều gì sẽ xảy ra tiếp theo?
  • Phân tích theo quy định – Chúng ta có thể làm gì để biến điều đó thành hiện thực?

Thống kê mô tả là gì

Phân tích dữ liệu là một quá trình lâu dài và phức tạp. Để có sẵn dữ liệu hữu ích, chúng ta cần thực hiện tất cả các bước cần thiết để phân tích dữ liệu đó. Ở một khía cạnh nào đó, nó tương tự như công việc của bác sĩ. Họ bắt đầu bằng việc kiểm tra bệnh nhân. Họ sử dụng thông tin để chẩn đoán vấn đề gây ra các triệu chứng của bệnh nhân. Sau đó, họ dự đoán điều gì sẽ xảy ra, tức là các triệu chứng thay đổi hoặc tiến triển như thế nào theo thời gian. Sau khi tất cả điều này được thực hiện, bác sĩ kê đơn điều trị.

Thống kê mô tả là điểm khởi đầu của cuộc hành trình.

Hãy tìm hiểu sâu hơn một chút về điều này.

Phân tích mô tả

Phân tích mô tả cho chúng ta biết điều gì đã xảy ra hoặc điều gì đang xảy ra. Để làm điều này, nó sử dụng các kỹ thuật như tính toán số liệu thống kê tóm tắt hoặc vẽ trực quan hóa dữ liệu.

Giả sử bạn sở hữu một công ty và muốn phân tích doanh thu. Giai đoạn này sẽ cho bạn biết về số lượng bán hàng trong một khoảng thời gian đã chọn (mỗi ngày, mỗi tháng), sự thay đổi về doanh số bán hàng theo cửa hàng và giá bán trung bình.

Phân tích chẩn đoán

Sau khi thống kê mô tả được thực hiện, bạn sẽ có nhiều câu hỏi hơn để trả lời. Bạn sẽ cần biết tại sao dữ liệu lại như vậy. Ví dụ: nếu có sự chênh lệch về doanh số bán hàng giữa các cửa hàng, phần này sẽ cho bạn biết lý do điều đó xảy ra.

Tại thời điểm này, bạn có thể liên kết dữ liệu với các nguyên nhân có thể, hình thành giả thuyết và kiểm tra mối quan hệ nguyên nhân và kết quả.

Phân tích tiên đoán

Bây giờ là lúc để đưa ra dự đoán. Phân tích dữ liệu cho bạn biết điều gì đã xảy ra và điều gì đang xảy ra ngay bây giờ. Sử dụng điều đó, bạn có thể đưa ra dự đoán về những gì có thể xảy ra nhất trong tương lai.

Phân tích theo quy định

Cuối cùng, đã đến lúc thực hiện những dự đoán và kế hoạch của bạn. Tại thời điểm này, bạn nên có ý tưởng về những gì bạn muốn đạt được, từ đó, bạn sẽ đưa ra các tình huống có thể xảy ra để cải thiện hiệu suất và dữ liệu của doanh nghiệp mình.

Ví dụ về thống kê mô tả

Khi bạn có sẵn dữ liệu định lượng, cho dù đó là dữ liệu từ nghiên cứu bạn cần cho trường học hay dữ liệu cho hoạt động của công ty bạn – phân tích mô tả là bước đầu tiên cần thực hiện.

Ví dụ thống kê mô tả đơn giản nhất là GPA. Điểm trung bình của học sinh lấy điểm dữ liệu từ các bài kiểm tra, cấp lớp và lớp học, rồi tìm điểm trung bình để hiểu kết quả học tập tổng thể của học sinh.

Các loại thống kê mô tả

Có 3 loại thống kê mô tả mà bạn nên biết:

  1. Biện pháp của xu hướng trung ương
  2. Các biện pháp phân phối
  3. Các biện pháp biến đổi

Hãy nói thêm một chút về sự khác biệt này.

1. Các biện pháp thiên hướng trung ương

Loại phân tích mô tả này tập trung vào giá trị trung bình hoặc trung bình của tập dữ liệu. Để so sánh, các thước đo về độ biến thiên tập trung vào độ phân tán dữ liệu.

Cả hai sử dụng bảng, biểu đồ và thảo luận nhằm giúp mọi người hiểu ý nghĩa của phân tích dữ liệu.

Khi phân tích tần suất của từng điểm dữ liệu, chúng tôi mô tả tần số đó bằng cách sử dụng giá trị trung bình, giá trị trung bình và chế độ. Đây là 3 cách để tìm xu hướng trung tâm, tức là mức trung bình.

Nghĩa

Cũng được đánh dấu là M, đây là phương pháp mà hầu hết các nhà phân tích sử dụng để tìm mức trung bình.

Làm thế nào để bạn tính toán nó?

Lấy tất cả các giá trị phản hồi và cộng chúng lại. Tiếp theo, chia tổng cho số câu trả lời.

Đây là một ví dụ:
Bộ dữ liệu: 8, 5, 10, 4, 12, 6, 9

Bước 1: Tìm tổng các giá trị phản hồi 8+5+10+4+12+6+9
Bước 2: Xác định tổng số câu trả lời N=7
Bước 3: Tính giá trị trung bình M= Tổng/N
Trung bình = 54/7= 7,71

Trung vị

Trung vị là giá trị ở giữa, số được đặt ở giữa tập dữ liệu. Để tìm thấy nó, bạn cần sắp xếp từng giá trị phản hồi theo kích thước – nhỏ nhất đến lớn nhất. Trung vị là ở giữa.

Trường hợp có 2 số ở giữa thì bạn cần tìm giá trị trung bình của 2 số đó. Hãy cho bạn một ví dụ.

Tập dữ liệu: 3, 8, 2, 10, 5, 12

Bước 1: Sắp xếp dữ liệu theo thứ tự tăng dần 2, 3, 5, 8, 10, 12
Bước 2: Tìm số ở giữa (trung vị) 5 và 8
Bước 3: Tính trung vị (5+8) / 2 = 13/ 2 = 6.5

Chế độ

Cuối cùng, chúng ta có chế độ. Lưu ý rằng một tập dữ liệu có thể không có chế độ. Nó có thể có một chế độ duy nhất – hoặc nhiều hơn một. Để tìm ra con số này, bạn cần tìm phản hồi thường xuyên nhất.

Hãy cùng xem qua các bước với ví dụ này:
Tập dữ liệu: 5, 2, 7, 2, 9, 2, 4, 7

Bước 1: Sắp xếp dữ liệu theo thứ tự tăng dần (không bắt buộc nhưng khuyến khích) 2, 2, 2, 4, 5, 7, 7, 9
Bước 2: Tìm phản hồi xảy ra thường xuyên nhất 2

Chế độ

2. Biện pháp phân phối

Khi chúng tôi đo mức phân phối, chúng tôi đo tần số của từng giá trị. Bất kỳ tập dữ liệu nào cũng được tạo thành từ các giá trị hoặc điểm số – được phân phối theo một cách cụ thể. Cho dù bạn chọn bảng hay biểu đồ, bạn đều có thể sử dụng số liệu thống kê mô tả để tóm tắt tần suất của bất kỳ giá trị hoặc biến nào theo tỷ lệ phần trăm – hoặc số.

Chúng tôi gọi đây là phân phối tần số.

Để giúp bạn hiểu rõ hơn về điều này, chúng tôi sẽ chỉ cho bạn 2 cách để trình bày mức phân bổ tần suất – một cách sử dụng số và cách còn lại sử dụng tỷ lệ phần trăm.

Trong trường hợp đầu tiên, những người trả lời trong một nghiên cứu được hỏi màu sắc yêu thích của họ là gì.

Màu sắc yêu thích Con số
Màu đỏ 56
Màu xanh da trời 89
Màu xanh lá 42
Màu tím 16

Trong bảng phân bổ tần số được nhóm, bạn sẽ thấy rằng các giá trị phản hồi bằng số được nhóm thành các phạm vi với tỷ lệ phần trăm được tính cho mỗi nhóm.

X Mua sản phẩm vào năm 2022 Phần trăm
0-4 6%
5-8 20%
9-12 42%
13+ 32%

Các biện pháp biến đổi

Loại thống kê mô tả thứ ba là thước đo độ biến thiên. Loại này đánh giá các giá trị phản hồi và cho thấy mức độ lan truyền của chúng. Khi đo lường sự thay đổi, chúng tôi xem xét 3 điều:

  • Phạm vi
  • Phương sai
  • Độ lệch chuẩn

Phạm vi sẽ cho bạn biết điểm phản hồi cao nhất và thấp nhất cách nhau bao xa. Đây là cách tính toán nó:
Tập dữ liệu: 10, 5, 15, 20, 25, 35, 30

Bước 1: Sắp xếp dữ liệu theo thứ tự tăng dần 3, 10, 15, 20, 25, 30, 35
Bước 2: Tính phạm vi 35 – 5 = 30

Phương sai là mức độ phân tán trong tập dữ liệu của bạn, tức là mức trung bình của độ lệch so với giá trị trung bình. Đây là cách tính toán nó:

Tập dữ liệu: 10, 20, 30, 40, 50

Bước 1: Tính giá trị trung bình (10 + 20 + 30 + 40 + 50) / 5 = 150 / 5 = 30
Bước 2: Tìm độ lệch trung bình (10 – 30) = -20
(20 – 30) = -10
(30 – 30) = 0
(40 – 30) = 10
(50 – 30) = 20
Bước 3: Bình phương mỗi độ lệch (-20)^2 = 400
(-10)^2 = 100
(0)^2 = 0
(10)^2 = 100
(20)^2 = 400
Bước 4: Tính giá trị trung bình của độ lệch bình phương, tức là phương sai (400 + 100 + 0 + 100 + 400) / 5 = 1000 / 5 = 200

Độ lệch chuẩn là mức độ biến thiên trung bình trong một tập dữ liệu. Nói cách khác, nó cho thấy điểm số nhất định cách xa điểm trung bình đến mức nào. Nếu độ lệch chuẩn lớn hơn thì tập dữ liệu có nhiều biến đổi hơn.

Quá trình này diễn ra như thế này:

Tập dữ liệu: 5, 10, 15, 20, 25

Bước 1: Tính giá trị trung bình (5 + 10 + 15 + 20 + 25) / 5 = 75 / 5 = 15
Bước 2: Tìm độ lệch so với giá trị trung bình (5 – 15) = -10
(10 – 15) = -5
(15 – 15) = 0
(20 – 15) = 5
(25 – 15) = 10
Bước 3: Bình phương độ lệch (-10)^2 = 100
(-5)^2 = 25
(0)^2 = 0
(5)^2 = 25
(10)^2 = 100
Bước 4: Tính giá trị trung bình của độ lệch bình phương, tức là phương sai (100 + 25 + 0 + 25 + 100) / 5 = 250 / 5 = 50
Bước 5: Tính độ lệch chuẩn Độ lệch chuẩn = √Phương sai = √50 ≈ 7,07

Sẵn sàng để thực hiện một số phân tích?

Thống kê mô tả là bước số một trong việc phân tích dữ liệu định lượng. Đó là cốt lõi, là nền tảng cho từng bước khác. Thường được sử dụng để tóm tắt các tập hợp thông tin lớn, đây là một cách tuyệt vời để biết kết quả của bạn thể hiện điều gì.

Câu hỏi thường gặp

Thống kê mô tả là gì?

Các loại thống kê mô tả khác nhau là gì?

Mục đích chính của thống kê mô tả là gì?