Khảo sát hình dạng phân phối của tập dữ liệu
Hình dạng phân phối của một tập dữ liệu có 3 dạng, lưu ý ở hình trên có đưa thêm điều kiện về Mode, đối với dữ liệu liên tục Mode ở đây được hiểu là khoảng chứa nhiều dữ liệu nhất, chứ không phải là điểm dữ liệu xuất hiện nhiều nhất. Ta có thể kết luận về hình dáng của phân phối dựa vào bảng dưới đây
Lệch trái | Mode>Median>Mean |
Đối xứng | Mode=Median=Mean |
Lệch phải | Mode<Median<Mean |
***Trong một số trường hợp, ta chỉ cần xét Median và Mean là đủ, xem ví dụ đối với biến X1
Dùng đồ thị Histogram, đồ thị stem-and-leaf và đồ thị boxplot và các độ đo thống kê để khảo sát hình dạng phân phối
Đồ thị histogram,stem-and-leaf và boxplot của biến T1
Dựa vào histogram ta có thể thấy hình dạng phân phối của T1 có dạng xấp xỉ đối xứng, nhưng đồ thị boxplot và stem-and-leaf ta lại thấy phân phối của T1 hơi lệch phải. Ta dùng thêm các đặc trưng số của T1 để có thêm thông tin:
Vì Mean>Median>Mode do đó ta có thể kết luận phân phối của T1 lệch phải
Bây giờ ta thử khảo sát biến X1, đầu tiên ta vẽ đồ thị histogram, stem-and-leaf và boxplot
Từ 3 đồ thị ta có thể dự đoán là đồ thị của biến X1 bị lệch trái, để có thêm thông tin ta tính các độ đo thống kê của biến X1
Ta thấy Mean<Median , nhưng giá trị mode chỉ là 5.4 . Nhắc lại rằng biến X1 là biến ngẫu nhiên nhận các giá trị liên tục, nên Mode ở đây được hiểu là khoảng chứa dữ liệu nhiều nhất, cụ thể mode ở đây phải thuộc khoảng từ 7 đến 8, trong khi SPSS trả về giá trị xuất hiện nhiều nhất. Cho nên ta vẫn có thể dựa vào Mean, Media để đưa ra kết luận là hình dáng phân phối của biến X1 lệch trái.