The FIVE-NUMBER SUMMARY and the BOXPLOT

 1. SUMMARY STATISTICS

Summary statistics are numerical values for special features of a data distribution, such as the centre and spread.

Các số liệu thống kê tóm tắt là các giá trị số thể hiện các đặc điểm đặc biệt của phân bố dữ liệu, chẳng hạn như giá trị trung tâm và độ phân tán.

- The median (M) is a summary statistic that can be used to locate the centre of a distribution. It is the midpoint of a distribution, so that

50% of the data values are less than this value, and 50% are more. It is sometimes denoted as Q2.

Trung vị (M) là một số liệu thống kê tóm tắt có thể được sử dụng để xác định vị trí trung tâm của một phân bố. Nó là điểm giữa của một phân bố, sao cho 50% giá trị dữ liệu nhỏ hơn giá trị này và 50% lớn hơn. Nó đôi khi được ký hiệu là Q2.


- Quartiles are summary statistics that divide an ordered data set into four equal groups.

Tứ phân vị là các thống kê tóm tắt chia một tập dữ liệu được sắp xếp thành bốn nhóm bằng nhau.

  locate Q1, the first quartile, which is the median of the lower half of the observations.

     xác định Q1, tứ phân vị thứ nhất, là trung vị của nửa dưới của các quan sát.

  + locate Q3, the third quartile, which is the median of the upper half of the observations.

    xác định Q3, tứ phân vị thứ ba, là trung vị của nửa trên các quan sát.

EXAMPLE: 


The range (the maximum spread of the data values), and the interquartile range (the spread of the middle half of data values) as measures of spread.

Phạm vi (độ phân tán tối đa của các giá trị dữ liệu) và phạm vi liên tứ phân vị (độ phân tán của nửa giữa các giá trị dữ liệu) là các thước đo độ phân tán.



The five-number summary


2. THE BOXPLOT 

The five numbers statistics, or five-number summary are respectively minimum, first quartile (Q1), median (Q2), third quartile (Q3), and maximum.



- Khi vẽ biểu đồ hộp, bất kỳ quan sát nào được xác định là ngoại lệ đều được hiển thị bằng một dấu chấm.

- Các râu kết thúc ở các giá trị nhỏ nhất và lớn nhất không được phân loại là ngoại lệ.

EXAMPLE 1: Số anh chị em ruột của mỗi thành viên trong một lớp gồm 24 học sinh đã được ghi lại.


SOLUTION 
EXAMPLE 2: 
Số lượng vận động viên nhỏ nhất trên mỗi quốc gia sẽ hiển thị dưới dạng giá trị ngoại lệ trên biểu đồ hộp của dữ liệu này là
SOLUTION 
To determine the smallest number of athletes per country that would display as an outlier on a boxplot, we first need to calculate the Interquartile Range (IQR) and then use the outlier fences.
Ðể xác định số lượng vận động viên nhỏ nhất của mỗi quốc gia được hiển thị dưới dạng giá trị ngoại lệ trên biểu đồ hộp, trước tiên chúng ta cần tính Khoảng tứ phân vị (IQR) rồi sử dụng hàng rào giá trị ngoại lệ.
Given the five-number summary:
Minimum = 2
First quartile (Q1) = 5
Median = 11
Third quartile (Q3) = 48
Maximum = 613
First, calculate the Interquartile Range (IQR)
IQR = Q3 - Q1
IQR = 48 - 5 = 43

Next, calculate the lower and upper fences for outliers
Lower Fence: Q1-1.5×IQR.                               
Lower Fence = 5-1.5×43=5-64.5=-59.5
Upper Fence: Q3+1.5×IQR.                               
Upper Fence = 48+1.5×43=48+64.5=112.5

Then, identify outliers:  An observation is considered an outlier if it is less than the lower fence or greater than the upper fence.
Xác định giá trị ngoại lệ:  Một quan sát được coi là giá trị ngoại lệ nếu nó nhỏ hơn hàng rào dưới hoặc lớn hơn hàng rào trên.

Lower Outliers: A number of athletes less than -59.5 would be a lower outlier. Since the number of athletes must be a positive integer, there are no lower outliers possible in this context,nor are there any values in the given dataset that are less than -59.5 (the minimum is 2).
Giá trị ngoại lệ thấp hơn: Số lượng vận động viên ít hơn -59,5 sẽ là giá trị ngoại lệ thấp hơn. Vì số lượng vận động viên phải là số nguyên dương nên không có giá trị ngoại lệ thấp hơn nào có thể có trong bối cảnh này, và không có giá trị nào trong tập dữ liệu đã cho nhỏ hơn -59,5 (giá trị nhỏ nhất là 2).

Upper Outliers: A number of athletes greater than 112.5 would be an upper outlier. The smallest integer value greater than 112.5 is 113. Therefore, the smallest number of athletes per country that would display as an outlier on a boxplot of this data is 113.
Giá trị ngoại lệ trên: Số lượng vận động viên lớn hơn 112,5 sẽ là giá trị ngoại lệ trên. Giá trị số nguyên nhỏ nhất lớn hơn 112,5 là 113. 
Do đó, số lượng vận động viên nhỏ nhất của mỗi quốc gia được hiển thị dưới dạng giá trị ngoại lệ trên biểu đồ hộp của dữ liệu này là 113.

Option is C

EXERCISES
QUESTION 1

QUESTION 2

QUESTION 3

QUESTION 4

QUESTION 5

QUESTION 6



3. INTERPRETING BOXPLOTS
    3.1. Estimating percentages from a boxplot
           

QUESTION 7

QUESTION 8
QUESTION 9
                                      SOLUTION
Analyzing Box Charts and Frequency Charts
Phân tích biểu đồ hộp và biểu đồ tần số









    3.2. Relating a boxplot to shape
           3.2.1. A symmetric distribution
              A symmetric distribution tends to be centred on its median               and have values evenly spread around the median. As a result,             its boxplot will also be symmetric, its median is close to the               middle of the box and its whiskers are approximately equal in             length.
           Một phân phối đối xứng có xu hướng tập trung quanh giá               trị trung vị và có các giá trị phân bố đều xung quanh giá trị                 trung vị. Do đó, biểu đồ hộp của nó cũng sẽ đối xứng, giá trị               trung vị nằm gần giữa hộp và các râu của hộp có chiều dài                 xấp xỉ bằng nhau.
           

           3.2.2. Positively skewed distributions
               Positively skewed distributions are characterised by a                     cluster of data values around the median at the left-hand end               of the distribution with a gradual tailing off to the right.
               As a result, the boxplot of a positively skewed distribution               will have its median off-centre and to the left-hand side of its             box. The left-hand whisker will be short, while the right-hand             whisker will be long, reflecting the gradual tailing off of data             values to the right.
               Các phân phối lệch dương được đặc trưng bởi một cụm giá             trị dữ liệu xung quanh giá trị trung vị ở phía bên trái của phân             phối với sự giảm dần về phía bên phải.
               Do đó, biểu đồ hộp của một phân phối lệch dương sẽ có giá             trị trung vị nằm lệch tâm và ở phía bên trái của hộp. Râu bên               trái sẽ ngắn, trong khi râu bên phải sẽ dài, phản ánh sự giảm               dần của các giá trị dữ liệu về phía bên phải.
               
            
3.2.3. Negatively skewed distributions
                Negatively skewed distributions are characterised by
             a clustering of data values around the median at the
             right-hand end of the distribution, with a gradual tailing
             off of data values to the left.
                As a result, the boxplot of a negatively skewed
             distribution has the median off-centre and in the right hand                 side of its box. The right-hand whisker will be  short, while                 the left-hand whisker will be long, reflecting the gradual                     tailing off of data values to the left.
            Phân phối lệch âm được đặc trưng bởi sự tập trung các giá               trị dữ liệu xung quanh giá trị trung vị ở phía bên phải của                   phân phối, với sự giảm dần các giá trị dữ liệu về phía bên                   trái.
                 Do đó, biểu đồ hộp của một phân phối lệch âm có giá trị                 trung vị nằm lệch tâm và ở phía bên phải của hộp. Râu bên                 phải sẽ ngắn, trong khi râu bên trái sẽ dài, phản ánh sự giảm               dần các giá trị dữ liệu về phía bên trái.
                              

                  3.2.3. Distributions with outliers
                Distributions with outliers are characterised by large gaps                between the main body and data values in the tails. The                      histogram opposite displays a distributio with an outlier. In                  the corresponding boxplot, the box and whiskers represent                  the main body of data and the dot, separated by a gap from                  the box and whiskers, an outlier.
             Các phân phối có giá trị ngoại lệ được đặc trưng bởi                       khoảng cách lớn giữa phần chính và các giá trị dữ liệu ở                     phần đuôi. Biểu đồ tần số ở phía đối diện hiển thị một phân                 phối có giá trị ngoại lệ. Trong biểu đồ hộp tương ứng, hộp                   và  râu đại diện cho phần chính của dữ liệu và dấu chấm,                     được ngăn cách bởi một khoảng trống với hộp và râu, là một               giá trị ngoại lệ.
     About distribution:




Comparing the differences between boxplots 1 and 4






    EXERCISE


   











3.3. Using boxplots to describe a distribution

     Because of the wealth of information contained in a boxplot, it is an extremely powerful tool for describing the features of a distribution in terms of shape, centre, spread and outliers.
Do chứa đựng nhiều thông tin, biểu đồ hộp là một công cụ cực kỳ mạnh mẽ để mô tả các đặc điểm của một phân bố về hình dạng, tâm, độ phân tán và các giá trị ngoại lệ.

We found that from the histogram, it was difficult to give exact values for centre and spread, and to clearly identify outliers. This is much easier to do from a boxplot.
Chúng ta nhận thấy rằng từ biểu đồ tần số, rất khó để đưa ra các giá trị chính xác cho tâm và độ phân tán, cũng như xác định rõ ràng các giá trị ngoại lệ. Ðiều này dễ dàng hơn nhiều khi sử dụng biểu đồ hộp.





QUESTION 10

SOLUTION 

(a)  


Phân bố bị lệch âm (SHAPE) và không có giá trị ngoại lệ. Phân bố tập trung ở khoảng 42, giá trị trung vị (CENTRE). Ðộ phân tán (SPREAD) của phân bố, được đo bằng IQR, là 15 và, được đo bằng phạm vi (RANGE), là 47.

RECALL 
Biểu đồ hộp (a) bị lệch trái (trung vị nằm bên phải hộp)- đuôi kéo dài về phía bên trái của biểu đồ tần số (râu bên trái dài hơn); lệch bên nào thì phần đuôi của biểu đồ tần số nằm phía bên đó. 


EXTRA QUESTION: Draw the histogram matches to the boxplot above 
This distribution is left-skewed (negatively skewed).

+ 0 to 30: Mật độ dữ liệu: Rất thấp
Một đoạn dài gồm các thanh rất ngắn và phẳng.
+ 30 to 42: Mật độ dữ liệu: Trung bình 
Các cột bắt đầu tăng lên đáng kể.
+ 42 to 45: Mật độ dữ liệu: Cao nhất
Ðây là điểm cao nhất. Các cột cao nhất nằm ở đây vì 25% tổng số dữ liệu được dồn vào chỉ 3 đơn vị không gian.
+ 45 to 50: Mật độ dữ liệu: Giảm mạnh
Dữ liệu kết thúc nhanh chóng ở con số 47.
(b) 

Phân bố lệch dương (SHAPE) và không có giá trị ngoại lệ. Phân bố tập trung ở mức 800, giá trị trung vị (CENTRE). Ðộ phân tán của phân bố, được đo bằng IQR, là 1200 (SPREAD) và, được đo bằng phạm vi (RANGE), là 3200.

RECALL 
Biểu đồ hộp (b) bị lệch phải (trung vị nằm bên trái hộp)- đuôi kéo dài về phía bên phải của biểu đồ tần số (râu bên phải dài hơn); lệch bên nào thì phần đuôi của biểu đồ tần số nằm phía bên đó.

EXTRA QUESTION:  Draw the histogram matches to the boxplot above 
This one is right-skewed (positively skewed)


+ 0 to 800 (The Peak): The bars are tallest here. Because 50% of your data is compressed between 0 and 800 (the distance between the minimum and the median), the density is very high.
Từ 0 đến 800 (Ðỉnh): Các cột cao nhất ở đây. Vì 50% dữ liệu của bạn nằm trong khoảng từ 0 đến 800 (khoảng cách giữa giá trị nhỏ nhất và giá trị trung vị), nên mật độ rất cao.
+ 800 to 1600: The bars drop in height. The third quartile covers twice the distance (800 units) as the first two, so the data is half as dense.
Từ 800 đến 1600: Các cột giảm dần chiều cao. Tứ phân vị thứ ba bao phủ khoảng cách gấp đôi (800 đơn vị) so với hai tứ phân vị đầu tiên, do đó mật độ dữ liệu chỉ bằng một nửa.
+ 1600 to 3200 (The Tail): The bars become very low and flat. This long "whisker" represents the final 25% of the data spread over a very large range (1600 units), creating the classic "skewed" tail.
1600 đến 3200 (Phần đuôi): Các cột trở nên rất thấp và phẳng. "Râu" dài này thể hiện 25% dữ liệu cuối cùng trải rộng trên một phạm vi rất lớn (1600 đơn vị), tạo nên phần đuôi "lệch" kinh điển.


QUESTION 11

SOLUTION 



EXTRA QUESTION 11c 
         Draw the histogram matches to the boxplot below 

SOLUTION 



QUESTION 12

Taj đã ghi lại thời gian di chuyển đến trường đại học (tính bằng phút) mỗi ngày trong 60 ngày và tóm tắt dữ liệu trong biểu đồ hộp sau. Viết một báo cáo ngắn gọn mô tả sự phân bố thời gian di chuyển của anh ấy.

Thời gian trung bình mà Taj Mahal mất để đi đến trường đại học là bao nhiêu?

SOLUTION 



SUMMARY
The median time it takes Taj to travel to university is 70 minutes. The range is of the distribution of travel time is 60 minutes, but the interquartile range is only 15 minutes. The distribution of travel times is positively skewed with two outliers, unusually long travel times of 110 minutes and 120 minutes respectively.
Thời gian trung bình Taj đi đến trường đại học là 70 phút. Phạm vi phân bố thời gian di chuyển là 60 phút, nhưng phạm vi liên tứ phân vị chỉ là 15 phút. Phân bố thời gian di chuyển bị lệch dương với hai giá trị ngoại lệ, thời gian di chuyển dài bất thường lần lượt là 110 phút và 120 phút.



Frequency histogram












Comments

Popular posts from this blog

MEASURES OF CENTRE AND SPREAD

DATA ANALYSIS: INTERPRETATION