Excel - Understanding distribution charts for a series of values Tutorial

  • 8:31
  • 243 views
00:00:02
This tutorial is based on understanding
00:00:05
distribution charts for a series of values
00:00:08
To summarize the distribution
00:00:09
of a numeric value,
00:00:11
you may use the histogram chart,
00:00:13
or the box and whisker chart, or both.
00:00:15
Let's start with the histogram chart.
00:00:17
What is it used for?
00:00:19
This popular graphing tool is used to
00:00:21
summarize discrete or continuous data
00:00:23
that are measured on an interval scale.
00:00:26
It is often used to illustrate the major
00:00:28
features of the distribution of the
00:00:30
data in a convenient form, a histogram
00:00:32
Basically shows frequencies for intervals
00:00:34
of values of a metric variable.
00:00:37
Such intervals is known as bins
00:00:39
and they all have the same widths.
00:00:41
In this example before us it uses 4
00:00:44
to 5 centimeter as it's been widths.
00:00:47
On the Y axis we have the number of
00:00:50
people and on the X axis we have the
00:00:52
range of heights for each group.
00:00:55
Basically it shows or marks the
00:00:57
number of people in each height range.
00:00:59
Here the highest shows the largest
00:01:02
Number of people there are between the
00:01:05
height of 1 meter 78 to 1 meter 83.
00:01:08
The tiniest group less than two over
00:01:12
here displays the tallest people between
00:01:15
1 meter 87 to 1 meter 92 roughly.
00:01:19
So it goes from the shortest to the tallest.
00:01:22
But the largest group that has this
00:01:24
range of height is located here.
00:01:26
So what is the difference between
00:01:28
bar graph and histogram?
00:01:30
In our previous tutorials we saw that a bar.
00:01:33
Graph is the graphical representation of
00:01:36
categorical data using rectangular bars,
00:01:39
where the length of each bar is
00:01:41
proportional to the value they represent.
00:01:43
A histogram on the other hand is the
00:01:46
graphical representation of data,
00:01:47
where data is grouped into continuous
00:01:50
number ranges and each range
00:01:53
corresponds to a vertical bar.
00:01:56
So what are the disadvantages of a histogram?
00:01:58
Well,
00:01:59
some of the demerits are that
00:02:01
we cannot read exact values.
00:02:03
Because data is grouped into categories,
00:02:06
it is also more difficult to
00:02:08
compare 2 datasets.
00:02:10
And we can only use this
00:02:12
chart with continuous data.
00:02:14
So now let's move on to box and Whisker.
00:02:17
So what is a box and whisker chart?
00:02:19
It shows the distribution of
00:02:21
data for a continuous variable.
00:02:22
How are these charts used?
00:02:24
They help you see the center
00:02:26
and spread of data.
00:02:27
You can also use them as a visual
00:02:29
tool to check for normality or to
00:02:31
identify points that may be outliers.
00:02:34
The dots would be outliers.
00:02:36
Here we have two boxes,
00:02:37
the blue one represent the men population,
00:02:40
the orange one represents the
00:02:42
women population,
00:02:42
the Y axis still showing the
00:02:44
height and I imagine the X axis
00:02:47
which show the number of people.
00:02:49
So each box shows the largest
00:02:52
group of people that are between
00:02:54
a range of height and.
00:02:57
So inside the box you have a median line,
00:02:59
not the average,
00:03:00
it just says how many are the
00:03:02
largest group that is between.
00:03:04
Will say 1 meter is 78 to 1 meter
00:03:09
79 and then the smallest part
00:03:12
of this group that is closer to 1 meter 80.
00:03:17
We have the whiskers,
00:03:18
the upper whisker and the lower whisker.
00:03:21
So basically that would be the
00:03:23
minimal point and the maximum point.
00:03:25
Anything that is out of the norm are
00:03:27
represented by outliers which are the dots.
00:03:30
This type of visual is not
00:03:32
very common is a box plot.
00:03:34
The same as a box and whisker plot.
00:03:36
Yes, box plots may also be called
00:03:39
outlier box plots or quantile box plots.
00:03:42
Each is a variation on
00:03:43
how the box plot is drawn.
00:03:45
So what are some issues to think
00:03:47
about when using a box plot?
00:03:48
Check your data for extreme values.
00:03:50
Be careful if you have a very small data set.
00:03:53
If you have categorical or nominal variables,
00:03:57
use a bar chart instead.
00:03:58
Now let's see what are the
00:04:00
basic parts of a box plot.
00:04:02
Here we have a box plot with percentile.
00:04:04
Tables. In this graph,
00:04:05
the median is near the middle of the box,
00:04:08
which tells us that the data
00:04:10
values are roughly symmetrical.
00:04:11
So we have the green area box in the middle,
00:04:15
the median line roughly the middle.
00:04:17
But you see everything is
00:04:19
divided into quarters.
00:04:20
So we have the minimal,
00:04:22
which is represented by a lower whisker,
00:04:24
and then we have the maximal which
00:04:26
is represented by the upper whisker.
00:04:28
Now inside the box would be the focus
00:04:30
on the largest group of people.
00:04:33
For instance,
00:04:33
the median line does not show an average.
00:04:35
It basically shows from here to here
00:04:37
the number of people in that group
00:04:39
that are between such and such range,
00:04:42
and then over here the number of people
00:04:44
that would be between such and such range.
00:04:46
The bottom of the box is
00:04:47
referred as the 25th percentile,
00:04:49
the middle portion 50th percentile and
00:04:52
the top part of the box 75th percentile.
00:04:55
So links of the box is the difference
00:04:57
between the 75th and 25th percentiles and
00:05:00
it's called the IQR for interquartile range,
00:05:03
anything that is outside that.
00:05:05
Area from this bar to that bar
00:05:08
would be represented with dots,
00:05:10
and those are called the outlier boxplot.
00:05:12
So the center line in the box
00:05:14
shows the median for the data.
00:05:15
Half of the data is above this
00:05:17
value and half is below.
00:05:19
If the data are symmetrical,
00:05:20
the median will be in the center of the box.
00:05:23
If the data are skewed,
00:05:25
the median will be closer to the
00:05:28
top or the bottom of that box.
00:05:30
The bottom and top of the box
00:05:33
show the 25th and 75th quantiles.
00:05:35
Or percentiles.
00:05:36
These two quantiles are also
00:05:39
called quartiles because each cuts
00:05:42
off a quarter 25% of the data.
00:05:44
The links of the box is the difference
00:05:47
between these two percentiles and
00:05:49
it's called the inter quartile
00:05:51
range referred as the IQR.
00:05:54
The lines that extend from the
00:05:56
box are called whiskers.
00:05:57
Whiskers represent the expected
00:05:59
variation of the data.
00:06:01
The whiskers extend 1.5 times
00:06:03
the IQR from the top and bottom.
00:06:06
The box. If the data do not
00:06:07
extend to the end of the whiskers,
00:06:09
then the whiskers extend to the
00:06:12
minimum and maximum data values.
00:06:14
If there are values that all above
00:06:16
or below the end of the whiskers,
00:06:19
they are plotted as dots.
00:06:21
These points are often called
00:06:23
outliers and outlier is more
00:06:25
extreme than the expected variation.
00:06:27
These data points are worthy
00:06:29
of review to determine if they
00:06:32
are outliers or just errors.
00:06:34
The whiskers will not include these outliers.
00:06:36
Here is a case where the data
00:06:38
values are not symmetrical,
00:06:40
so this box plot is displaying
00:06:42
continuous data.
00:06:43
The cereal data in the box plots below
00:06:46
shows results from measuring calories
00:06:48
per serving 76 types of cereal,
00:06:50
so from zero to 250.
00:06:52
Here the variable calories is continuous,
00:06:56
so calories are represented here.
00:06:58
The types of cereal are represented
00:07:00
on the X axis,
00:07:01
so a box plot makes sense for this
00:07:04
type of data. This data is skewed.
00:07:06
Is the median of 102 over here is
00:07:10
much closer to the 25th percentile.
00:07:13
Remember the bottom of the box is the
00:07:15
25th percentile of 101 over here,
00:07:17
then to the 75th percentile of
00:07:20
275th percentile is the top of
00:07:22
the box close to the 200.
00:07:23
This graph is a comparison
00:07:25
between boxplot and histogram.
00:07:27
Almost
00:07:27
Box plots and histograms show the
00:07:29
shape of your data.
00:07:30
This can be used to identify
00:07:32
unusual points or outliers.
00:07:34
This figure shows precisely.
00:07:35
An outlier box plot and a histogram
00:07:38
for the same set of data.
00:07:40
In this example,
00:07:41
the histogram is vertical instead
00:07:44
of horizontal.
00:07:44
You might find it helpful to use
00:07:47
both types of graphs with your data box plot
00:07:50
and
00:07:50
you see skewness because the line
00:07:52
for the median will not be near the
00:07:55
center of the box if the data is skewed.
00:07:57
Boxplot helps identify the 25th and
00:08:01
75th percentiles better than the histogram.
00:08:03
All the histogram helps you
00:08:05
see the overall shape of your.
00:08:07
Data better than the box plot.
00:08:08
Box plots makes sense for continuous
00:08:11
data since they are measured on a
00:08:14
scale with many possible values.
00:08:16
Some examples of continuous data are age,
00:08:19
blood pressure, weight, temperature, speed.
00:08:22
For all of those examples,
00:08:24
a box plot is an appropriate
00:08:26
graphical tool to explore the
00:08:29
distribution of the data.

No elements match your search in this video....
Do another search or back to content !

 

00:00:02
Questo tutorial si basa sulla comprensione
00:00:05
Grafici di distribuzione per una serie di valori
00:00:08
Per riassumere la distribuzione
00:00:09
di un valore numerico,
00:00:11
è possibile utilizzare il grafico dell'istogramma,
00:00:13
o il grafico a scatola e baffi, o entrambi.
00:00:15
Iniziamo con il grafico dell'istogramma.
00:00:17
A cosa serve?
00:00:19
Questo popolare strumento grafico viene utilizzato per
00:00:21
Riepilogare dati discreti o continui
00:00:23
che sono misurati su una scala di intervalli.
00:00:26
È spesso usato per illustrare i principali
00:00:28
Caratteristiche della distribuzione del
00:00:30
dati in una forma conveniente, un istogramma
00:00:32
Fondamentalmente mostra le frequenze per gli intervalli
00:00:34
di valori di una variabile metrica.
00:00:37
Tali intervalli sono noti come contenitori
00:00:39
e hanno tutti le stesse larghezze.
00:00:41
In questo esempio prima di noi utilizza 4
00:00:44
a 5 centimetri come è stato larghezze.
00:00:47
Sull'asse Y abbiamo il numero di
00:00:50
persone e sull'asse X abbiamo il
00:00:52
gamma di altezze per ogni gruppo.
00:00:55
Fondamentalmente mostra o segna il
00:00:57
numero di persone in ogni fascia di altezza.
00:00:59
Qui il più alto mostra il più grande
00:01:02
Numero di persone che ci sono tra il
00:01:05
altezza di 1 metro 78 a 1 metro 83.
00:01:08
Il gruppo più piccolo meno di due oltre
00:01:12
Qui vengono visualizzate le persone più alte tra
00:01:15
1 metro 87 a 1 metro 92 circa.
00:01:19
Quindi va dal più corto al più alto.
00:01:22
Ma il gruppo più grande che ha questo
00:01:24
gamma di altezza si trova qui.
00:01:26
Quindi qual è la differenza tra
00:01:28
grafico a barre e istogramma?
00:01:30
Nei nostri tutorial precedenti abbiamo visto che un bar.
00:01:33
Il grafico è la rappresentazione grafica di
00:01:36
dati categorici utilizzando barre rettangolari,
00:01:39
dove la lunghezza di ogni barra è
00:01:41
proporzionale al valore che rappresentano.
00:01:43
Un istogramma d'altra parte è il
00:01:46
rappresentazione grafica dei dati,
00:01:47
dove i dati sono raggruppati in continui
00:01:50
intervalli di numeri e ogni intervallo
00:01:53
corrisponde a una barra verticale.
00:01:56
Quindi quali sono gli svantaggi di un istogramma?
00:01:58
Bene
00:01:59
Alcuni dei demeriti sono che
00:02:01
Non possiamo leggere i valori esatti.
00:02:03
Poiché i dati sono raggruppati in categorie,
00:02:06
è anche più difficile
00:02:08
Confronta 2 set di dati.
00:02:10
E possiamo usare solo questo
00:02:12
grafico con dati continui.
00:02:14
Quindi ora passiamo a scatola e baffi.
00:02:17
Allora, cos'è un grafico a scatola e baffi?
00:02:19
Mostra la distribuzione di
00:02:21
dati per una variabile continua.
00:02:22
Come vengono utilizzati questi grafici?
00:02:24
Ti aiutano a vedere il centro
00:02:26
e diffusione dei dati.
00:02:27
Puoi anche usarli come oggetti visivi
00:02:29
strumento per verificare la normalità o per
00:02:31
Identificare i punti che possono essere valori anomali.
00:02:34
I punti sarebbero valori anomali.
00:02:36
Qui abbiamo due scatole,
00:02:37
quello blu rappresenta la popolazione maschile,
00:02:40
quello arancione rappresenta il
00:02:42
popolazione femminile,
00:02:42
l'asse Y mostra ancora la
00:02:44
altezza e immagino l'asse X
00:02:47
che mostrano il numero di persone.
00:02:49
Quindi ogni casella mostra il più grande
00:02:52
gruppo di persone che si trovano tra
00:02:54
una gamma di altezza e.
00:02:57
Quindi all'interno della scatola hai una linea mediana,
00:02:59
non la media,
00:03:00
dice solo quanti sono i
00:03:02
più grande gruppo che si trova tra.
00:03:04
Dirà che 1 metro è 78 a 1 metro
00:03:09
79 e poi la parte più piccola
00:03:12
di questo gruppo che è più vicino a 1 metro 80.
00:03:17
Abbiamo i baffi,
00:03:18
il baffo superiore e il baffo inferiore.
00:03:21
Quindi fondamentalmente questo sarebbe il
00:03:23
punto minimo e punto massimo.
00:03:25
Tutto ciò che è fuori dalla norma è
00:03:27
rappresentati da valori anomali che sono i punti.
00:03:30
Questo tipo di oggetto visivo non è
00:03:32
Molto comune è una trama di scatola.
00:03:34
Lo stesso di una trama di scatole e baffi.
00:03:36
Sì, i box plot possono anche essere chiamati
00:03:39
Grafici a scatola anomali o grafici a scatola di quantili.
00:03:42
Ognuno è una variazione di
00:03:43
come viene disegnato il box plot.
00:03:45
Quindi quali sono alcuni problemi da pensare
00:03:47
Informazioni su quando si utilizza un box plot?
00:03:48
Controlla i tuoi dati per i valori estremi.
00:03:50
Fai attenzione se hai un set di dati molto piccolo.
00:03:53
Se si dispone di variabili categoriali o nominali,
00:03:57
Utilizzare invece un grafico a barre.
00:03:58
Ora vediamo quali sono i
00:04:00
Parti di base di una trama di scatola.
00:04:02
Qui abbiamo un box plot con percentile.
00:04:04
Tabelle. In questo grafico,
00:04:05
la mediana è vicino al centro della scatola,
00:04:08
che ci dice che i dati
00:04:10
I valori sono approssimativamente simmetrici.
00:04:11
Quindi abbiamo la casella dell'area verde nel mezzo,
00:04:15
la linea mediana approssimativamente al centro.
00:04:17
Ma si vede che tutto è
00:04:19
diviso in quarti.
00:04:20
Quindi abbiamo il minimo,
00:04:22
che è rappresentato da un baffo inferiore,
00:04:24
e poi abbiamo il massimo che
00:04:26
è rappresentato dal baffo superiore.
00:04:28
Ora all'interno della scatola ci sarebbe il focus
00:04:30
sul più grande gruppo di persone.
00:04:33
Per esempio
00:04:33
La linea mediana non mostra una media.
00:04:35
Fondamentalmente mostra da qui a qui
00:04:37
il numero di persone in quel gruppo
00:04:39
che si trovano tra tale e tale intervallo,
00:04:42
e poi qui il numero di persone
00:04:44
che sarebbe tra tale e tale intervallo.
00:04:46
La parte inferiore della scatola è
00:04:47
indicato come 25° percentile,
00:04:49
la porzione centrale 50° percentile e
00:04:52
La parte superiore del 75° percentile della casella.
00:04:55
Quindi i link della scatola sono la differenza
00:04:57
tra il 75° e il 25° percentile e
00:05:00
si chiama IQR per intervallo interquartile,
00:05:03
tutto ciò che è al di fuori di questo.
00:05:05
Area da questa barra a quella barra
00:05:08
sarebbe rappresentato con punti,
00:05:10
E quelli sono chiamati boxplot anomali.
00:05:12
Quindi la linea centrale nella casella
00:05:14
Mostra la mediana dei dati.
00:05:15
La metà dei dati è al di sopra di questo
00:05:17
valore e la metà è sotto.
00:05:19
Se i dati sono simmetrici,
00:05:20
La mediana sarà al centro della scatola.
00:05:23
Se i dati sono distorti,
00:05:25
La mediana sarà più vicina al
00:05:28
in alto o in fondo alla scatola.
00:05:30
Il fondo e la parte superiore della scatola
00:05:33
Mostra il 25° e il 75° quantile.
00:05:35
O percentili.
00:05:36
Questi due quantili sono anche
00:05:39
chiamato quartili perché ogni taglio
00:05:42
su un quarto del 25% dei dati.
00:05:44
I link del box fanno la differenza
00:05:47
tra questi due percentili e
00:05:49
Si chiama Inter Quartile
00:05:51
gamma denominata IQR.
00:05:54
Le linee che si estendono dal
00:05:56
scatola sono chiamati baffi.
00:05:57
I baffi rappresentano l'atteso
00:05:59
variazione dei dati.
00:06:01
I baffi si estendono 1,5 volte
00:06:03
l'IQR dall'alto e dal basso.
00:06:06
La scatola. Se i dati non lo fanno
00:06:07
estendere fino alla fine dei baffi,
00:06:09
quindi i baffi si estendono al
00:06:12
valori minimi e massimi dei dati.
00:06:14
Se ci sono valori che tutti sopra
00:06:16
o sotto l'estremità dei baffi,
00:06:19
Sono tracciati come punti.
00:06:21
Questi punti sono spesso chiamati
00:06:23
valori anomali e valori anomali è più
00:06:25
estrema rispetto alla variazione prevista.
00:06:27
Questi punti dati sono degni
00:06:29
di revisione per determinare se
00:06:32
sono valori anomali o solo errori.
00:06:34
I baffi non includeranno questi valori anomali.
00:06:36
Ecco un caso in cui i dati
00:06:38
i valori non sono simmetrici,
00:06:40
Quindi questa trama della scatola viene visualizzata
00:06:42
dati continui.
00:06:43
I dati sui cereali nei grafici della scatola qui sotto
00:06:46
mostra i risultati della misurazione delle calorie
00:06:48
per porzione 76 tipi di cereali,
00:06:50
quindi da zero a 250.
00:06:52
Qui le calorie variabili sono continue,
00:06:56
Quindi le calorie sono rappresentate qui.
00:06:58
I tipi di cereali sono rappresentati
00:07:00
sull'asse X,
00:07:01
Quindi una trama a scatola ha senso per questo
00:07:04
tipo di dati. Questi dati sono distorti.
00:07:06
La mediana di 102 qui è
00:07:10
molto più vicino al 25 ° percentile.
00:07:13
Ricorda che la parte inferiore della scatola è il
00:07:15
25° percentile di 101 qui,
00:07:17
quindi al 75° percentile di
00:07:20
Il 275° percentile è il massimo di
00:07:22
la scatola vicino al 200.
00:07:23
Questo grafico è un confronto
00:07:25
tra boxplot e istogramma.
00:07:27
Quasi
00:07:27
I box plot e gli istogrammi mostrano il
00:07:29
forma dei tuoi dati.
00:07:30
Questo può essere usato per identificare
00:07:32
Punti insoliti o valori anomali.
00:07:34
Questa figura mostra con precisione.
00:07:35
Un grafico anomalo e un istogramma
00:07:38
per lo stesso set di dati.
00:07:40
In questo esempio,
00:07:41
l'istogramma è invece verticale
00:07:44
di orizzontale.
00:07:44
Potresti trovarlo utile da usare
00:07:47
Entrambi i tipi di grafici con il grafico Data Box
00:07:50
e
00:07:50
vedi asimmetria perché la linea
00:07:52
per la mediana non sarà vicino al
00:07:55
centro della casella se i dati sono distorti.
00:07:57
Boxplot aiuta a identificare il 25 ° e
00:08:01
75 ° percentili meglio dell'istogramma.
00:08:03
Tutto l'istogramma ti aiuta
00:08:05
Vedi la forma complessiva del tuo.
00:08:07
Dati migliori del box plot.
00:08:08
Box plot ha senso per continuo
00:08:11
dati poiché sono misurati su un
00:08:14
scala con molti valori possibili.
00:08:16
Alcuni esempi di dati continui sono l'età,
00:08:19
pressione sanguigna, peso, temperatura, velocità.
00:08:22
Per tutti questi esempi,
00:08:24
Una trama a scatola è appropriata
00:08:26
strumento grafico per esplorare il
00:08:29
Distribuzione dei dati.

No elements match your search in this video....
Do another search or back to content !

 

00:00:02
このチュートリアルは理解に基づいています
00:00:05
一連の値の分布図
00:00:08
分布を要約するには
00:00:09
数値の、
00:00:11
ヒストグラムチャートを使用できますが、
00:00:13
またはボックスとウィスカー管理図、あるいはその両方。
00:00:15
ヒストグラムチャートから始めましょう。
00:00:17
それは何のために使われますか?
00:00:19
この人気のあるグラフ作成ツールは、
00:00:21
不連続データまたは連続データを要約する
00:00:23
間隔スケールで測定されます。
00:00:26
メジャーを説明するためによく使用されます
00:00:28
の分布の特徴
00:00:30
便利な形式のデータ、ヒストグラム
00:00:32
基本的に間隔の頻度を表示します
00:00:34
メトリック変数の値の。
00:00:37
このような間隔はビンと呼ばれます
00:00:39
そしてそれらはすべて同じ幅を持っています。
00:00:41
私たちの前のこの例では、4を使用しています
00:00:44
幅が5センチに。
00:00:47
Y軸には、
00:00:50
人とX軸には
00:00:52
各グループの高さの範囲。
00:00:55
基本的には、
00:00:57
各高さ範囲の人数。
00:00:59
ここで最高は最大のものを示しています
00:01:02
の間にいる人数
00:01:05
1メートル78から1メートル83の高さ。
00:01:08
2オーバー未満の最も小さなグループ
00:01:12
ここでは、間の最も背の高い人が表示されます
00:01:15
1メートル87から1メートル92大まかに。
00:01:19
したがって、それは最短から最高になります。
00:01:22
しかし、これを持っている最大のグループ
00:01:24
高さの範囲はここにあります。
00:01:26
だから違いは何ですか
00:01:28
棒グラフとヒストグラム?
00:01:30
前のチュートリアルでは、バーを見ました。
00:01:33
グラフは、
00:01:36
長方形の棒を使用したカテゴリデータ、
00:01:39
ここで、各バーの長さは
00:01:41
それらが表す値に比例します。
00:01:43
一方、ヒストグラムは
00:01:46
データのグラフィカル表現、
00:01:47
データが連続にグループ化されている場合
00:01:50
数値範囲と各範囲
00:01:53
垂直バーに対応します。
00:01:56
では、ヒストグラムの欠点は何ですか?
00:01:58
まぁ
00:01:59
デメリットのいくつかは、
00:02:01
正確な値を読み取ることはできません。
00:02:03
データはカテゴリにグループ化されているため、
00:02:06
また、より困難です
00:02:08
2つのデータセットを比較します。
00:02:10
そして、私たちはこれしか使うことができません
00:02:12
連続データを含むグラフ。
00:02:14
それでは、ボックスとウィスカーに移りましょう。
00:02:17
では、ボックスアンドウィスカーチャートとは何ですか?
00:02:19
の分布を示しています
00:02:21
連続変数のデータ。
00:02:22
これらのチャートはどのように使用されますか?
00:02:24
彼らはあなたが中心を見るのを助けます
00:02:26
そしてデータの広がり。
00:02:27
ビジュアルとして使用することもできます
00:02:29
正規性をチェックするツール、または
00:02:31
外れ値である可能性があるポイントを特定します。
00:02:34
ドットは外れ値になります。
00:02:36
ここに2つの箱があります、
00:02:37
青いものは男性の人口を表し、
00:02:40
オレンジ色のものは、
00:02:42
女性人口、
00:02:42
Y軸はまだ表示しています
00:02:44
高さと私はX軸を想像します
00:02:47
人数を示しています。
00:02:49
したがって、各ボックスには最大が表示されます
00:02:52
間にある人々のグループ
00:02:54
高さの範囲と。
00:02:57
したがって、ボックス内には中央線があり、
00:02:59
平均ではなく、
00:03:00
それはただいくつであるかを言います
00:03:02
その間にある最大のグループ。
00:03:04
1メートルは78から1メートルであると言うでしょう
00:03:09
79 そして最小の部分
00:03:12
1メートル80に近いこのグループの。
00:03:17
私たちはひげを持っています、
00:03:18
上のひげと下のひげ。
00:03:21
だから基本的にそれは
00:03:23
最小点と最大点。
00:03:25
標準から外れたものはすべて
00:03:27
ドットである外れ値で表されます。
00:03:30
このタイプのビジュアルは
00:03:32
非常に一般的なのは箱ひげ図です。
00:03:34
箱ひげ図と同じです。
00:03:36
はい、箱ひげ図は呼ばれることもあります
00:03:39
外れ値ボックスプロットまたは分位点ボックスプロット。
00:03:42
それぞれがのバリエーションです
00:03:43
箱ひげ図の描画方法。
00:03:45
それで、考えるべきいくつかの問題は何ですか
00:03:47
箱ひげ図を使用する場合について?
00:03:48
データの極値を確認します。
00:03:50
データ セットが非常に小さい場合は注意してください。
00:03:53
カテゴリ変数または名義変数がある場合、
00:03:57
代わりに棒グラフを使用してください。
00:03:58
それでは、何であるかを見てみましょう
00:04:00
箱ひげ図の基本部分。
00:04:02
ここに、パーセンタイルの箱ひげ図があります。
00:04:04
テーブル。このグラフでは、
00:04:05
中央値はボックスの中央近くにあります。
00:04:08
これは、データが
00:04:10
値はほぼ対称です。
00:04:11
真ん中に緑色の領域ボックスがあります。
00:04:15
中央線はほぼ中央です。
00:04:17
しかし、あなたはすべてが
00:04:19
四半期に分割されています。
00:04:20
だから私たちは最小限のものを持っています、
00:04:22
これはより低いウィスカーによって表されます、
00:04:24
そして、私たちは最大値を持っています
00:04:26
上部ウィスカーで表されます。
00:04:28
今、ボックスの内側が焦点になります
00:04:30
最大の人々のグループに。
00:04:33
例えば
00:04:33
中央値の線は平均を示していません。
00:04:35
基本的にここからここまで表示されます
00:04:37
そのグループの人数
00:04:39
そのような範囲とそのような範囲の間にあること、
00:04:42
そしてここで人の数
00:04:44
それはそのような範囲とそのような範囲の間でしょう。
00:04:46
箱の底は
00:04:47
25パーセンタイルと呼ばれる、
00:04:49
中間部の50パーセンタイルと
00:04:52
ボックスの上部は75パーセンタイルです。
00:04:55
だからボックスのリンクは違いです
00:04:57
75パーセンタイルと25パーセンタイルの間
00:05:00
それは四分位範囲のIQRと呼ばれます、
00:05:03
その外にあるものなら何でも。
00:05:05
このバーからそのバーまでのエリア
00:05:08
ドットで表され、
00:05:10
そしてそれらは外れ値箱ひげ図と呼ばれます。
00:05:12
したがって、ボックスの中心線
00:05:14
データの中央値を示します。
00:05:15
データの半分はこれより上にあります
00:05:17
値と半分は以下です。
00:05:19
データが対称の場合、
00:05:20
中央値はボックスの中央になります。
00:05:23
データが歪んでいる場合は、
00:05:25
中央値は
00:05:28
そのボックスの上部または下部。
00:05:30
箱の底と上
00:05:33
25番目と75番目の分位数を表示します。
00:05:35
またはパーセンタイル。
00:05:36
これらの2つの分位数も
00:05:39
各カットが四分位数と呼ばれる
00:05:42
データの4分の25%オフ。
00:05:44
ボックスのリンクは違いです
00:05:47
これらの2つのパーセンタイルと
00:05:49
それは四分位数間と呼ばれます
00:05:51
範囲を IQR と呼びます。
00:05:54
から伸びる線
00:05:56
箱はひげと呼ばれます。
00:05:57
ひげは期待されるものを表します
00:05:59
データのバリエーション。
00:06:01
ひげは1.5倍に伸びます
00:06:03
上下からのIQR。
00:06:06
ボックス。データがそうでない場合
00:06:07
ひげの端まで伸びる
00:06:09
その後、ひげは
00:06:12
最小および最大のデータ値。
00:06:14
上記のすべての値がある場合
00:06:16
またはひげの端より下
00:06:19
それらはドットとしてプロットされます。
00:06:21
これらのポイントはしばしば呼ばれます
00:06:23
外れ値と外れ値はもっと
00:06:25
予想される変動よりも極端です。
00:06:27
これらのデータポイントは価値があります
00:06:29
彼らがかどうかを判断するためのレビューの
00:06:32
外れ値または単なるエラーです。
00:06:34
ひげにはこれらの外れ値は含まれません。
00:06:36
ここでは、データが
00:06:38
値は対称的ではなく、
00:06:40
したがって、この箱ひげ図は表示されています
00:06:42
連続データ。
00:06:43
箱の中の穀物データは下にプロットされています
00:06:46
カロリー測定の結果を表示します
00:06:48
一食当たり76種類のシリアル
00:06:50
したがって、ゼロから250まで。
00:06:52
ここでは、可変カロリーは連続的です、
00:06:56
したがって、カロリーはここに表されます。
00:06:58
穀物の種類が表されます
00:07:00
X軸上、
00:07:01
したがって、ボックスプロットはこれに意味があります
00:07:04
データのタイプ。このデータは歪んでいます。
00:07:06
ここの102の中央値は
00:07:10
25パーセンタイルにはるかに近い。
00:07:13
箱の底は
00:07:15
101の25パーセンタイル、
00:07:17
その後、の75パーセンタイルに
00:07:20
275パーセンタイルはのトップです
00:07:22
200に近いボックス。
00:07:23
このグラフは比較です
00:07:25
箱ひげ図とヒストグラムの間。
00:07:27
殆ど
00:07:27
箱ひげ図とヒストグラムは、
00:07:29
データの形状。
00:07:30
これは、識別するために使用できます
00:07:32
異常な点または外れ値。
00:07:34
この図は正確に示しています。
00:07:35
外れ値ボックスプロットとヒストグラム
00:07:38
同じデータセットに対して。
00:07:40
この例では、
00:07:41
代わりにヒストグラムは垂直です
00:07:44
水平の。
00:07:44
使用すると役立つ場合があります
00:07:47
データボックスプロットを使用した両方のタイプのグラフ
00:07:50
そして
00:07:50
歪度が見えるのは、線が
00:07:52
中央値は近くにないからです
00:07:55
データが歪んでいる場合はボックスの中央。
00:07:57
箱ひげ図は、25番目と
00:08:01
ヒストグラムよりも75パーセンタイル優れています。
00:08:03
すべてのヒストグラムが役立ちます
00:08:05
あなたの全体的な形を見てください。
00:08:07
箱ひげ図よりも優れたデータ。
00:08:08
箱ひげ図は連続的に意味があります
00:08:11
それらはで測定されるためのデータ
00:08:14
多くの可能な値でスケーリングします。
00:08:16
連続データのいくつかの例は年齢です、
00:08:19
血圧、体重、体温、速度。
00:08:22
これらすべての例について、
00:08:24
箱ひげ図は適切です
00:08:26
探索するためのグラフィカルツール
00:08:29
データの配布。

No elements match your search in this video....
Do another search or back to content !

 

00:00:02
이 튜토리얼은 이해를 기반으로합니다
00:00:05
일련의 값에 대한 분포 차트
00:00:08
분포를 요약하려면
00:00:09
숫자 값의,
00:00:11
히스토그램 차트를 사용할 수 있습니다.
00:00:13
또는 상자 및 수염 차트 또는 둘 다.
00:00:15
히스토그램 차트부터 시작하겠습니다.
00:00:17
그것은 무엇을 위해 사용됩니까?
00:00:19
이 인기있는 그래프 도구는
00:00:21
불연속 또는 연속형 데이터 요약
00:00:23
간격 척도로 측정됩니다.
00:00:26
전공을 설명하는 데 자주 사용됩니다.
00:00:28
배포의 특징
00:00:30
편리한 형태의 데이터, 히스토그램
00:00:32
기본적으로 간격에 대한 빈도를 표시합니다.
00:00:34
메트릭 변수의 값입니다.
00:00:37
이러한 간격을 빈이라고 합니다.
00:00:39
그리고 그들은 모두 같은 너비를 가지고 있습니다.
00:00:41
이 예에서는 4
00:00:44
너비가 5 센티미터 인 것처럼.
00:00:47
Y 축에는
00:00:50
사람과 X 축에는
00:00:52
각 그룹의 높이 범위.
00:00:55
기본적으로 표시하거나 표시합니다.
00:00:57
각 높이 범위의 사람 수입니다.
00:00:59
여기서 가장 높은 것이 가장 큰 것을 보여줍니다.
00:01:02
사이에 있는 사람의 수
00:01:05
1 미터 78에서 1 미터 83의 높이.
00:01:08
2 명 미만의 가장 작은 그룹
00:01:12
여기에 가장 키가 큰 사람들이 표시됩니다.
00:01:15
1 미터 87에서 1 미터 92 대략.
00:01:19
그래서 가장 짧은 것에서 가장 높은 것으로 이동합니다.
00:01:22
그러나 이것을 가진 가장 큰 그룹
00:01:24
높이 범위는 여기에 있습니다.
00:01:26
그래서 차이점은 무엇입니까
00:01:28
막대 그래프와 히스토그램?
00:01:30
우리의 이전 튜토리얼에서 우리는 그 막대를 보았다.
00:01:33
그래프는 의 그래픽 표현입니다.
00:01:36
직사각형 막대를 사용하는 범주형 데이터,
00:01:39
여기서 각 막대의 길이는
00:01:41
그들이 나타내는 가치에 비례합니다.
00:01:43
반면에 히스토그램은
00:01:46
데이터의 그래픽 표현,
00:01:47
데이터가 연속으로 그룹화되는 위치
00:01:50
숫자 범위 및 각 범위
00:01:53
세로 막대에 해당합니다.
00:01:56
그렇다면 히스토그램의 단점은 무엇입니까?
00:01:58
00:01:59
단점 중 일부는
00:02:01
정확한 값을 읽을 수 없습니다.
00:02:03
데이터는 범주로 그룹화되어 있기 때문에
00:02:06
또한 더 어렵습니다.
00:02:08
2개의 데이터 세트를 비교합니다.
00:02:10
그리고 우리는 이것만 사용할 수 있습니다
00:02:12
연속 데이터가 있는 차트입니다.
00:02:14
이제 상자와 수염으로 넘어 갑시다.
00:02:17
그렇다면 상자와 수염 차트는 무엇입니까?
00:02:19
의 분포를 보여줍니다.
00:02:21
계량형 변수에 대한 데이터입니다.
00:02:22
이 차트는 어떻게 사용됩니까?
00:02:24
그들은 당신이 중심을 볼 수 있도록 도와줍니다
00:02:26
그리고 데이터의 확산.
00:02:27
시각적 개체로 사용할 수도 있습니다.
00:02:29
정규성을 확인하는 도구 또는
00:02:31
특이치일 수 있는 점을 식별합니다.
00:02:34
점은 이상치입니다.
00:02:36
여기에 두 개의 상자가 있습니다.
00:02:37
파란색은 남성 인구를 나타냅니다.
00:02:40
주황색은
00:02:42
여성 인구,
00:02:42
Y 축은 여전히
00:02:44
높이와 X 축을 상상합니다.
00:02:47
사람들의 수를 보여줍니다.
00:02:49
따라서 각 상자는 가장 큰
00:02:52
사이에 있는 사람들의 그룹
00:02:54
높이의 범위와.
00:02:57
상자 안에는 중간 선이 있습니다.
00:02:59
평균이 아니라
00:03:00
그것은 단지 몇 개인지 말합니다.
00:03:02
그 사이에 있는 가장 큰 그룹입니다.
00:03:04
1 미터는 78에서 1 미터라고 말할 것입니다.
00:03:09
79 그리고 가장 작은 부분
00:03:12
이 그룹의 1 미터 80에 가깝습니다.
00:03:17
우리는 수염을 가지고 있습니다.
00:03:18
상부 수염과 하부 수염.
00:03:21
그래서 기본적으로 그것은
00:03:23
최소 지점과 최대 지점.
00:03:25
규범에서 벗어난 것은
00:03:27
점인 이상값으로 표시됩니다.
00:03:30
이러한 유형의 시각적 개체는
00:03:32
매우 일반적인 것은 상자 그림입니다.
00:03:34
상자 및 수염 플롯과 동일합니다.
00:03:36
예, 상자 그림이라고도 할 수 있습니다.
00:03:39
특이치 상자 그림 또는 분위수 상자 그림.
00:03:42
각각은 변형입니다.
00:03:43
상자 플롯이 그려지는 방법.
00:03:45
그래서 생각해야 할 몇 가지 문제는 무엇입니까?
00:03:47
상자 그림을 사용할 때?
00:03:48
데이터에 극단값이 있는지 확인합니다.
00:03:50
데이터 집합이 매우 작은 경우 주의해야 합니다.
00:03:53
범주형 또는 명목 변수가 있는 경우,
00:03:57
대신 막대 차트를 사용하십시오.
00:03:58
이제 무엇인지 봅시다
00:04:00
상자 그림의 기본 부분.
00:04:02
여기에 백분위수가 있는 상자 그림이 있습니다.
00:04:04
테이블. 이 그래프에서,
00:04:05
중앙값은 상자의 중간 근처에 있습니다.
00:04:08
이는 데이터가
00:04:10
값은 대략 대칭입니다.
00:04:11
그래서 우리는 중간에 녹색 영역 상자를 가지고 있습니다.
00:04:15
중앙선은 대략 중간입니다.
00:04:17
하지만 모든 것이
00:04:19
분기로 나뉩니다.
00:04:20
그래서 우리는 최소한의 것을 가지고 있습니다.
00:04:22
더 낮은 수염으로 표현되는
00:04:24
그리고 우리는 최대값을 가지고 있습니다.
00:04:26
위쪽 수염으로 표시됩니다.
00:04:28
이제 상자 안에 초점이 맞춰질 것입니다.
00:04:30
가장 큰 그룹의 사람들에게.
00:04:33
예컨대
00:04:33
중앙값 선에는 평균이 표시되지 않습니다.
00:04:35
기본적으로 여기에서 여기로 표시됩니다.
00:04:37
해당 그룹의 사용자 수
00:04:39
그러한 범위와 그러한 범위 사이에있는
00:04:42
그리고 여기 사람들의 수
00:04:44
그것은 그러한 범위와 그러한 범위 사이에있을 것입니다.
00:04:46
상자의 바닥은
00:04:47
25번째 백분위수라고 하며,
00:04:49
중간 부분은 50번째 백분위수 및
00:04:52
상자의 상단 부분 75번째 백분위수.
00:04:55
그래서 상자의 링크가 차이입니다
00:04:57
75번째 백분위수와 25번째 백분위수 사이 및
00:05:00
사분위수 범위에 대한 IQR이라고합니다.
00:05:03
그 밖에있는 모든 것.
00:05:05
이 바에서 저 바까지의 영역
00:05:08
점으로 표시됩니다.
00:05:10
그리고 그것들을 특이치 상자 그림이라고 합니다.
00:05:12
그래서 상자의 중심선
00:05:14
데이터의 중앙값을 표시합니다.
00:05:15
데이터의 절반이 이 위에 있습니다.
00:05:17
값과 절반은 아래에 있습니다.
00:05:19
데이터가 대칭이면
00:05:20
중앙값은 상자 중앙에 있습니다.
00:05:23
데이터가 치우친 경우,
00:05:25
중앙값은
00:05:28
해당 상자의 상단 또는 하단.
00:05:30
상자의 하단 및 상단
00:05:33
25번째 및 75번째 분위수를 표시합니다.
00:05:35
또는 백분위 수.
00:05:36
이 두 분위수는 또한
00:05:39
사분위수라고 불리는 이유는 각각이 절단되기 때문입니다.
00:05:42
데이터의 25 %를 벗어났습니다.
00:05:44
상자의 링크가 차이입니다
00:05:47
이 두 백분위수 사이와
00:05:49
사분위수라고 합니다.
00:05:51
IQR이라고하는 범위.
00:05:54
에서 연장되는 선
00:05:56
상자는 수염이라고합니다.
00:05:57
수염은 예상되는 것을 나타냅니다.
00:05:59
데이터의 변형.
00:06:01
수염은 1.5 배 연장됩니다.
00:06:03
위와 아래에서 IQR.
00:06:06
상자. 데이터가 그렇지 않은 경우
00:06:07
수염의 끝까지 확장하고,
00:06:09
그런 다음 수염이
00:06:12
최소 및 최대 데이터 값.
00:06:14
위의 모든 값이있는 경우
00:06:16
또는 수염 끝 아래,
00:06:19
점으로 표시됩니다.
00:06:21
이 점들은 종종
00:06:23
이상치와 이상값이 더 많습니다.
00:06:25
예상되는 변동보다 극단적입니다.
00:06:27
이 데이터 포인트는 가치가 있습니다.
00:06:29
그들이 여부를 결정하기 위해 검토의
00:06:32
이상치 또는 오류입니다.
00:06:34
수염에는 이러한 이상값이 포함되지 않습니다.
00:06:36
다음은 데이터가
00:06:38
값은 대칭이 아닙니다.
00:06:40
따라서이 상자 플롯은
00:06:42
연속 데이터.
00:06:43
상자의 시리얼 데이터는 아래 플롯입니다.
00:06:46
칼로리 측정 결과를 보여줍니다.
00:06:48
서빙 당 76 종류의 시리얼,
00:06:50
그래서 0에서 250까지.
00:06:52
여기서 가변 칼로리는 연속적입니다.
00:06:56
그래서 칼로리가 여기에 표시됩니다.
00:06:58
시리얼의 종류가 표시됩니다.
00:07:00
X 축에서,
00:07:01
그래서 상자 플롯이 이것에 의미가 있습니다.
00:07:04
데이터 유형. 이 데이터는 왜곡되어 있습니다.
00:07:06
여기서 102의 중앙값은
00:07:10
25번째 백분위수에 훨씬 더 가깝습니다.
00:07:13
상자의 바닥이
00:07:15
여기 101의 25번째 백분위수,
00:07:17
그런 다음 75번째 백분위수로
00:07:20
275번째 백분위수는
00:07:22
상자는 200에 가깝습니다.
00:07:23
이 그래프는 비교입니다.
00:07:25
상자 그림과 히스토그램 사이.
00:07:27
거의
00:07:27
상자 그림과 히스토그램은
00:07:29
데이터의 셰이프.
00:07:30
이를 식별하는 데 사용할 수 있습니다.
00:07:32
비정상적인 점 또는 이상값.
00:07:34
이 그림은 정확하게 보여줍니다.
00:07:35
특이치 상자 그림과 히스토그램
00:07:38
동일한 데이터 집합에 대해.
00:07:40
이 예에서
00:07:41
히스토그램은 대신 수직입니다.
00:07:44
수평의.
00:07:44
사용하는 것이 도움이 될 수 있습니다.
00:07:47
데이터 상자 그림이 있는 두 가지 유형의 그래프
00:07:50
그리고
00:07:50
선이 왜곡되어 있기 때문에 왜곡이 보입니다.
00:07:52
중앙값은 근처에 있지 않기 때문입니다.
00:07:55
데이터가 치우친 경우 상자의 가운데에 있습니다.
00:07:57
상자 그림은 25번째와
00:08:01
히스토그램보다 75번째 백분위수가 더 좋습니다.
00:08:03
모든 히스토그램이 도움이됩니다.
00:08:05
우르의 전체적인 모양을 볼 수 있습니다.
00:08:07
상자 그림보다 데이터가 더 좋습니다.
00:08:08
상자 그림은 연속에 적합합니다.
00:08:11
데이터
00:08:14
가능한 많은 값으로 스케일링합니다.
00:08:16
연속 데이터의 몇 가지 예는 나이,
00:08:19
혈압, 체중, 온도, 속도.
00:08:22
이러한 모든 예에 대해,
00:08:24
상자 그림이 적절합니다.
00:08:26
그래픽 도구를 탐색하는
00:08:29
데이터 배포.

No elements match your search in this video....
Do another search or back to content !

 

00:00:02
本教程基於理解
00:00:05
一系列值的分布圖
00:00:08
匯總分佈
00:00:09
的數值,
00:00:11
您可以使用直方圖,
00:00:13
或箱須圖,或兩者兼而有之。
00:00:15
讓我們從直方圖開始。
00:00:17
它的用途是什麼?
00:00:19
這個流行的圖形工具用於
00:00:21
匯總離散或連續數據
00:00:23
以間隔刻度測量。
00:00:26
它通常用於說明專業
00:00:28
分佈特點
00:00:30
數據以方便的形式,直方圖
00:00:32
基本上顯示間隔的頻率
00:00:34
指標變數的值。
00:00:37
這樣的間隔稱為箱
00:00:39
它們都具有相同的寬度。
00:00:41
在我們面前的這個例子中,它使用 4
00:00:44
到5釐米,因為它的寬度。
00:00:47
在Y軸上,我們有
00:00:50
人和在X軸上我們有
00:00:52
每組的高度範圍。
00:00:55
基本上它顯示或標記
00:00:57
每個身高範圍內的人數。
00:00:59
這裡最高的顯示最大的
00:01:02
人數在
00:01:05
身高1米78至1米83。
00:01:08
最小的一組少於兩個
00:01:12
這裏顯示最高的人之間
00:01:15
大約1米87到1米92。
00:01:19
所以它從最短到最高。
00:01:22
但是擁有這個的最大群體
00:01:24
高度範圍位於此處。
00:01:26
那麼兩者之間有什麼區別
00:01:28
條形圖和直方圖?
00:01:30
在我們之前的教程中,我們看到了一個條形圖。
00:01:33
圖形是圖形表示
00:01:36
使用矩形條的分類數據,
00:01:39
其中每根柱線的長度為
00:01:41
與它們所代表的值成正比。
00:01:43
另一方面,直方圖是
00:01:46
數據的圖形表示,
00:01:47
其中數據分組為連續數據
00:01:50
數位範圍和每個範圍
00:01:53
對應於豎線。
00:01:56
那麼直方圖的缺點是什麼?
00:01:58
00:01:59
一些缺點是
00:02:01
我們無法讀取確切的值。
00:02:03
由於數據按類別分組,
00:02:06
也更難
00:02:08
比較 2 個數據集。
00:02:10
我們只能使用這個
00:02:12
包含連續數據的圖表。
00:02:14
所以現在讓我們繼續討論盒子和晶須。
00:02:17
那麼什麼是箱須圖呢?
00:02:19
它顯示了
00:02:21
連續變數的數據。
00:02:22
如何使用這些圖表?
00:02:24
他們説明你看到中心
00:02:26
以及數據的傳播。
00:02:27
還可以將它們用作視覺物件
00:02:29
用於檢查正態性或
00:02:31
確定可能是異常值的點。
00:02:34
這些點將是異常值。
00:02:36
這裡有兩個盒子,
00:02:37
藍色代表男性人口,
00:02:40
橙色的表示
00:02:42
女性人口,
00:02:42
Y 軸仍顯示
00:02:44
高度和我想像的X軸
00:02:47
顯示人數。
00:02:49
所以每個框顯示最大的
00:02:52
介於兩者之間的人群
00:02:54
高度範圍和。
00:02:57
所以在盒子裡面你有一條中線,
00:02:59
不是平均水準,
00:03:00
它只是說有多少是
00:03:02
介於兩者之間的最大組。
00:03:04
會說 1 米是 78 到 1 米
00:03:09
79 然後是最小的部分
00:03:12
這組接近 1 米 80。
00:03:17
我們有鬍鬚,
00:03:18
上須和下須。
00:03:21
所以基本上這將是
00:03:23
最小點和最大點。
00:03:25
任何不正常的東西都是
00:03:27
由點的異常值表示。
00:03:30
這種類型的視覺物件不是
00:03:32
很常見的是箱形圖。
00:03:34
與盒須圖相同。
00:03:36
是的,箱線圖也可以稱為
00:03:39
異常值箱形圖或分位數箱形圖。
00:03:42
每個都是
00:03:43
箱形圖的繪製方式。
00:03:45
那麼有哪些問題要思考
00:03:47
關於何時使用箱線圖?
00:03:48
檢查數據的極值。
00:03:50
如果你有一個非常小的數據集,要小心。
00:03:53
如果您有分類變數或名義變數,
00:03:57
請改用條形圖。
00:03:58
現在讓我們看看什麼是
00:04:00
箱線圖的基本部分。
00:04:02
這裏我們有一個帶有百分位數的箱形圖。
00:04:04
表。在此圖中,
00:04:05
中位數靠近盒子的中間,
00:04:08
這告訴我們數據
00:04:10
值大致對稱。
00:04:11
所以我們在中間有綠色區域框,
00:04:15
中間線大致在中間。
00:04:17
但你看一切都是
00:04:19
分為四分。
00:04:20
所以我們有最小的,
00:04:22
由較低的鬍鬚表示,
00:04:24
然後我們有最大值
00:04:26
由上鬍鬚表示。
00:04:28
現在盒子裡面將是焦點
00:04:30
在最大的人群中。
00:04:33
例如
00:04:33
中線不顯示平均值。
00:04:35
它基本上顯示從這裡到這裡
00:04:37
該組中的人數
00:04:39
在這樣和那樣的範圍之間,
00:04:42
然後是這裡的人數
00:04:44
那將介於某某範圍之間。
00:04:46
盒子底部是
00:04:47
稱為第25個百分位數,
00:04:49
中間部分第50個百分位數和
00:04:52
框的頂部第75個百分位數。
00:04:55
所以盒子的連結是區別
00:04:57
在第 75 個和第 25 個百分位數之間,以及
00:05:00
它被稱為四分位距的 IQR,
00:05:03
任何超出它的東西。
00:05:05
從這個酒吧到那個酒吧的區域
00:05:08
將用點表示,
00:05:10
這些被稱為異常箱線圖。
00:05:12
所以盒子里的中心線
00:05:14
顯示數據的中位數。
00:05:15
一半的數據高於此值
00:05:17
值和一半低於。
00:05:19
如果數據是對稱的,
00:05:20
中位數將位於框的中心。
00:05:23
如果數據偏斜,
00:05:25
中位數將更接近
00:05:28
該框的頂部或底部。
00:05:30
盒子的底部和頂部
00:05:33
顯示第25個和第75個分位數。
00:05:35
或百分位數。
00:05:36
這兩個分位數也是
00:05:39
稱為四分位數,因為每個切割
00:05:42
關閉四分之一 25% 的數據。
00:05:44
盒子的連結是區別
00:05:47
在這兩個百分位數和
00:05:49
它被稱為四分位數間
00:05:51
範圍稱為 IQR。
00:05:54
00:05:56
盒子被稱為鬍鬚。
00:05:57
晶須代表預期
00:05:59
數據的變體。
00:06:01
晶須延伸1.5倍
00:06:03
頂部和底部的 IQR。
00:06:06
盒子。如果數據沒有
00:06:07
延伸到鬍鬚的末端,
00:06:09
然後鬍鬚延伸到
00:06:12
最小和最大數據值。
00:06:14
如果有以上所有值
00:06:16
或鬍鬚末端以下,
00:06:19
它們被繪製為點。
00:06:21
這些點通常被稱為
00:06:23
異常值和異常值更多
00:06:25
極端高於預期的變化。
00:06:27
這些數據點是值得的
00:06:29
的審查以確定他們是否
00:06:32
是異常值或只是錯誤。
00:06:34
晶須將不包括這些異常值。
00:06:36
這是數據的情況
00:06:38
值不對稱,
00:06:40
所以這個箱線圖正在顯示
00:06:42
連續數據。
00:06:43
箱形圖中的穀物數據如下所示
00:06:46
顯示測量卡路里的結果
00:06:48
每份76種穀物,
00:06:50
所以從零到 250。
00:06:52
這裡的可變卡路里是連續的,
00:06:56
所以卡路里在這裡表示。
00:06:58
代表穀物的種類
00:07:00
在 X 軸上,
00:07:01
所以箱形圖對此是有意義的
00:07:04
數據類型。此數據是傾斜的。
00:07:06
這裡的102的中位數是
00:07:10
更接近第25個百分位數。
00:07:13
請記住,框的底部是
00:07:15
這裡 101 的第 25 個百分位數,
00:07:17
然後到 75 個百分位數
00:07:20
第 275 個百分位數是
00:07:22
盒子接近200。
00:07:23
此圖是一個比較
00:07:25
在箱線圖和直方圖之間。
00:07:27
幾乎
00:07:27
箱形圖和直方圖顯示
00:07:29
數據的形狀。
00:07:30
這可用於識別
00:07:32
不尋常的點或異常值。
00:07:34
這個數位精確地顯示了。
00:07:35
異常值箱形圖和直方圖
00:07:38
對於同一組數據。
00:07:40
在此示例中,
00:07:41
直方圖改為垂直
00:07:44
的水準。
00:07:44
您可能會發現它使用起來很有説明
00:07:47
兩種類型的圖形與數據框圖
00:07:50
00:07:50
你看到偏斜,因為線
00:07:52
因為中位數不會接近
00:07:55
如果數據偏斜,則框的中心。
00:07:57
箱線圖有助於識別第 25 個和
00:08:01
第 75 個百分位數比直方圖好。
00:08:03
所有直方圖都可以説明您
00:08:05
查看您的整體形狀。
00:08:07
數據優於箱形圖。
00:08:08
箱線圖對於連續有意義
00:08:11
數據,因為它們是在
00:08:14
使用許多可能的值進行縮放。
00:08:16
連續數據的一些示例是年齡,
00:08:19
血壓,體重,溫度,速度。
00:08:22
對於所有這些範例,
00:08:24
箱線圖是合適的
00:08:26
用於探索的圖形工具
00:08:29
數據的分發。

No elements match your search in this video....
Do another search or back to content !

 

00:00:02
本教程基于理解
00:00:05
一系列值的分布图。
00:00:08
汇总数字的分布
00:00:11
值,您可以使用直方图
00:00:13
或盒子和晶须图,或两者兼而有之。
00:00:15
让我们从直方图开始。
00:00:17
它的用途是什么?
00:00:19
这个流行的绘图工具用于
00:00:21
汇总离散或连续数据
00:00:23
在间隔刻度上测量。
00:00:26
它通常用于说明主要
00:00:28
分布特点
00:00:30
数据在方便的直方图。
00:00:32
基本上显示间隔的频率
00:00:34
指标变量的值。
00:00:36
此类间隔称为条柱
00:00:39
他们都有同样的智慧。
00:00:41
在这个例子中,在我们之前,它使用4到5
00:00:44
厘米,因为它是Y轴上的宽度。
00:00:48
我们有人数,
00:00:50
在X轴上,我们有范围
00:00:53
每组的高度。
00:00:55
基本上它显示或标记数字
00:00:57
每个身高范围内年份的人数。
00:00:59
最高显示
00:01:01
人数最多。
00:01:03
有1米之间的高度
00:01:06
78比1米83最小的一组,
00:01:10
不到两个在这里显示最高
00:01:15
1米87至1米之间的人,
00:01:18
大致为92。
00:01:19
所以它从最短到最高,
00:01:21
但最大的团体有这个
00:01:24
高度范围位于此处。
00:01:26
那么条形图有什么区别呢?
00:01:29
和我们之前的教程中的直方图,
00:01:31
我们看到条形图是
00:01:34
的图形表示。
00:01:35
使用矩形的分类数据
00:01:37
条形图,其中每个条形的长度为
00:01:41
与它们所代表的值成正比。
00:01:43
直方图,
00:01:44
另一方面
00:01:45
是图形表示
00:01:47
对数据进行分组的数据数量
00:01:49
进入连续数字范围,
00:01:52
并且每个范围对应于一个竖线。
00:01:56
那么直方图的缺点是什么呢?
00:01:58
虽然有些缺点是
00:02:01
我们无法读取精确的值,因为
00:02:03
数据按类别分组。
00:02:06
比较起来也比较比较难
00:02:08
2个数据集,我们只能使用
00:02:11
此图表包含连续数据。
00:02:14
所以现在让我们进入盒子和胡须。
00:02:17
那么什么是箱须图呢?
00:02:19
它显示了
00:02:21
连续变量的数据。
00:02:22
如何使用这些图表?
00:02:24
他们帮你看中心
00:02:26
和数据的传播。
00:02:27
您还可以将它们用作视觉对象
00:02:29
用于检查正常性或用于检查正常性的工具
00:02:31
识别可能是异常值的点。
00:02:33
这些点将是异常值。
00:02:36
这里有两个盒子,
00:02:37
蓝色代表主要人口,
00:02:40
橙色表示
00:02:41
妇女人口。
00:02:42
Y 轴仍显示高度,
00:02:45
我想象X轴
00:02:47
显示了一些人。
00:02:49
所以每个盒子都显示最大的
00:02:51
一群人之间有
00:02:54
高度范围和内部
00:02:56
框中你有一个中位数线,
00:02:59
不是平均水平。
00:03:00
它只是说有多少是最大的群体
00:03:04
也就是说,1米就是70米。
00:03:08
821米,
00:03:09
79,然后是这个最小的部分
00:03:13
接近 1 米的组。
00:03:16
80我们有胡须,
00:03:19
上胡须和下胡须。
00:03:21
所以基本上会有
00:03:23
最小点和最大点。
00:03:25
任何超出常态的东西
00:03:27
由异常值表示,
00:03:29
这是点。
00:03:30
这种类型的视觉对象并不常见。
00:03:33
箱形图是否与
00:03:35
盒子和胡须情节?是的。
00:03:37
箱形图也可以称为异常值
00:03:39
箱形图或分位数箱线图。
00:03:42
每个都是如何变化
00:03:43
绘制箱形图。
00:03:45
那么有哪些问题需要考虑
00:03:47
关于使用箱线图时?
00:03:48
检查数据中的极值。
00:03:50
如果您的数据集非常小,请小心。
00:03:53
如果您有分类变量或名义变量,
00:03:57
请改用条形图。
00:03:58
现在让我们看看什么是
00:04:00
箱线图的基本部分。
00:04:02
在这里我们有一个箱形图
00:04:04
带有百分位数标签。
00:04:05
在此图中,
00:04:06
中位数接近中间。
00:04:07
的盒子,它告诉我们
00:04:09
数据值大致对称,
00:04:11
所以我们中间有绿色区域框。
00:04:15
中线大致在中间,
00:04:17
但你看,
00:04:18
一切都被分成几个季度,
00:04:20
所以我们有最小的,这是
00:04:22
由下胡须和
00:04:24
然后我们有最大值,即
00:04:26
由上胡须表示。
00:04:28
现在在盒子里面将是专注
00:04:30
在最大的人群中。
00:04:32
例如
00:04:33
中位数线不显示平均值。
00:04:35
它基本上从这里到这里显示。
00:04:38
该组中的人数
00:04:40
介于这样和那样的范围内,并且
00:04:42
然后这里有多少人
00:04:44
这将是在这样和那样的范围之间。
00:04:46
盒子的底部是
00:04:47
称为第 25 百分位。
00:04:49
中间部分,
00:04:50
第 50 百分位和顶部
00:04:52
框的第 75 百分位的一部分。
00:04:55
所以盒子的链接是
00:04:57
第75和之间的差异
00:04:59
第25百分位,它被称为
00:05:01
四分位数范围的 IQR。
00:05:03
任何超出
00:05:05
从这个酒吧到那个酒吧的区域。
00:05:08
用点和那些表示
00:05:10
被称为异常值箱线图,
00:05:12
因此,框中的中心线显示
00:05:14
数据一半数据的中位数
00:05:16
高于此值,一半低于此值。
00:05:19
如果数据是对称的,
00:05:20
中位数将位于框的中心。
00:05:23
如果数据偏斜,
00:05:25
中位数将更接近
00:05:27
该框的顶部或底部。
00:05:30
盒子的底部和顶部显示一个
00:05:33
第 25 和第 75 个分位数或百分位数。
00:05:36
这两个分位数。
00:05:38
也被称为四分位数,
00:05:40
因为每个都切断了四分之一
00:05:43
盒子的25%的数据链接
00:05:45
是这些之间的区别
00:05:47
两个百分位数,称为
00:05:51
四分位距范围称为 IQR。
00:05:54
从拳击手延伸的线条,
00:05:56
称为胡须 胡须代表
00:05:58
数据的预期变化。
00:06:00
晶须延伸1.5倍
00:06:02
从顶部和底部开始的 IQR
00:06:05
的框中,如果数据没有
00:06:07
扩展。到胡须的尽头,
00:06:09
然后胡须延伸到
00:06:12
最小和最大数据值。
00:06:14
如果有以上所有值
00:06:16
或胡须的D端以下,
00:06:18
它们被绘制为点。
00:06:21
这些点通常称为异常值。
00:06:24
异常值更极端
00:06:26
比他们预期的变化。
00:06:27
这些数据点是值得的
00:06:29
的审查以确定他们是否
00:06:32
是异常值或只是错误。
00:06:33
晶须不包括这些异常值。
00:06:36
下面是数据的情况。
00:06:38
值不对称,因此
00:06:40
箱形图显示连续数据。
00:06:43
下面箱形图中的串行数据显示
00:06:46
测量每份卡路里的结果。
00:06:49
76种谷物。
00:06:51
所以从0到250。
00:06:53
这里的可变卡路里是连续的,
00:06:56
所以卡路里在这里表示。
00:06:58
谷物的种类是