Pedwarawd Anscombe
Pedwar set ddata yw pedwarawd Anscombe sydd ag ystadegau disgrifiadol syml bron unfath, ond sydd â dosraniadau gwahanol iawn ac sy'n ymddangos yn wahanol iawn wrth gael eu plotio. Mae pob set ddata yn cynnwys un ar ddeg pwynt (x, y). Cawsant eu hadeiladu ym 1973 gan yr ystadegydd Francis Anscombe i ddangos pwysigrwydd plotio data cyn ei ddadansoddi, ac effaith allanolion ac arsylwadau dylanwadol eraill ar briodweddau ystadegol. Bwriad yr erthygl a chyflwynodd y pedwarawd oedd gwrthwynebu'r argraff ymhlith ystadegwyr fod "cyfrifiadau rhifiadol yn union, ond mae graffiau'n fras."[1]
Data
[golygu | golygu cod]Ar gyfer pob un o'r pedair set ddata:
Priodwedd | Gwerth | Cywirdeb |
---|---|---|
Cymedr x | 9 | union |
Amrywiant sampl x: | 11 | union |
Cymedr y | 7.50 | i 2 le degol |
Amrywiant sampl y: | 4.125 | ± 0.003 |
Cydberthynas rhwng x ac y | 0.816 | i 3 lle degol |
Llinell atchweliad llinol | y = 3.00 + 0.500x | i 2 a 3 lle degol, yn y drefn honno |
Cyfernod mesuriad yr atchweliad llinol: | 0.67 | i 2 le degol |
- Mae'r plot gwasgariad cyntaf (chwith uchaf) yn ymddangos yn berthynas llinol syml, sy'n cyfateb i ddau newidyn sy'n cydberthyn, lle y gellid modelu y fel newidyn Normal gyda chymedr yn ddibynnol yn llinol ar x.
- Nid yw'r ail graff (dde uchaf) yn cael ei dosrannu'n normal; er bod perthynas rhwng y ddau newidyn yn amlwg, nid yw'n llinol, ac nid yw cyfernod cydberthynas Pearson yn berthnasol. Byddai atchweliad mwy cyffredinol yn fwy priodol.
- Yn y trydydd graff (chwith isaf), mae'r perthynas yn llinol, ond dylai fod â llinell atchweliad gwahanol. Mae gan yr atchweliad bias o'r un allanolyn sy'n gweithredu digon o ddylanwad i ostwng y cyfernod cydberthynas o 1 i 0.816.
- Yn olaf, mae'r pedwerydd graff (dde isaf) yn dangos enghraifft pan fydd un allanolyn yn ddigon i gynhyrchu cyfernod cydberthynas uchel, er nad yw'r pwyntiau data eraill yn nodi unrhyw berthynas rhwng y newidynnau.
Defnyddir y pedwarawd yn aml i ddangos pwysigrwydd edrych ar set o ddata yn raffigol cyn dechrau dadansoddi yn ôl math penodol o berthynas, ac i ddangos annigonolrwydd priodweddau ystadegol sylfaenol ar gyfer disgrifio setiau data realistig.[2][3][4][5][6]
I. | II | III | IV | ||||
---|---|---|---|---|---|---|---|
x | y | x | y | x | y | x | y |
10.0 | 8.04 | 10.0 | 9.14 | 10.0 | 7.46 | 8.0 | 6.58 |
8.0 | 6.95 | 8.0 | 8.14 | 8.0 | 6.77 | 8.0 | 5.76 |
13.0 | 7.58 | 13.0 | 8.74 | 13.0 | 12.74 | 8.0 | 7.71 |
9.0 | 8.81 | 9.0 | 8.77 | 9.0 | 7.11 | 8.0 | 8.84 |
11.0 | 8.33 | 11.0 | 9.26 | 11.0 | 7.81 | 8.0 | 8.47 |
14.0 | 9.96 | 14.0 | 8.10 | 14.0 | 8.84 | 8.0 | 7.04 |
6.0 | 7.24 | 6.0 | 6.13 | 6.0 | 6.08 | 8.0 | 5.25 |
4.0 | 4.26 | 4.0 | 3.10 | 4.0 | 5.39 | 19.0 | 12.50 |
12.0 | 10.84 | 12.0 | 9.13 | 12.0 | 8.15 | 8.0 | 5.56 |
7.0 | 4.82 | 7.0 | 7.26 | 7.0 | 6.42 | 8.0 | 7.91 |
5.0 | 5.68 | 5.0 | 4.74 | 5.0 | 5.73 | 8.0 | 6.89 |
Nid yw'n hysbys sut creodd Anscombe ei setiau data.[7] Ers ei gyhoeddi, mae sawl dull wedi cael eu datblygu i gynhyrchu setiau data tebyg gydag ystadegau unfath ond plotiau annhebyg.[8]
Cyfeiriadau
[golygu | golygu cod]- ↑ Anscombe, F. J. (1973). "Graphs in Statistical Analysis". American Statistician 27 (1): 17–21. doi:10.1080/00031305.1973.10478966. JSTOR 2682899. https://archive.org/details/sim_american-statistician_1973-02_27_1/page/17.
- ↑ Elert, Glenn. "Linear Regression". The Physics Hypertextbook.
- ↑ Janert, Philipp K. (2010). Data Analysis with Open Source Tools. O'Reilly Media. tt. 65–66. ISBN 0-596-80235-8.
- ↑ Chatterjee, Samprit; Hadi, Ali S. (2006). Regression Analysis by Example. John Wiley and Sons. t. 91. ISBN 0-471-74696-7.
- ↑ Saville, David J.; Wood, Graham R. (1991). Statistical Methods: The geometric approach. Springer. t. 418. ISBN 0-387-97517-9.
- ↑ Tufte, Edward R. (2001). The Visual Display of Quantitative Information (arg. 2nd). Cheshire, CT: Graphics Press. ISBN 0-9613921-4-2.
- ↑ Chatterjee, Sangit; Firat, Aykut (2007). "Generating Data with Identical Statistics but Dissimilar Graphics: A follow up to the Anscombe dataset". The American Statistician 61 (3): 248–254. doi:10.1198/000313007X220057. JSTOR 27643902.
- ↑ Matejka, Justin; Fitzmaurice, George (2017). "Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing". Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems: 1290-1294. doi:10.1145/3025453.3025912.