Sa mga istatistika, ang isang outlier o "outlier" ay isang datum na lumihis nang napakalayo mula sa anumang iba pang datum sa loob ng isang sample o hanay ng mga datum (ang hanay ng mga datum ay tinatawag na data). Kadalasan, ang isang outlier sa isang set ng datum ay maaaring magsilbing isang babala sa statistician ng isang abnormalidad o pang-eksperimentong error sa mga pagsukat na kinuha, na maaaring humantong sa istatistika na alisin ang outlier mula sa set ng datum. Kung aalisin ng statistician ang mga outliers mula sa set ng datum, ang mga konklusyon na nakuha mula sa pag-aaral ay maaaring magkakaiba. Samakatuwid, ang pag-alam kung paano makalkula at pag-aralan ang mga outliers ay napakahalaga upang matiyak ang tamang pag-unawa sa isang set ng statistic datum.
Hakbang
Hakbang 1. Alamin kung paano makilala ang mga potensyal na mas malalabas na mga datum
Bago kami magpasya kung aalisin ang mga outlier datum mula sa set ng datum o hindi, syempre dapat nating kilalanin kung aling mga datum ang may potensyal na maging mga outlier. Sa pangkalahatan, ang isang outlier ay isang datum na lumihis nang napakalayo mula sa iba pang mga datum sa isang set ng datum-sa madaling salita, ang isang outlier ay "labas" ng iba pang mga datum. Karaniwan madali itong makita ang mga outlier sa isang data table o (sa partikular) ng isang graph. Kung ang isang hanay ng mga datum ay inilarawan ng biswal na may isang graph, ang outlier datum ay lilitaw na "napakalayo" mula sa iba pang mga datum. Kung, halimbawa, ang karamihan sa mga datum sa isang set ng datum ay bumubuo ng isang tuwid na linya, ang outlier datum ay hindi makatwirang mabibigyang kahulugan bilang bumubuo sa linyang iyon.
Tingnan natin ang isang hanay ng mga datum na kumakatawan sa temperatura ng 12 magkakaibang mga bagay sa isang silid. Kung ang 11 na bagay ay may temperatura na halos 70 Fahrenheit (21 degree Celsius), ngunit ang ika-12 na bagay, isang oven, ay may temperatura na 300 Fahrenheit (150 degrees Celsius), makikita agad na ang temperatura ng oven ay malamang na isang outlier
Hakbang 2. Ayusin ang mga datum sa isang hanay ng mga datum mula sa pinakamababa hanggang sa pinakamataas
Ang unang hakbang sa pagkalkula ng mga outliers sa isang set ng datum ay upang mahanap ang panggitna (gitnang halaga) ng set ng datum na iyon. Ang gawain na ito ay nagiging napaka-simple kung ang mga datum sa isang hanay ng mga datum ay nakaayos mula sa pinakamaliit hanggang sa pinakamalaki. Kaya, bago magpatuloy, ayusin ang mga datum sa isang tulad ng set ng datum.
Ipagpatuloy natin ang halimbawa sa itaas. Ito ang aming hanay ng mga datum na kumakatawan sa temperatura ng maraming mga bagay sa isang silid: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Kung isasaayos namin ang mga datum mula sa pinakamababa hanggang sa pinakamataas, ang pagkakasunud-sunod ng mga datum ay magiging: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}
Hakbang 3. Kalkulahin ang median ng set ng datum
Ang panggitna ng isang set ng datum ay isang datum kung saan ang iba pang kalahati ng datum ay nasa itaas ng datum na iyon at ang natitirang kalahati ay nasa ibaba nito-karaniwang, ang datum na iyon ay ang datum na nasa "gitna" ng set ng datum. Kung ang bilang ng mga datum sa isang set ng datum ay kakaiba, napakadaling hanapin - ang median ay ang datum na may parehong numero sa itaas at sa ibaba nito. Gayunpaman, kung ang bilang ng mga datum sa hanay ng mga datum ay pantay, kung gayon, sapagkat walang datum na umaangkop sa gitna, ang 2 datum sa gitna ay na-average upang makahanap ng median. Dapat pansinin na, kapag kinakalkula ang mga outlier, ang panggitna ay karaniwang nakatalaga sa variable Q2-ni dahil ang Q2 ay nasa pagitan ng Q1 at Q3, ang mas mababa at itaas na quartile, na tatalakayin natin sa paglaon.
- Hindi malito sa isang set ng datum kung saan ang bilang ng mga datum ay pantay-ang average ng 2 gitnang datum ay madalas na magbabalik ng isang numero na wala sa set ng datum mismo-ayos lang. Gayunpaman, kung ang 2 gitnang datum ay magkatulad na bilang, ang average, syempre, ay magkakaroon din ng parehong numero, na kung saan ay mabuti rin.
- Sa halimbawa sa itaas, mayroon kaming 12 mga datum. Ang 2 gitnang datum ay ang ika-6 at ika-7 na mga datum-70 at 71 ayon sa pagkakabanggit. Kaya, ang panggitna ng aming hanay ng mga datum ay ang average ng 2 mga bilang na ito: ((70 + 71) / 2), = 70.5.
Hakbang 4. Kalkulahin ang mas mababang quartile
Ang halagang ito, na binibigyan namin ng variable Q1, ay ang datum na kumakatawan sa 25 porsyento (o isang isang-kapat) ng mga datum. Sa madaling salita, ito ang datum na nagbabago sa mga datum na nasa ibaba ng panggitna. Kung ang bilang ng mga datum sa ibaba ng panggitna ay pantay, dapat mong i-average muli ang 2 mga datum sa gitna upang makahanap ng Q1, tulad ng paghanap mo ng median mismo.
Sa aming halimbawa, mayroong 6 na mga datum na nakalagay sa itaas ng panggitna, at 6 na mga datum na nasa ilalim ng median. Nangangahulugan ito na, upang makahanap ng mas mababang quartile, kakailanganin naming i-average ang 2 datum sa gitna ng 6 na datum sa ibaba ng median. Ang ika-3 at ika-4 na mga datum ng 6 na mga datum sa ibaba ng panggitna ay parehong 70. Kaya, ang average ay ((70 + 70) / 2), = 70. Ang 70 ay naging aming Q1.
Hakbang 5. Kalkulahin ang itaas na quartile
Ang halagang ito, na binibigyan namin ng variable Q3, ay ang datum kung saan mayroong 25 porsyento ng mga datum sa set ng datum. Ang paghahanap ng Q3 ay halos kapareho ng paghahanap ng Q1, maliban sa, sa kasong ito, tinitingnan namin ang mga datum sa itaas ng median, hindi sa ibaba ng median.
Pagpapatuloy ng aming halimbawa sa itaas, ang 2 datum sa gitna ng 6 na datum sa itaas ng panggitna ay 71 at 72. Ang average ng 2 mga datum na ito ay ((71 + 72) / 2), = 71, 5. 71, 5 ang aming Q3.
Hakbang 6. Hanapin ang distansya ng interquartile
Ngayon na natagpuan namin ang Q1 at Q3, kailangan naming kalkulahin ang distansya sa pagitan ng dalawang variable na ito. Ang distansya mula Q1 hanggang Q3 ay matatagpuan sa pamamagitan ng pagbawas ng Q1 mula sa Q3. Ang mga halagang nakukuha mo para sa mga distansya ng interquartile ay napakahalaga para sa pagtukoy ng mga hangganan ng mga di-outlier na datum sa iyong set ng datum.
- Sa aming halimbawa, ang aming mga halagang Q1 at Q3 ay 70 at 71, 5. Upang makita ang distansya ng interquartile, binabawas namin ang Q3 - Q1 = 71.5 - 70 = 1, 5.
- Dapat pansinin na totoo rin ito kahit na ang Q1, Q3, o pareho ay negatibong numero. Halimbawa, kung ang aming halagang Q1 ay -70, ang aming tamang distansya ng interquartile ay 71.5 - (-70) = 141, 5.
Hakbang 7. Hanapin ang "panloob na bakod" sa set ng datum
Ang mga tagalabas ay matatagpuan sa pamamagitan ng pag-check kung ang datum ay nahuhulog sa loob ng mga hangganan ng bilang na tinatawag na "panloob na bakod" at "panlabas na bakod". Ang isang datum na nahuhulog sa labas ng panloob na bakod ng set ng datum ay tinukoy bilang isang "menor de edad na outlier", habang ang isang datum na nahuhulog sa labas ng panlabas na bakod ay tinukoy bilang isang "pangunahing outlier". Upang hanapin ang panloob na bakod sa iyong set ng datum, i-multiply muna ang interquartile distansya ng 1, 5. Pagkatapos, idagdag ang resulta sa Q3 at ibawas din ito mula sa Q1. Ang dalawang halagang nakukuha mo ay ang mga hangganan ng panloob na bakod ng iyong set ng datum.
-
Sa aming halimbawa, ang distansya ng interquartile ay (71.5 - 70), o 1.5. Multiply 1.5 ng 1.5 na nagreresulta sa 2.25. Idagdag namin ang numerong ito sa Q3 at binawas namin ang Q1 sa numerong ito upang hanapin ang mga hangganan ng panloob na bakod tulad ng sumusunod:
- 71, 5 + 2, 25 = 73, 75
- 70 - 2, 25 = 67, 75
- Kaya, ang mga hangganan ng aming panloob na bakod ay 67, 75 at 73, 75.
-
Sa aming hanay ng mga datum, ang temperatura lamang ng oven, 300 Fahrenheit - ay nasa labas ng mga limitasyong ito at sa gayon ang datum na ito ay isang menor de edad na outlier. Gayunpaman, hindi pa rin namin nakakalkula kung ang temperatura na ito ay isang pangunahing outlier, kaya huwag tumalon sa mga konklusyon hanggang sa magawa namin ang aming mga kalkulasyon.
Hakbang 8. Hanapin ang "panlabas na bakod" sa set ng datum
Ginagawa ito sa parehong paraan tulad ng paghahanap ng panloob na bakod, maliban na ang distansya ng interquartile ay pinarami ng 3 sa halip na 1.5. Ang resulta ay idinagdag sa Q3 at ibawas mula sa Q1 upang hanapin ang itaas at mas mababang mga hangganan ng panlabas na bakod.
-
Sa aming halimbawa, ang pagpaparami ng distansya ng interquartile ng 3 ay nagbibigay (1, 5 x 3), o 4, 5. Nakita namin ang mga hangganan ng panlabas na bakod sa parehong paraan tulad ng dati:
- 71, 5 + 4, 5 = 76
- 70 - 4, 5 = 65, 5
- Ang mga hangganan ng panlabas na bakod ay 65.5 at 76.
-
Ang mga datum na nakahiga sa labas ng hangganan ng panlabas na bakod ay tinukoy bilang pangunahing mga labas. Sa halimbawang ito, ang temperatura ng oven, 300 Fahrenheit, ay malinaw sa labas ng panlabas na bakod, kaya ang datum na ito ay "tiyak" na isang pangunahing labas.
Hakbang 9. Gumamit ng husay na paghuhusga upang matukoy kung "itatapon" ang outlier datum
Gamit ang pamamaraang inilarawan sa itaas, matutukoy kung ang isang datum ay isang menor de edad na datum, isang pangunahing datum, o hindi isang outlier sa lahat. Gayunpaman, huwag magkamali - ang paghahanap ng isang datum bilang isang outlier ay nagmamarka lamang ng datum bilang isang "kandidato" na aalisin mula sa set ng datum, hindi bilang isang datum na "dapat" ay itapon. Ang "dahilan" na nagdudulot ng isang mas malalayong datum na lumihis mula sa iba pang mga datum sa isang set ng datum ay napakahalaga sa pagtukoy kung itatapon ito o hindi. Sa pangkalahatan, ang isang outlier sanhi ng isang error sa pagsukat, pagrekord, o pang-eksperimentong pagpaplano, halimbawa - ay maaaring itapon. Sa kabilang banda, ang mga panlabas na hindi sanhi ng error at na nagpapahiwatig ng bagong impormasyon o mga trend na hindi pa hinula dati ay karaniwang "hindi" itinapon.
- Ang isa pang pamantayan na dapat isaalang-alang ay kung ang outlier ay may malaking epekto sa ibig sabihin ng isang set ng datum, ibig sabihin kung lituhin ito ng outlier o ginagawang mali ito. Napakahalaga na isaalang-alang kung balak mong gumawa ng mga konklusyon mula sa average ng iyong hanay ng data.
-
Pag-aralan natin ang ating halimbawa. Sa halimbawang ito, dahil tila "lubos" na hindi maabot na ang hurno ay umabot sa 300 Fahrenheit sa pamamagitan ng hindi mahuhulaan na likas na pwersa, maaari nating tapusin na may halos katiyakan na ang oven ay hindi sinasadyang naiwan, na nagreresulta sa isang datum abnormalidad ng mataas na temperatura. Gayundin, kung hindi namin aalisin ang mga labas, ang aming set ng datum ay (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67 Fahrenheit (32 degree Celsius), habang ang average kung aalisin namin ang mga outliers ay (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55 Fahrenheit (21 degrees Celsius).
Dahil ang mga labas na ito ay sanhi ng pagkakamali ng tao at dahil magiging maling sabihin na ang average na temperatura ng silid ay umabot sa halos 90 Fahrenheit (32 degree Celsius), mas mabuti na pumili tayo na "itapon" ang ating mga outliers
Hakbang 10. Alamin ang kahalagahan (minsan) ng pagpapanatili ng mga outliers
Bagaman ang ilang mga outlier ay dapat na alisin mula sa set ng datum sapagkat sanhi ito ng mga error at / o gawing hindi tumpak o maling ang mga resulta, dapat panatilihin ang ilang mga labas. Kung, halimbawa, ang isang outlier ay lilitaw na likas na nakuha (iyon ay, hindi resulta ng isang error) at / o nagbibigay ng isang bagong pananaw sa hindi pangkaraniwang bagay na pinag-aaralan, ang outlier ay hindi dapat alisin mula sa set ng datum. Ang pananaliksik na pang-agham ay karaniwang isang napaka-sensitibong sitwasyon pagdating sa mga outliers - ang maling pag-aalis ng mga outliers ay maaaring mangahulugan ng pagtatapon ng impormasyon na nagpapahiwatig ng isang bagong kalakaran o pagtuklas.