Ako zistiť odľahlé hodnoty: 10 krokov (s obrázkami)

Obsah:

Ako zistiť odľahlé hodnoty: 10 krokov (s obrázkami)
Ako zistiť odľahlé hodnoty: 10 krokov (s obrázkami)

Video: Ako zistiť odľahlé hodnoty: 10 krokov (s obrázkami)

Video: Ako zistiť odľahlé hodnoty: 10 krokov (s obrázkami)
Video: Колыма - родина нашего страха / Kolyma - Birthplace of Our Fear 2024, Smieť
Anonim

V štatistike je odľahlá hodnota alebo „odľahlá hodnota“vzťažným bodom, ktorý sa veľmi líši od akéhokoľvek iného vzťažného bodu vo vzorke alebo súbore vzťažných bodov (množina vzťažných bodov sa nazýva údaje). Odľahlá hodnota v súbore nulových bodov môže často slúžiť ako varovanie štatistiky pred abnormalitou alebo experimentálnou chybou pri vykonaných meraniach, čo môže viesť štatistika k odstráneniu odľahlých hodnôt zo sady nulových bodov. Ak štatistik odstráni odľahlé hodnoty zo súboru nulových bodov, závery vyvodené zo štúdie môžu byť veľmi odlišné. Vedieť, ako vypočítať a analyzovať odľahlé hodnoty, je preto veľmi dôležité, aby sa zabezpečilo správne porozumenie množine štatistických údajov.

Krok

Výpočet odľahlých hodnôt Krok 1
Výpočet odľahlých hodnôt Krok 1

Krok 1. Naučte sa identifikovať potenciálne odľahlé základy

Predtým, ako sa rozhodneme, či odstránime odľahlé matice zo sady nulových bodov, alebo nie, musíme samozrejme identifikovať, ktoré matice majú potenciál stať sa odľahlými hodnotami. Odľahlá hodnota je vo všeobecnosti vzťažný bod, ktorý sa veľmi líši od ostatných vzťažných bodov v jednej množine vzťažných bodov - inými slovami, odľahlá hodnota je „mimo“ostatných vzťažných bodov. Obvykle je ľahké odhaliť odľahlé hodnoty v dátovej tabuľke alebo (najmä) grafe. Ak je jedna množina podkladov popísaná vizuálne pomocou grafu, vonkajší údaj sa bude javiť ako „veľmi ďaleko“od ostatných vzťažných bodov. Ak napríklad väčšina vzťažných bodov v súbore nulových bodov tvorí priamku, najvzdialenejší nulový bod nebude rozumne interpretovaný ako tvoriaci túto priamku.

Pozrime sa na množinu podkladov predstavujúcich teploty 12 rôznych predmetov v miestnosti. Ak má 11 predmetov teplotu asi 70 stupňov Fahrenheita (21 stupňov Celzia), ale 12. predmet, rúra, má teplotu 300 stupňov Fahrenheita (150 stupňov Celzia), je zrejmé, že teplota v peci je veľmi pravdepodobná. odľahlý bod

Vypočítajte odľahlé hodnoty, krok 2
Vypočítajte odľahlé hodnoty, krok 2

Krok 2. Usporiadajte matice do sady odkazov od najnižšej po najvyššiu

Prvým krokom k výpočtu odľahlých hodnôt v súbore nulových bodov je nájdenie mediánu (strednej hodnoty) tejto množiny nulových bodov. Táto úloha sa stáva veľmi jednoduchou, ak sú súčasti vzťažných jednotiek usporiadané od najmenšieho po najväčší. Predtým, ako budete pokračovať, usporiadajte vzťažné body do jednej takej sady východiskových bodov.

Pokračujme vyššie uvedeným príkladom. Toto je naša množina podkladov predstavujúcich teploty niekoľkých predmetov v miestnosti: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Ak usporiadame matice od najnižšej po najvyššiu, poradie týchto základov sa stane: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Vypočítajte odľahlé hodnoty Krok 3
Vypočítajte odľahlé hodnoty Krok 3

Krok 3. Vypočítajte medián sady nulových bodov

Medián sady nulových bodov je vzťažný bod, kde je druhá polovica vzťažného bodu nad týmto vzťažným bodom a zvyšná polovica je pod ním - v zásade je tento vzťažný bod vzťažným bodom, ktorý je v „strede“množiny vzťažných bodov. Ak je počet vzťažných bodov v množine nulových bodov nepárny, je veľmi ľahké ich nájsť - medián je nulový bod, ktorý má rovnaké číslo nad a pod ním. Ak je však počet vzťažných bodov v súbore vzťažných bodov rovnomerný, potom, pretože sa žiadny údaj nezmestí do stredu, 2 stredné body v strede sa spriemerujú, aby sa našiel medián. Je potrebné poznamenať, že pri výpočte odľahlých hodnôt je mediánu obvykle priradená premenná Q2-ni, pretože Q2 je medzi Q1 a Q3, dolným a horným kvartilom, o čom budeme diskutovať neskôr.

  • Nenechajte sa zamieňať so sadou nulových bodov, kde je počet vzťažných bodov párny-priemer dvoch stredných vzťažných bodov často vráti číslo, ktoré nie je v samotnej množine vzťažných bodov-je to v poriadku. Ak sú však 2 stredné vzťahové značky rovnaké číslo, priemer bude samozrejme tiež rovnaké číslo, čo je tiež v poriadku.
  • V uvedenom príklade máme 12 opier. 2 stredné vzťahové značky sú 6. a 7. oporné body 70 a 71. Medián nášho súboru počtov je teda priemer týchto dvoch čísel: (((70 + 71) / 2), = 70.5.
Vypočítajte odľahlé hodnoty Krok 4
Vypočítajte odľahlé hodnoty Krok 4

Krok 4. Vypočítajte dolný kvartil

Táto hodnota, ktorú dávame premennej Q1, je počiatkom, ktorý predstavuje 25 percent (alebo štvrtinu) vzťažných bodov. Inými slovami, je to nulový bod, ktorý delí matice pod medián. Ak je počet vzťažných bodov pod mediánom rovnomerný, musíte znova nájsť priemer 2 vzťažných bodov v strede, aby ste našli Q1, rovnako ako by ste našli samotný medián.

V našom prípade je 6 vzťažných bodov, ktoré ležia nad mediánom, a 6 vzťažných bodov, ktoré ležia pod mediánom. To znamená, že na nájdenie dolného kvartilu budeme potrebovať priemer 2 vzťažných bodov v strede zo 6 vzťažných bodov pod mediánom. 3. a 4. vzťažný bod zo 6 vzťažných bodov pod mediánom je 70. Priemer je teda ((70 + 70) / 2), = 70. 70 sa stáva naším Q1.

Vypočítajte odľahlé hodnoty, krok 5
Vypočítajte odľahlé hodnoty, krok 5

Krok 5. Vypočítajte horný kvartil

Táto hodnota, ktorú dávame premennej Q3, je vzťažný bod, na ktorom je 25 percent vzťažných bodov v súprave vzťažných bodov. Nájdenie Q3 je do značnej miery rovnaké ako nájdenie Q1, okrem toho, že v tomto prípade sa pozeráme na matice nad mediánom, nie pod mediánom.

Pokračovaním nášho príkladu vyššie sú 2 vzťahové značky uprostred 6 vzťažných bodov nad mediánom 71 a 72. Priemer týchto dvoch vzťažných bodov je ((71 + 72)/2), = 71, 5. 71, 5 je náš Q3.

Vypočítajte odľahlé hodnoty, krok 6
Vypočítajte odľahlé hodnoty, krok 6

Krok 6. Nájdite medzikvartilnú vzdialenosť

Teraz, keď sme našli Q1 a Q3, musíme vypočítať vzdialenosť medzi týmito dvoma premennými. Vzdialenosť od Q1 do Q3 sa zistí odčítaním Q1 od Q3. Hodnoty, ktoré získate pre medzikvartilové vzdialenosti, sú veľmi dôležité pre definovanie hraníc neobyčajných vzťažných bodov vo vašom súbore nulových bodov.

  • V našom prípade sú naše hodnoty Q1 a Q3 70 a 71, 5. Aby sme zistili medzikvartilovú vzdialenosť, odčítame Q3 - Q1 = 71,5 - 70 = 1, 5.
  • Je potrebné poznamenať, že to platí aj vtedy, ak sú Q1, Q3 alebo obe záporné čísla. Ak by napríklad naša hodnota Q1 bola -70, naša správna medzikvartilová vzdialenosť by bola 71,5 -(-70) = 141, 5.
Výpočet odľahlých hodnôt Krok 7
Výpočet odľahlých hodnôt Krok 7

Krok 7. Nájdite „vnútorný plot“v sade nulových bodov

Odľahlé hodnoty sa dajú nájsť tak, že sa skontroluje, či nulový bod spadá do hraníc čísel nazývaných „vnútorný plot“a „vonkajší plot“. Vzťažný bod, ktorý spadá mimo vnútorný plot sady nulových bodov, sa označuje ako „vedľajšia odľahlá hodnota“, zatiaľ čo vzťažný bod, ktorý spadá mimo vonkajší plot, sa označuje ako „veľká odľahlá hodnota“. Ak chcete nájsť vnútorný plot v súbore nulových bodov, najskôr vynásobte medzikvartilnú vzdialenosť 1, 5. Potom výsledok pripočítajte k Q3 a tiež ho odčítajte od Q1. Dve hodnoty, ktoré získate, sú vnútorné hranice plotu vašej množiny nulových bodov.

  • V našom prípade je medzikvartilová vzdialenosť (71,5 - 70) alebo 1,5. Vynásobte 1,5 1,5, čo povedie k 2,25. Toto číslo pripočítame k Q3 a odčítame Q1 týmto číslom, aby sme našli hranice vnútorného plotu nasledovne:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Hranice nášho vnútorného plotu teda sú 67, 75 a 73, 75.
  • V našom súbore podkladov je iba teplota rúry, 300 Fahrenheita - mimo týchto limitov, a preto je tento údaj len malou odchylkou. Stále sme však nevypočítali, či je táto teplota veľmi významná, takže nerobte unáhlené závery, kým nevykonáme naše výpočty.

    Vypočítajte odľahlé hodnoty, krok 7, Bullet2
    Vypočítajte odľahlé hodnoty, krok 7, Bullet2
Vypočítajte odľahlé hodnoty, krok 8
Vypočítajte odľahlé hodnoty, krok 8

Krok 8. Nájdite v súprave nulových bodov „vonkajší plot“

To sa deje rovnakým spôsobom ako pri hľadaní vnútorného plotu, okrem toho, že medzikvartilná vzdialenosť sa vynásobí 3 namiesto 1,5. Výsledok sa potom pripočíta k Q3 a odčíta od Q1, aby sa zistila horná a dolná hranica vonkajšieho plotu.

  • V našom prípade vynásobením medzikvartilovej vzdialenosti 3 dostaneme (1, 5 x 3) alebo 4, 5. Hranice vonkajšieho plotu nájdeme rovnakým spôsobom ako predtým:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Hranice vonkajšieho plotu sú 65,5 a 76.
  • Údaje, ktoré ležia mimo hranicu vonkajšieho plotu, sa označujú ako hlavné mimoriadne hodnoty. V tomto prípade je teplota rúry 300 Fahrenheita zreteľne mimo vonkajšieho oplotenia, takže tento údaj je „rozhodne“významnou hodnotou.

    Vypočítajte odľahlé hodnoty, krok 8, Bullet2
    Vypočítajte odľahlé hodnoty, krok 8, Bullet2
Vypočítajte odľahlé hodnoty, krok 9
Vypočítajte odľahlé hodnoty, krok 9

Krok 9. Použite kvalitatívny úsudok na určenie, či „vyhodiť“vonkajší bod

Pomocou metódy opísanej vyššie je možné určiť, či je vzťažný bod vedľajším vzťažným bodom, hlavným vzťažným bodom alebo nie je východiskovým bodom. Nenechajte sa však zmýliť - nájdenie nulového bodu ako odľahlej hodnoty iba označí nulový bod ako „kandidát“, ktorý sa má odstrániť zo sady vzťažných bodov, nie ako vzťažný bod, ktorý by „mal“byť zahodený. „Dôvod“, ktorý spôsobuje, že sa odľahlý nulový bod odchyľuje od ostatných vzťažných bodov v množine vzťažných bodov, je veľmi dôležitý pri rozhodovaní, či ho zahodiť alebo nie. Všeobecne platí, že odľahlú hodnotu spôsobenú napríklad chybou v meraní, zaznamenávaní alebo experimentálnom plánovaní je možné zahodiť. Na druhej strane, extrémne hodnoty, ktoré nie sú spôsobené chybou a ktoré naznačujú nové informácie alebo trendy, ktoré neboli predtým predpovedané, sa zvyčajne „ne“zahodia.

  • Ďalším kritériom, ktoré je potrebné zvážiť, je to, či odľahlá hodnota má veľký vplyv na priemer množiny nulových bodov, t. J. Či ju odľahlá hodnota zamieňa alebo spôsobuje, že sa zdá byť nesprávna. Toto je veľmi dôležité zvážiť, ak máte v úmysle vyvodiť závery z priemeru súboru údajov.
  • Poďme študovať náš príklad. V tomto prípade, pretože sa zdá "veľmi" nepravdepodobné, že rúra dosiahla 300 Fahrenheita prostredníctvom nepredvídateľných prírodných síl, môžeme s takmer istotou dospieť k záveru, že rúra bola omylom zapnutá, čo malo za následok nenormálnu odchýlku vysokej teploty. Ak tiež neodstránime odľahlé hodnoty, priemer nastavenej nulovej hodnoty je (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300)/12 = 89,67 Fahrenheita (32 stupňov Celzia)), pričom priemer, ak odstránime odľahlé hodnoty, je (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73)/11 = 70,55 Fahrenheita (21 stupňov Celzia).

    Pretože tieto odľahlé hodnoty boli spôsobené ľudskou chybou a pretože by bolo nesprávne tvrdiť, že priemerná izbová teplota dosahuje takmer 90 stupňov Fahrenheita (32 stupňov Celzia), je lepšie, keď sa rozhodneme „zahodiť“naše odľahlé hodnoty

Vypočítajte odľahlé hodnoty, krok 10
Vypočítajte odľahlé hodnoty, krok 10

Krok 10. Poznáte dôležitosť (niekedy) udržiavania odľahlých hodnôt

Aj keď by mali byť niektoré odľahlé hodnoty zo sady nulových bodov odstránené, pretože spôsobujú chyby a/alebo spôsobujú, že výsledky sú nepresné alebo chybné, niektoré odľahlé hodnoty by mali byť zachované. Ak sa napríklad zdá, že odľahlá hodnota je prirodzene získaná (to znamená, že nie je výsledkom chyby) a/alebo poskytuje nový pohľad na študovaný jav, odľahlú hodnotu by ste nemali zo sady nulových bodov odstrániť. Vedecký výskum je zvyčajne veľmi citlivou situáciou, pokiaľ ide o odľahlé hodnoty - nesprávne odstránenie odľahlých hodnôt môže znamenať vyradenie informácií, ktoré naznačujú nový trend alebo objav.

Povedzme napríklad, že navrhujeme nový liek na zvýšenie veľkosti rýb v rybníku. Použijeme našu starú množinu oporných bodov ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), ibaže tentokrát bude každý údaj predstavovať hmotnosť ryby (v gramoch) po podaní iného experimentálneho lieku od narodenia. Inými slovami, prvá droga spôsobuje, že jedna ryba váži 71 gramov, druhá droga spôsobuje, že iná ryba váži 70 gramov atď. V tomto prípade je 300 „stále“veľkou odľahlou hodnotou, ale nemali by sme tento údaj zahodiť, pretože za predpokladu, že bol získaný bezchybne, predstavuje v štúdii úspech. Droga, vďaka ktorej môžu ryby vážiť 300 gramov, funguje lepšie ako všetky ostatné drogy, takže tento údaj je v skutočnosti „najdôležitejším“v našom súbore údajov, nie „najmenej dôležitým“

Odporúča: