Intervalul de încredere ne-a venit din domeniul statisticii. Acesta este un interval definit care servește la estimarea unui parametru necunoscut cu un grad ridicat de fiabilitate. Cel mai simplu mod de a explica acest lucru este cu un exemplu.

Să presupunem că trebuie să investigați o variabilă aleatoare, de exemplu, viteza de răspuns a serverului la o solicitare a clientului. De fiecare dată când utilizatorul introduce adresa unui anumit site, serverul răspunde cu viteză diferită. Astfel, timpul de răspuns investigat are un caracter aleatoriu. Deci, intervalul de încredere vă permite să determinați limitele acestui parametru și apoi va fi posibil să afirmați că, cu o probabilitate de 95%, serverul va fi în intervalul pe care l-am calculat.

Sau trebuie să aflați despre câți oameni știu marcă firmelor. Când se calculează intervalul de încredere, se va putea spune, de exemplu, că cu o probabilitate de 95% ponderea consumatorilor care știu despre acest lucru este în intervalul de la 27% la 34%.

Strâns legat de acest termen este nivel de încredere. Reprezintă probabilitatea ca parametrul dorit să fie inclus în intervalul de încredere. Această valoare determină cât de mare va fi intervalul dorit. Cu cât este mai mare valoarea pe care o ia, cu atât intervalul de încredere devine mai îngust și invers. De obicei, este setat la 90%, 95% sau 99%. Valoarea de 95% este cea mai populară.

Acest indicator este influențat și de varianța observațiilor, iar definiția lui se bazează pe presupunerea că caracteristica studiată se supune.Această afirmație este cunoscută și sub numele de Legea lui Gauss. Potrivit lui, o astfel de distribuție a tuturor probabilităților unei variabile aleatoare continue, care poate fi descrisă printr-o densitate de probabilitate, se numește normală. Dacă ipoteza unei distribuții normale s-a dovedit a fi greșită, atunci estimarea se poate dovedi a fi greșită.

Mai întâi, să ne dăm seama cum să calculăm intervalul de încredere pentru Aici, două cazuri sunt posibile. Dispersia (gradul de răspândire a unei variabile aleatoare) poate fi cunoscută sau nu. Dacă este cunoscut, atunci intervalul nostru de încredere este calculat folosind următoarea formulă:

xsr - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - semn,

t este un parametru din tabelul de distribuție Laplace,

σ este rădăcina pătrată a dispersiei.

Dacă varianța este necunoscută, atunci poate fi calculată dacă cunoaștem toate valorile caracteristicii dorite. Pentru aceasta, se folosește următoarea formulă:

σ2 = х2ср - (хр)2, unde

х2ср - valoarea medie a pătratelor trăsăturii studiate,

(xsr)2 este pătratul acestui atribut.

Formula prin care se calculează intervalul de încredere în acest caz se modifică ușor:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n)), где

xsr - medie eșantion,

α - semn,

t este un parametru care se găsește folosind tabelul de distribuție al lui Student t \u003d t (ɣ; n-1),

sqrt(n) este rădăcina pătrată a dimensiunii totale a eșantionului,

s este rădăcina pătrată a varianței.

Luați în considerare acest exemplu. Să presupunem că, pe baza rezultatelor a 7 măsurători, trăsătura studiată a fost determinată a fi 30 și varianța eșantionului egală cu 36. Este necesar să se găsească, cu o probabilitate de 99%, un interval de încredere care să conțină valoarea adevărată a parametrul măsurat.

Mai întâi, să determinăm cu ce t este egal: t \u003d t (0,99; 7-1) \u003d 3,71. Folosind formula de mai sus, obținem:

xsr - t*s / (sqrt(n))<= α <= хср + t*s / (sqrt(n))

30 - 3,71*36 / (sqrt(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

Intervalul de încredere pentru varianță este calculat atât în ​​cazul unei medii cunoscute, cât și atunci când nu există date despre așteptarea matematică și se cunoaște doar valoarea estimării punctuale imparțiale a varianței. Nu vom da aici formulele de calcul a acestuia, deoarece acestea sunt destul de complexe și, dacă se dorește, se găsesc oricând pe net.

Menționăm doar că este convenabil să determinați intervalul de încredere folosind programul Excel sau un serviciu de rețea, care se numește așa.

Probabilități, recunoscute ca fiind suficiente pentru a judeca cu încredere parametrii generali pe baza caracteristicilor eșantionului, sunt numite fiduciar .

De obicei, valorile de 0,95 sunt alese ca probabilități de încredere; 0,99; 0,999 (de obicei sunt exprimate ca procent - 95%, 99%, 99,9%). Cu cât este mai mare măsura responsabilității, cu atât este mai mare nivelul de încredere: 99% sau 99,9%.

Un nivel de încredere de 0,95 (95%) este considerat suficient în cercetarea științifică în domeniul culturii fizice și sportului.

Intervalul în care se găsește media aritmetică a eșantionului a populației generale cu o probabilitate de încredere dată se numește interval de încredere .

Nivelul de semnificație al evaluării este un număr mic α, a cărui valoare implică probabilitatea ca acesta să fie în afara intervalului de încredere. În conformitate cu probabilitățile de încredere: α 1 = (1-0,95) = 0,05; α 2 \u003d (1 - 0,99) \u003d 0,01 etc.

Interval de încredere pentru medie (așteptări) A distributie normala:

,

unde este fiabilitatea (probabilitatea de încredere) a estimării; - medie eșantionului; s - abaterea standard corectată; n este dimensiunea eșantionului; t γ este valoarea determinată din tabelul de distribuție a lui Student (vezi Anexa, Tabelul 1) pentru n și γ dat.

Pentru a găsi limitele intervalului de încredere a valorii medii a populației generale, este necesar:

1. Calculați și s.

2. Este necesar să se stabilească probabilitatea de încredere (fiabilitatea) γ a estimării 0,95 (95%) sau nivelul de semnificație α 0,05 (5%)

3. Conform tabelului t - Distribuțiile lui Student (Anexă, Tabelul 1) găsiți valorile la limită ale lui t γ .

Deoarece distribuția t este simetrică față de punctul zero, este suficient să cunoaștem doar valoarea pozitivă a lui t. De exemplu, dacă dimensiunea eșantionului este n=16, atunci numărul de grade de libertate (grade de libertate, df) t– distribuții df=16 - 1=15 . Conform tabelului 1 aplicare t 0,05 = 2,13 .

4. Găsim limitele intervalului de încredere pentru α = 0,05 și n=16:

Limitele încrederii:

Pentru dimensiuni mari ale eșantionului (n ≥ 30) t – Distribuția elevului devine normală. Prin urmare, intervalul de încredere pentru pentru n ≥ 30 poate fi scris după cum urmează:

Unde u sunt punctele procentuale ale distribuției normale normalizate.

Pentru probabilitățile standard de încredere (95%, 99%; 99,9%) și nivelurile de semnificație valori α ( u) sunt date în tabelul 8.

Tabelul 8

Valori pentru nivelurile de încredere standard α

α u
0,05 1,96
0,01 2,58
0,001 3,28

Pe baza datelor din exemplul 1, definim limitele celor 95% interval de încredere (α = 0,05) pentru rezultatul mediu al săriturii în sus de la fața locului.În exemplul nostru, dimensiunea eșantionului este n = 65, apoi recomandările pentru o dimensiune mare a eșantionului pot fi utilizate pentru a determina limitele intervalului de încredere.

INTERVALE DE ÎNCREDERE PENTRU FRECVENȚE ȘI PĂRȚI

© 2008

Institutul Național de Sănătate Publică, Oslo, Norvegia

Articolul descrie și discută calculul intervalelor de încredere pentru frecvențe și proporții folosind metodele Wald, Wilson, Klopper-Pearson, folosind transformarea unghiulară și metoda Wald cu corecție Agresti-Cowll. Materialul prezentat oferă informații generale despre metodele de calculare a intervalelor de încredere pentru frecvențe și proporții și are scopul de a trezi interesul cititorilor revistei nu numai pentru utilizarea intervalelor de încredere în prezentarea rezultatelor propriilor cercetări, ci și în citirea literaturii de specialitate înainte începerea lucrului la viitoarele publicații.

Cuvinte cheie: interval de încredere, frecvență, proporție

Într-una din publicațiile anterioare a fost menționată pe scurt descrierea datelor calitative și s-a raportat că estimarea intervalului acestora este de preferat unei estimări punctuale pentru descrierea frecvenței de apariție a caracteristicii studiate în populația generală. Într-adevăr, întrucât studiile sunt efectuate folosind date eșantionului, proiecția rezultatelor asupra populației generale trebuie să conțină un element de inexactitate în estimarea eșantionului. Intervalul de încredere este o măsură a acurateței parametrului estimat. Este interesant că în unele cărți despre bazele statisticii pentru medici, subiectul intervalelor de încredere pentru frecvențe este complet ignorat. În acest articol, vom lua în considerare mai multe moduri de a calcula intervalele de încredere pentru frecvențe, presupunând caracteristici ale eșantionului, cum ar fi nerecurența și reprezentativitatea, precum și independența observațiilor unele față de altele. Frecvența din acest articol nu este înțeleasă ca un număr absolut care arată de câte ori aceasta sau acea valoare apare în agregat, ci o valoare relativă care determină proporția de participanți la studiu care au trăsătura studiată.

În cercetarea biomedicală, intervalele de încredere de 95% sunt cel mai frecvent utilizate. Acest interval de încredere este regiunea în care proporția reală se încadrează în 95% din timp. Cu alte cuvinte, se poate spune cu 95% certitudine că adevărata valoare a frecvenței de apariție a unei trăsături în populația generală va fi în intervalul de încredere de 95%.

Majoritatea manualelor de statistică pentru cercetătorii medicali raportează că eroarea de frecvență este calculată folosind formula

unde p este frecvența de apariție a caracteristicii în eșantion (valoare de la 0 la 1). În majoritatea articolelor științifice interne, este indicată valoarea frecvenței de apariție a unei caracteristici în eșantion (p), precum și eroarea (e) acesteia sub formă de p ± s. Cu toate acestea, este mai oportun să se prezinte un interval de încredere de 95% pentru frecvența de apariție a unei trăsături în populația generală, care va include valori de la

inainte de.

În unele manuale, pentru mostre mici, se recomandă înlocuirea valorii de 1,96 cu valoarea lui t pentru N - 1 grade de libertate, unde N este numărul de observații din eșantion. Valoarea lui t se găsește în tabelele pentru distribuția t, care sunt disponibile în aproape toate manualele de statistică. Utilizarea distribuției lui t pentru metoda Wald nu oferă avantaje vizibile față de alte metode discutate mai jos și, prin urmare, nu este binevenită de unii autori.

Metoda de mai sus pentru calcularea intervalelor de încredere pentru frecvențe sau fracții este numită după Abraham Wald (Abraham Wald, 1902–1950), deoarece a început să fie utilizată pe scară largă după publicarea lui Wald și Wolfowitz în 1939. Cu toate acestea, metoda în sine a fost propusă de Pierre Simon Laplace (1749–1827) încă din 1812.

Metoda Wald este foarte populară, dar aplicarea ei este asociată cu probleme semnificative. Metoda nu este recomandată pentru eșantioane de dimensiuni mici, precum și în cazurile în care frecvența de apariție a unei caracteristici tinde spre 0 sau 1 (0% sau 100%) și pur și simplu nu este posibilă pentru frecvențele de 0 și 1. În plus, aproximarea distribuției normale, care este utilizată la calcularea erorii, „nu funcționează” în cazurile în care n p< 5 или n · (1 – p) < 5 . Более консервативные статистики считают, что n · p и n · (1 – p) должны быть не менее 10 . Более детальное рассмотрение метода Вальда показало, что полученные с его помощью доверительные интервалы в большинстве случаев слишком узки, то есть их применение ошибочно создает слишком оптимистичную картину, особенно при удалении частоты встречаемости признака от 0,5, или 50 % . К тому же при приближении частоты к 0 или 1 доверительный интревал может принимать отрицательные значения или превышать 1, что выглядит абсурдно для частот. Многие авторы совершенно справедливо не рекомендуют применять данный метод не только в уже упомянутых случаях, но и тогда, когда частота встречаемости признака менее 25 % или более 75 % . Таким образом, несмотря на простоту расчетов, метод Вальда может применяться лишь в очень ограниченном числе случаев. Зарубежные исследователи более категоричны в своих выводах и однозначно рекомендуют не применять этот метод для небольших выборок , а ведь именно с такими выборками часто приходится иметь дело исследователям-медикам.

Deoarece noua variabilă este distribuită în mod normal, limitele inferioare și superioare ale intervalului de încredere de 95% pentru variabila φ vor fi φ-1,96 și φ+1,96 stânga">

În loc de 1,96 pentru probele mici, se recomandă înlocuirea valorii lui t cu N - 1 grade de libertate. Această metodă nu oferă valori negative și vă permite să estimați mai precis intervalele de încredere pentru frecvențe decât metoda Wald. În plus, este descris în multe cărți interne de referință privind statistica medicală, ceea ce, totuși, nu a condus la utilizarea pe scară largă în cercetarea medicală. Calcularea intervalelor de încredere folosind o transformare unghiulară nu este recomandată pentru frecvențele care se apropie de 0 sau 1.

Aici se termină de obicei descrierea metodelor de estimare a intervalelor de încredere în majoritatea cărților despre bazele statisticii pentru cercetătorii medicali, iar această problemă este tipică nu numai pentru literatura națională, ci și pentru literatura străină. Ambele metode se bazează pe teorema limită centrală, care implică un eșantion mare.

Ținând cont de neajunsurile estimării intervalelor de încredere folosind metodele de mai sus, Clopper (Clopper) și Pearson (Pearson) au propus în 1934 o metodă de calcul a așa-numitului interval de încredere exact, ținând cont de distribuția binomială a trăsăturii studiate. Această metodă este disponibilă în multe calculatoare online, totuși, intervalele de încredere obținute în acest fel sunt în majoritatea cazurilor prea largi. În același timp, această metodă este recomandată pentru utilizare în cazurile în care este necesară o estimare conservatoare. Gradul de conservativitate al metodei crește pe măsură ce dimensiunea eșantionului scade, în special pentru N< 15 . описывает применение функции биномиального распределения для анализа качественных данных с использованием MS Excel, в том числе и для определения доверительных интервалов, однако расчет последних для частот в электронных таблицах не «затабулирован» в удобном для пользователя виде, а потому, вероятно, и не используется большинством исследователей.

Potrivit multor statisticieni, cea mai optimă estimare a intervalelor de încredere pentru frecvențe este realizată prin metoda Wilson, propusă încă din 1927, dar practic neutilizată în cercetarea biomedicală internă. Această metodă nu numai că face posibilă estimarea intervalelor de încredere atât pentru frecvențe foarte mici, cât și pentru frecvențe foarte înalte, dar este și aplicabilă unui număr mic de observații. În general, intervalul de încredere conform formulei Wilson are forma de la



unde ia valoarea 1,96 atunci când se calculează intervalul de încredere de 95%, N este numărul de observații și p este frecvența caracteristicii din eșantion. Această metodă este disponibilă în calculatoarele online, deci aplicarea ei nu este problematică. și nu recomandăm utilizarea acestei metode pentru n p< 4 или n · (1 – p) < 4 по причине слишком грубого приближения распределения р к нормальному в такой ситуации, однако зарубежные статистики считают метод Уилсона применимым и для малых выборок .

Pe lângă metoda Wilson, se crede că metoda Wald corectată de Agresti-Caull oferă o estimare optimă a intervalului de încredere pentru frecvențe. Corecția Agresti-Coulle este o înlocuire în formula Wald a frecvenței de apariție a unei trăsături în eșantion (p) cu p`, la calculul care 2 se adaugă la numărător, iar 4 se adaugă la numitor, adică , p` = (X + 2) / (N + 4), unde X este numărul de participanți la studiu care au trăsătura în studiu și N este dimensiunea eșantionului. Această modificare produce rezultate foarte asemănătoare cu cele ale formulei Wilson, cu excepția cazului în care rata de evenimente se apropie de 0% sau 100% și eșantionul este mic. Pe lângă metodele de mai sus pentru calcularea intervalelor de încredere pentru frecvențe, au fost propuse corecții pentru continuitate atât pentru metoda Wald, cât și pentru metoda Wilson pentru eșantioane mici, dar studiile au arătat că utilizarea lor este inadecvată.

Luați în considerare aplicarea metodelor de mai sus pentru calcularea intervalelor de încredere folosind două exemple. În primul caz, studiem un eșantion mare de 1.000 de participanți la studiu selectați aleatoriu, dintre care 450 au trăsătura studiată (fie că este un factor de risc, un rezultat sau orice altă trăsătură), care este o frecvență de 0,45 sau 45%. În al doilea caz, studiul se desfășoară folosind un eșantion mic, să zicem doar 20 de persoane și doar 1 participant la studiu (5%) are trăsătura studiată. Intervalele de încredere pentru metoda Wald, pentru metoda Wald cu corecție Agresti-Coll, pentru metoda Wilson au fost calculate folosind un calculator online dezvoltat de Jeff Sauro (http://www./wald.htm). Intervalele de încredere Wilson corectate în funcție de continuitate au fost calculate folosind calculatorul furnizat de Wassar Stats: Web Site for Statistical Computation (http://faculty.vassar.edu/lowry/prop1.html). Calculele folosind transformarea unghiulară Fisher au fost efectuate „manual” folosind valoarea critică a t pentru 19 și, respectiv, 999 grade de libertate. Rezultatele calculului sunt prezentate în tabel pentru ambele exemple.

Intervale de încredere calculate în șase moduri diferite pentru cele două exemple descrise în text

Metoda de calcul al intervalului de încredere

P=0,0500 sau 5%

95% CI pentru X=450, N=1000, P=0,4500 sau 45%

–0,0455–0,2541

Walda cu corectie Agresti-Coll

<,0001–0,2541

Wilson cu corecție de continuitate

„Metoda exactă” a lui Klopper-Pearson

Transformare unghiulară

<0,0001–0,1967

După cum se poate observa din tabel, pentru primul exemplu, intervalul de încredere calculat prin metoda Wald „general acceptată” merge în regiunea negativă, ceea ce nu poate fi cazul frecvențelor. Din păcate, astfel de incidente nu sunt neobișnuite în literatura rusă. Modul tradițional de reprezentare a datelor ca frecvență și eroarea acesteia maschează parțial această problemă. De exemplu, dacă frecvența de apariție a unei trăsături (în procente) este prezentată ca 2,1 ± 1,4, atunci aceasta nu este la fel de „iritantă” ca 2,1% (IC 95%: –0,7; 4,9), deși și înseamnă același lucru. Metoda Wald cu corecția Agresti-Coulle și calculul folosind transformarea unghiulară dau o limită inferioară care tinde spre zero. Metoda Wilson cu corecție de continuitate și „metoda exactă” oferă intervale de încredere mai largi decât metoda Wilson. Pentru al doilea exemplu, toate metodele dau aproximativ aceleași intervale de încredere (diferențele apar doar în miimi), ceea ce nu este surprinzător, deoarece frecvența evenimentului din acest exemplu nu diferă mult de 50%, iar dimensiunea eșantionului este destul de mare .

Pentru cititorii interesați de această problemă, putem recomanda lucrările lui R. G. Newcombe și Brown, Cai și Dasgupta, care oferă avantajele și dezavantajele utilizării a 7 și, respectiv, 10 metode diferite pentru calcularea intervalelor de încredere. Din manualele interne, se recomandă cartea și, în care, pe lângă o descriere detaliată a teoriei, sunt prezentate metodele Wald și Wilson, precum și o metodă de calcul a intervalelor de încredere, ținând cont de distribuția binomială a frecvenței. Pe lângă calculatoarele online gratuite (http://www./wald.htm și http://faculty.vassar.edu/lowry/prop1.html), intervalele de încredere pentru frecvențe (și nu numai!) pot fi calculate folosind Programul CIA (Confidence Intervals Analysis), care poate fi descărcat de pe http://www. scoala medicala. soton. ac. uk/cia/ .

Următorul articol va analiza modalități univariate de a compara datele calitative.

Bibliografie

Statistica medicală în limbaj simplu: un curs introductiv / A. Banerzhi. - M. : Medicină practică, 2007. - 287 p. Statistici medicale / . - M. : Agenţia de Informaţii Medicale, 2007. - 475 p. Statistica medico-biologică / S. Glants. - M. : Practică, 1998. Tipuri de date, verificare distribuție și statistică descriptivă / // Ecologie umană - 2008. - Nr. 1. - P. 52–58. DIN. Statistici medicale: manual / . - Rostov n/D: Phoenix, 2007. - 160 p. Statistica Medicala Aplicata / , . - St.Petersburg. : Folio, 2003. - 428 p. F. Biometrie / . - M. : Şcoala superioară, 1990. - 350 p. DAR. Statistica matematică în medicină / , . - M. : Finanțe și statistică, 2007. - 798 p. Statistica matematică în cercetarea clinică / , . - M. : GEOTAR-MED, 2001. - 256 p. Junkerov V. Și. Prelucrarea medico-statistică a datelor de cercetare medicală /,. - St.Petersburg. : VmedA, 2002. - 266 p. Agresti A. Aproximat este mai bine decât exact pentru estimarea pe intervale a proporțiilor binomiale / A. Agresti, B. Coull // Statistician american. - 1998. - N 52. - S. 119-126. Altman D. Statistici cu încredere // D. Altman, D. Machin, T. Bryant, M. J. Gardner. - Londra: BMJ Books, 2000. - 240 p. Brown L.D. Estimarea intervalului pentru o proporție binomială / L. D. Brown, T. T. Cai, A. Dasgupta // Statistical science. - 2001. - N 2. - P. 101-133. Clopper C.J. Utilizarea limitelor de încredere sau fiduciale ilustrate în cazul binomului / C. J. Clopper, E. S. Pearson // Biometrika. - 1934. - N 26. - P. 404-413. Garcia-Perez M.A. Despre intervalul de încredere pentru parametrul binom / M. A. Garcia-Perez // Calitate și cantitate. - 2005. - N 39. - P. 467-481. Motulsky H. Biostatistică intuitivă // H. Motulsky. - Oxford: Oxford University Press, 1995. - 386 p. Newcombe R.G. Intervale de încredere pe două părți pentru o singură proporție: comparație a șapte metode / R. G. Newcombe // Statistics in Medicine. - 1998. - N. 17. - P. 857–872. Sauro J. Estimarea ratelor de finalizare din eșantioane mici folosind intervale de încredere binomiale: comparații și recomandări / J. Sauro, J. R. Lewis // Proceedings of the human factors and ergonomics society annual meeting. – Orlando, FL, 2005. Wald A. Limite de încredere pentru funcțiile de distribuție continuă // A. Wald, J. Wolfovitz // Annals of Mathematical Statistics. - 1939. - N 10. - P. 105–118. Wilson E.B. Inferență probabilă, legea succesiunii și inferență statistică / E. B. Wilson // Journal of American Statistical Association. - 1927. - N 22. - P. 209-212.

INTERVALE DE ÎNCREDERE PENTRU PROPORȚII

A. M. Grjibovski

Institutul Național de Sănătate Publică, Oslo, Norvegia

Articolul prezintă mai multe metode de calcul a intervalelor de încredere pentru proporții binomiale, și anume, metodele Wald, Wilson, arcsinus, Agresti-Coull și exacte Clopper-Pearson. Lucrarea oferă doar o introducere generală a problemei estimării intervalului de încredere a unei proporții binomiale și scopul său este nu numai de a stimula cititorii să folosească intervalele de încredere atunci când prezintă rezultatele propriilor intervale de cercetare empirice, ci și de a-i încuraja să consulte cărțile de statistică înainte la analiza datelor proprii și pregătirea manuscriselor.

Cuvinte cheie: interval de încredere, proporție

Informatii de contact:

Consilier principal, Institutul Național de Sănătate Publică, Oslo, Norvegia

Notează sarcina. De exemplu: Greutatea medie a unui student de sex masculin la Universitatea ABC este de 90 kg. Veți testa acuratețea predicției greutății studenților de sex masculin de la Universitatea ABC într-un interval de încredere dat.

Faceți o probă potrivită.Îl vei folosi pentru a colecta date pentru testarea ipotezelor. Să presupunem că ați selectat deja aleatoriu 1000 de studenți bărbați.

Calculați media și abaterea standard a acestui eșantion. Selectați statisticile (de exemplu, media și abaterea standard) pe care doriți să le utilizați pentru a analiza eșantionul. Iată cum se calculează media și abaterea standard:

  • Pentru a calcula media eșantionului, adăugați greutățile celor 1.000 de bărbați eșantionați și împărțiți rezultatul la 1.000 (numărul de bărbați). Să presupunem că avem o greutate medie de 93 kg.
  • Pentru a calcula abaterea standard a eșantionului, trebuie să găsiți valoarea medie. Apoi trebuie să calculați varianța datelor sau media diferențelor pătrate față de medie. Odată ce ați găsit acel număr, trebuie doar să luați rădăcina pătrată a acestuia. Să spunem în exemplul nostru abaterea standard este de 15 kg (rețineți că uneori această informație poate fi dată împreună cu condiția problemei statistice).
  • Selectați nivelul de încredere dorit. Cele mai frecvent utilizate niveluri de încredere sunt 90%, 95% și 99%. Poate fi dat și împreună cu starea problemei. Să presupunem că ai ales 95%.

  • Calculați marja de eroare. Puteți găsi marja de eroare folosind următoarea formulă: Z a/2 * σ/√(n). Z a/2 = factor de încredere (unde a = nivelul de încredere), σ = abatere standard și n = dimensiunea eșantionului. Această formulă arată că trebuie să înmulțiți valoarea critică cu eroarea standard. Iată cum puteți rezolva această formulă împărțind-o în părți:

    • Calculați valoarea critică sau Z a/2 . Nivelul de încredere este de 95%. Convertiți procentajul în zecimală: 0,95 și împărțiți la 2 pentru a obține 0,475. Apoi priviți tabelul cu scoruri Z pentru a găsi valoarea corespunzătoare pentru 0,475. Veți găsi valoarea 1,96 (la intersecția rândului 1.9 cu coloana 0.06).
    • Luați eroarea standard (abaterea standard): 15 și împărțiți-o la rădăcina pătrată a dimensiunii eșantionului: 1000. Obțineți: 15/31,6 sau 0,47 kg.
    • Înmulțiți 1,96 cu 0,47 (valoare critică per eroare standard) pentru a obține 0,92, marja de eroare.
  • Notează intervalul de încredere. Pentru a formula un interval de încredere, scrieți pur și simplu media (93) ± eroarea. Răspuns: 93 ± 0,92. Puteți găsi limitele superioare și inferioare ale intervalului de încredere adunând și scăzând eroarea la/din medie. Deci limita inferioară este 93 - 0,92 sau 92,08 și limita superioară este 93 + 0,92 sau 93,92.

    • Puteți utiliza următoarea formulă pentru a calcula intervalul de încredere: x̅ ± Z a/2 * σ/√(n), unde x̅ este valoarea medie.
  • Actualizat: 3 martie 2020
    Fișier exemplu

    Să construim un interval de încredere în MS EXCEL pentru estimarea valorii medii a distribuției în cazul unei valori cunoscute a varianței.

    Desigur alegerea nivelul de încredere depinde complet de sarcina la îndemână. Astfel, gradul de încredere al pasagerului aerian în fiabilitatea aeronavei, desigur, ar trebui să fie mai mare decât gradul de încredere al cumpărătorului în fiabilitatea becului.

    Formularea sarcinilor

    Să presupunem că de la populatia luând probă marimea n. Se presupune că deviație standard această distribuţie este cunoscută. Necesar pe baza acestui fapt mostre evalua necunoscutul mijloc de distribuție(μ, ) și construiți corespunzătoare bilateralinterval de încredere .

    Estimarea punctului

    După cum se știe din statistici(să-i spunem X cf) este estimare imparțială a mediei acest populatiași are distribuția N(μ;σ 2 /n).

    Notă : Ce se întâmplă dacă trebuie să construiești interval de încredereîn cazul distribuţiei, care nu estenormal?În acest caz, vine în ajutor, care spune că cu o dimensiune suficient de mare mostre n din distribuție non-normal , distribuţia prin eşantionare a statisticilor Х av va fi aproximativ corespund distributie normala cu parametrii N(μ;σ 2 /n).

    Asa de, estimare punctualămijlocvalorile de distribuție avem este eșantion mediu, adică X cf. Acum hai să ne ocupăm interval de încredere.

    Construirea unui interval de încredere

    De obicei, cunoscând distribuția și parametrii acesteia, putem calcula probabilitatea ca o variabilă aleatorie să ia o valoare dintr-un interval dat. Acum să facem invers: găsim intervalul în care variabila aleatoare se încadrează cu o probabilitate dată. De exemplu, din proprietăți distributie normala se ştie că, cu o probabilitate de 95%, o variabilă aleatoare distribuită peste legea normală, se va încadra în intervalul de aproximativ +/- 2 de la Valoarea medie(vezi articolul despre). Acest interval va servi drept prototip pentru interval de încredere .

    Acum să vedem dacă știm distribuția , pentru a calcula acest interval? Pentru a răspunde la întrebare, trebuie să precizăm forma de distribuție și parametrii acesteia.

    Știm că este forma de distribuție distributie normala(rețineți că vorbim despre distribuția eșantionuluistatisticiX cf).

    Parametrul μ ne este necunoscut (trebuie doar estimat folosind interval de încredere), dar avem estimarea ei X cf, calculat pe baza probă, care poate fi folosit.

    Al doilea parametru este deviația standard medie a eșantionuluivor fi cunoscute, este egal cu σ/√n.

    pentru că nu știm μ, atunci vom construi intervalul +/- 2 abateri standard nu de la Valoarea medie, dar din estimarea sa cunoscută X cf. Acestea. la calcul interval de încredere NU vom presupune că X cf se va încadra în intervalul +/- 2 abateri standard de la μ cu o probabilitate de 95% și vom presupune că intervalul este +/- 2 abateri standard din X cf cu o probabilitate de 95% va acoperi μ - media populației generale, de la care probă. Aceste două afirmații sunt echivalente, dar a doua declarație ne permite să construim interval de încredere .

    În plus, rafinăm intervalul: o variabilă aleatoare distribuită peste legea normală, cu o probabilitate de 95% se încadrează în intervalul +/- 1.960 abateri standard, nu +/- 2 abateri standard. Aceasta poate fi calculată folosind formula \u003d NORM.ST.OBR ((1 + 0,95) / 2), cm. fișier exemplu Spațiere între foi .

    Acum putem formula o afirmație probabilistică care ne va servi să formăm interval de încredere: „Probabilitatea ca media populatiei situat din medie a probeiîn termen de 1.960" abaterile standard ale mediei eșantionului", este egal cu 95%.

    Valoarea probabilității menționată în declarație are o denumire specială , care este asociat cu nivelul de semnificație α (alfa) printr-o expresie simplă nivel de încredere = 1 . În cazul nostru nivelul de semnificație α =1-0,95=0,05 .

    Acum, pe baza acestei afirmații probabilistice, scriem o expresie pentru calcul interval de încredere :

    unde Zα/2 standarddistributie normala(o astfel de valoare a unei variabile aleatoare z , ce P (z >= Zα/2 )=α/2).

    Notă : α/2-quantila superioară definește lățimea interval de încredereîn abateri standardeșantion mediu. α/2-quantila superioară standarddistributie normala este întotdeauna mai mare decât 0, ceea ce este foarte convenabil.

    În cazul nostru, la α=0,05, α/2-quantila superioară este egal cu 1.960. Pentru alte niveluri de semnificație α (10%; 1%) α/2-quantila superioarăZα/2 poate fi calculat folosind formula \u003d NORM.ST.OBR (1-α / 2) sau dacă se cunoaște nivel de încredere , =NORM.ST.OBR((1+nivel de încredere)/2) .

    De obicei, la construirea intervale de încredere pentru estimarea mediei utilizați numai α superioară /2- cuantilăși nu folosiți mai mic α /2- cuantilă. Acest lucru este posibil pentru că standarddistributie normala simetric față de axa x ( densitatea distribuției sale simetric despre medie, adică 0) . Prin urmare, nu este nevoie să se calculeze α/2-cuantilă mai mică(se numește pur și simplu α /2-quantila), deoarece este egal α superioară /2- cuantilă cu semnul minus.

    Reamintim că, indiferent de forma distribuției lui x, variabila aleatoare corespunzătoare X cf distribuite aproximativamenda N(μ;σ 2 /n) (vezi articolul despre). Prin urmare, în general, expresia de mai sus pentru interval de încredere este doar aproximativă. Dacă x este distribuit peste legea normală N(μ;σ 2 /n), apoi expresia pentru interval de încredere este exactă.

    Calculul intervalului de încredere în MS EXCEL

    Să rezolvăm problema. Timpul de răspuns al unei componente electronice la un semnal de intrare este o caracteristică importantă a unui dispozitiv. Un inginer dorește să traseze un interval de încredere pentru timpul mediu de răspuns la un nivel de încredere de 95%. Din experiența anterioară, inginerul știe că abaterea standard a timpului de răspuns este de 8 ms. Se știe că inginerul a făcut 25 de măsurători pentru a estima timpul de răspuns, valoarea medie a fost de 78 ms.

    Soluţie: Un inginer vrea să știe timpul de răspuns al unui dispozitiv electronic, dar înțelege că timpul de răspuns nu este fix, ci o variabilă aleatorie care are propria sa distribuție. Deci, cel mai bun lucru la care poate spera este să determine parametrii și forma acestei distribuții.

    Din păcate, din starea problemei, nu cunoaștem forma distribuției timpului de răspuns (nu trebuie să fie normal). , această distribuție este de asemenea necunoscută. Numai el este cunoscut deviație standardσ=8. Prin urmare, în timp ce nu putem calcula probabilitățile și construi interval de încredere .

    Cu toate acestea, deși nu cunoaștem distribuția timprăspuns separat, știm că conform CPT , distribuția eșantionuluitimpul mediu de răspuns este de aproximativ normal(vom presupune că condițiile CPT sunt efectuate, deoarece marimea mostre suficient de mare (n=25)) .

    În plus, in medie această distribuţie este egală cu Valoarea medie distribuții de răspuns unitare, de ex. μ. DAR deviație standard a acestei distribuții (σ/√n) poate fi calculată folosind formula =8/ROOT(25) .

    De asemenea, se știe că inginerul a primit estimare punctuală parametrul μ egal cu 78 ms (X cf). Prin urmare, acum putem calcula probabilitățile, deoarece cunoaștem forma de distribuție ( normal) și parametrii săi (Х ср și σ/√n).

    Inginerul vrea să știe valorea estimataμ din distribuția timpului de răspuns. După cum sa menționat mai sus, acest μ este egal cu așteptarea distribuției eșantionului a timpului mediu de răspuns. Dacă folosim distributie normala N(X cf; σ/√n), atunci μ dorit va fi în intervalul +/-2*σ/√n cu o probabilitate de aproximativ 95%.

    Nivel de semnificație este egal cu 1-0,95=0,05.

    În cele din urmă, găsiți chenarul din stânga și din dreapta interval de încredere. Chenarul din stânga: \u003d 78-NORM.ST.INR (1-0,05 / 2) * 8 / ROOT (25) = 74,864 Chenarul din dreapta: \u003d 78 + NORM. ST. OBR (1-0,05 / 2) * 8 / ROOT (25) \u003d 81,136

    Chenarul din stânga: =NORM.INV(0,05/2, 78, 8/SQRT(25)) Chenarul din dreapta: =NORM.INV(1-0,05/2, 78, 8/SQRT(25))

    Răspuns : interval de încredere la Nivel de încredere de 95% și σ =8 msec egală 78+/-3,136 ms

    LA exemplu de fișier pe foaia Sigma cunoscut a creat o formă de calcul și construcție bilateralinterval de încredere pentru arbitrar mostre cu un σ dat și nivelul de semnificație .

    Funcția CONFIDENCE.NORM().

    Dacă valorile mostre sunt în gamă B20:B79 , A nivelul de semnificație egal cu 0,05; apoi formula MS EXCEL: =MEDIE(B20:B79)-ÎNCREDERE(0,05,σ, NUMĂRĂ(B20:B79)) va întoarce marginea stângă interval de încredere .

    Aceeași limită poate fi calculată folosind formula: =MEDIE(B20:B79)-NORM.ST.INV(1-0,05/2)*σ/SQRT(NUMĂRĂ(B20:B79))

    Notă: Funcția TRUST.NORM() a apărut în MS EXCEL 2010. Versiunile anterioare ale MS EXCEL foloseau funcția TRUST().