Formelen er konfidensintervallet for alle verdier. Estimering av tilfeldig feil

Ethvert utvalg gir bare en omtrentlig idé om den generelle populasjonen, og alle statistiske kjennetegn (gjennomsnitt, modus, varians ...) er en tilnærming eller for eksempel et estimat av de generelle parameterne, som i de fleste tilfeller ikke kan beregnes pga. utilgjengelighet for befolkningen generelt (Figur 20) .

Figur 20. Prøvetakingsfeil

Men du kan spesifisere intervallet der, med en viss grad av sannsynlighet, ligger den sanne (generelle) verdien av den statistiske egenskapen. Dette intervallet kalles d konfidensintervall (CI).

Så det generelle gjennomsnittet med en sannsynlighet på 95% ligger innenfor

fra til, (20)

hvor t - tabellverdi av Students kriterium for α =0,05 og f= n-1

Kan bli funnet og 99% CI, i dette tilfellet t valgt for α =0,01.

Hva er den praktiske betydningen av et konfidensintervall?

    Et bredt konfidensintervall indikerer at utvalgets gjennomsnitt ikke reflekterer populasjonsgjennomsnittet nøyaktig. Dette skyldes vanligvis en utilstrekkelig prøvestørrelse, eller dens heterogenitet, dvs. stor spredning. Begge gir en stor feil i gjennomsnittet og følgelig en bredere CI. Og dette er grunnen til å gå tilbake til forskningsplanleggingsstadiet.

    Øvre og nedre CI-grenser vurderer om resultatene vil være klinisk signifikante

La oss dvele mer detaljert på spørsmålet om den statistiske og kliniske betydningen av resultatene fra studiet av gruppeegenskaper. Husk at oppgaven med statistikk er å oppdage minst noen forskjeller i generelle populasjoner, basert på utvalgsdata. Det er klinikerens oppgave å finne slike (ikke noen) forskjeller som vil hjelpe diagnostisering eller behandling. Og ikke alltid statistiske konklusjoner er grunnlaget for kliniske konklusjoner. En statistisk signifikant reduksjon i hemoglobin med 3 g/l er derfor ikke grunn til bekymring. Og omvendt, hvis et problem i menneskekroppen ikke har en massekarakter på nivået av hele befolkningen, er dette ikke en grunn til ikke å håndtere dette problemet.

Vi vil vurdere denne stillingen i eksempel.

Forskerne lurte på om gutter som hadde en eller annen form for infeksjonssykdom lå bak jevnaldrende i veksten. For dette formålet ble det utført en selektiv studie der 10 gutter som hadde denne sykdommen deltok. Resultatene er presentert i tabell 23.

Tabell 23. Statistiske resultater

Nedre grense

øvre grense

Spesifikasjoner (cm)

midten

Av disse beregningene følger det at den selektive gjennomsnittshøyden til 10 år gamle gutter som har hatt en eller annen form for infeksjonssykdom er nær normalen (132,5 cm). Den nedre grensen for konfidensintervallet (126,6 cm) indikerer imidlertid at det er 95 % sannsynlighet for at den sanne gjennomsnittshøyden til disse barna tilsvarer begrepet «kort statur», dvs. disse barna er forkrøplet.

I dette eksemplet er resultatene av konfidensintervallberegningene klinisk signifikante.

Sannsynligheter, anerkjent som tilstrekkelig til å trygt bedømme de generelle parametrene basert på prøvekarakteristikker, kalles tillitsmann .

Vanligvis er verdier på 0,95 valgt som konfidenssannsynligheter; 0,99; 0,999 (de er vanligvis uttrykt i prosent - 95%, 99%, 99,9%). Jo høyere grad av ansvar, jo mer høy level konfidensnivå: 99 % eller 99,9 %.

Et konfidensnivå på 0,95 (95%) anses som tilstrekkelig i Vitenskapelig forskning i området til fysisk kultur og sport.

Intervallet der det aritmetiske gjennomsnittet for den generelle populasjonen er funnet med en gitt konfidenssannsynlighet kalles konfidensintervall .

Vurdering Betydningsnivå er et lite tall α, hvis verdi antyder sannsynligheten for at det er utenfor konfidensintervallet. I samsvar med konfidenssannsynlighetene: α 1 = (1-0,95) = 0,05; α 2 \u003d (1 - 0,99) \u003d 0,01, osv.

Konfidensintervall for gjennomsnittet ( matematisk forventning) en normal distribusjon:

,

hvor er påliteligheten (konfidenssannsynligheten) for estimeringen; - prøvegjennomsnitt; s - korrigert standardavvik; n er prøvestørrelsen; t γ er verdien bestemt fra Elevens fordelingstabell (se vedlegg, Tabell 1) for gitte n og γ.

For å finne grensene for konfidensintervallet til gjennomsnittsverdien til den generelle befolkningen, er det nødvendig:

1. Beregn og s.

2. Det er nødvendig å sette konfidenssannsynligheten (reliabilitet) γ for estimering til 0,95 (95 %) eller signifikansnivået α 0,05 (5 %)

3. I henhold til tabellen t - Elevens fordelinger (vedlegg, tabell 1) finn grenseverdiene til t γ .

Siden t-fordelingen er symmetrisk om nullpunktet, er det tilstrekkelig å bare vite den positive verdien av t. For eksempel, hvis prøvestørrelsen er n=16, vil antallet frihetsgrader (frihetsgrader, df) t– distribusjoner df=16 - 1=15 . I følge tabellen 1 søknad t 0,05 = 2,13 .

4. Vi finner grensene for konfidensintervallet for α = 0,05 og n=16:

Tillitsgrenser:

For store prøvestørrelser (n ≥ 30) t – Elevens fordeling blir normal. Derfor er konfidensintervallet for for n ≥ 30 kan skrives som følger:

hvor u er prosentpoengene av den normaliserte normalfordelingen.

For standard konfidenssannsynligheter (95 %, 99 %; 99,9 %) og signifikansnivåer α-verdier ( u) er gitt i tabell 8.

Tabell 8

Verdier for standard konfidensnivå α

α u
0,05 1,96
0,01 2,58
0,001 3,28

Basert på dataene i eksempel 1, definerer vi grensene for 95 % konfidensintervall (α = 0,05) for gjennomsnittsresultatet av å hoppe opp fra stedet. I vårt eksempel er prøvestørrelsen n = 65, så kan anbefalinger for en stor prøvestørrelse brukes til å bestemme grensene for konfidensintervallet.

Ofte må takstmannen analysere eiendomsmarkedet til segmentet som takstobjektet befinner seg i. Hvis markedet er utviklet, kan det være vanskelig å analysere hele settet med presenterte objekter, derfor brukes et utvalg av objekter til analyse. Denne prøven er ikke alltid homogen, noen ganger er det nødvendig å fjerne den for ekstremer - for høye eller for lave markedstilbud. For dette formålet brukes den konfidensintervall. Hensikten med denne studien er å gjennomføre en komparativ analyse av to metoder for å beregne konfidensintervallet og velge det beste beregningsalternativet når man arbeider med ulike prøver i estimatica.pro-systemet.

Konfidensintervall - beregnet på grunnlag av utvalget, intervallet av verdier av karakteristikken, som med en kjent sannsynlighet inneholder den estimerte parameteren for den generelle befolkningen.

Meningen med å beregne konfidensintervallet er å bygge et slikt intervall basert på prøvedataene slik at det med en gitt sannsynlighet kan hevdes at verdien av den estimerte parameteren er i dette intervallet. Med andre ord inneholder konfidensintervallet med en viss sannsynlighet den ukjente verdien av den estimerte mengden. Jo bredere intervall, jo høyere unøyaktighet.

Det finnes ulike metoder for å bestemme konfidensintervallet. I denne artikkelen vil vi vurdere 2 måter:

  • gjennom median og standardavvik;
  • gjennom den kritiske verdien til t-statistikken (Students koeffisient).

Stadier komparativ analyse forskjellige måter CI-beregning:

1. danne et dataeksempel;

2. behandle det statistiske metoder: beregne gjennomsnitt, median, varians osv.;

3. vi beregner konfidensintervallet på to måter;

4. Analyser de rensede prøvene og de oppnådde konfidensintervallene.

Trinn 1. Dataprøvetaking

Prøven ble dannet ved hjelp av estimatica.pro-systemet. Utvalget inkluderte 91 salgstilbud 1 roms leiligheter i 3. prissone med typen layout "Khrusjtsjov".

Tabell 1. Startprøve

Prisen på 1 kvm, c.u.

Figur 1. Opprinnelig prøve



Trinn 2. Behandling av den første prøven

Prøvebehandling med statistiske metoder krever beregning av følgende verdier:

1. Aritmetisk gjennomsnitt

2. Median - et tall som karakteriserer prøven: nøyaktig halvparten av prøveelementene er større enn medianen, den andre halvparten er mindre enn medianen

(for en prøve med et oddetall verdier)

3. Område - forskjellen mellom maksimums- og minimumsverdiene i prøven

4. Varians - brukes til å mer nøyaktig estimere variasjonen i data

5. Standardavviket for prøven (heretter referert til som RMS) er den vanligste indikatoren på spredningen av justeringsverdier rundt det aritmetiske gjennomsnittet.

6. Variasjonskoeffisient - reflekterer graden av spredning av justeringsverdier

7. oscillasjonskoeffisient - reflekterer den relative fluktuasjonen av ekstremverdiene av prisene i utvalget rundt gjennomsnittet

Tabell 2. Statistiske indikatorer for det opprinnelige utvalget

Variasjonskoeffisienten, som karakteriserer homogeniteten til dataene, er 12,29 %, men oscillasjonskoeffisienten er for stor. Dermed kan vi slå fast at den opprinnelige prøven ikke er homogen, så la oss gå videre til å beregne konfidensintervallet.

Trinn 3. Beregning av konfidensintervallet

Metode 1. Beregning gjennom median og standardavvik.

Konfidensintervallet bestemmes som følger: minimumsverdien - standardavviket trekkes fra medianen; maksimumsverdien - standardavviket legges til medianen.

Dermed er konfidensintervallet (47179 CU; 60689 CU)

Ris. 2. Verdier innenfor konfidensintervall 1.



Metode 2. Bygge et konfidensintervall gjennom den kritiske verdien av t-statistikk (Students koeffisient)

S.V. Gribovsky beskriver i boken "Matematiske metoder for å vurdere verdien av eiendom" en metode for å beregne konfidensintervallet gjennom Elevens koeffisient. Ved beregning med denne metoden må estimatoren selv sette signifikansnivået ∝, som bestemmer sannsynligheten for at konfidensintervallet skal bygges. Signifikansnivåer på 0,1 er ofte brukt; 0,05 og 0,01. De tilsvarer konfidenssannsynligheter på 0,9; 0,95 og 0,99. Med denne metoden anses de sanne verdiene til den matematiske forventningen og variansen å være praktisk talt ukjent (noe som nesten alltid er sant når man løser praktiske evalueringsproblemer).

Konfidensintervallformel:

n - prøvestørrelse;

Den kritiske verdien av t-statistikk (Students fordelinger) med et signifikansnivå ∝, antall frihetsgrader n-1, som bestemmes av spesielle statistiske tabeller eller ved hjelp av MS Excel (→"Statistical"→ STUDRASPOBR);

∝ - signifikansnivå, vi tar ∝=0,01.

Ris. 2. Verdier innenfor konfidensintervallet 2.

Trinn 4. Analyse av ulike måter å beregne konfidensintervallet på

To måter å beregne konfidensintervallet - gjennom medianen og studentens koeffisient - førte til ulike verdier intervaller. Følgelig ble to forskjellige rensede prøver oppnådd.

Tabell 3. Statistiske indikatorer for tre utvalg.

Indeks

Opprinnelig prøve

1 alternativ

Alternativ 2

Mener

Spredning

Coef. variasjoner

Coef. svingninger

Antall pensjonerte objekter, stk.

Basert på de utførte beregningene kan det sies at ulike metoder verdiene til konfidensintervallene krysser hverandre, slik at du kan bruke hvilken som helst av beregningsmetodene etter evaluatorens skjønn.

Vi tror imidlertid at når du arbeider i estimatica.pro-systemet, er det tilrådelig å velge en metode for å beregne konfidensintervallet, avhengig av graden av markedsutvikling:

  • hvis markedet ikke er utviklet, bruk metoden for beregning gjennom median og standardavvik, siden antallet pensjonerte objekter i dette tilfellet er lite;
  • hvis markedet er utviklet, bruk beregningen gjennom den kritiske verdien av t-statistikk (Students koeffisient), siden det er mulig å danne et stort innledende utvalg.

Ved utarbeidelsen av artikkelen ble det brukt:

1. Gribovsky S.V., Sivets S.A., Levykina I.A. Matematiske metoder for vurdering av eiendomsverdi. Moskva, 2014

2. Data fra estimatica.pro-systemet

En av metodene for å løse statistiske problemer er beregning av konfidensintervallet. Den brukes som et foretrukket alternativ til punktestimering når prøvestørrelsen er liten. Det skal bemerkes at prosessen med å beregne konfidensintervallet er ganske komplisert. Men verktøyene til Excel-programmet lar deg forenkle det noe. La oss finne ut hvordan dette gjøres i praksis.

Denne metoden brukes i intervallestimering av ulike statistiske størrelser. Hovedoppgaven med denne beregningen er å kvitte seg med usikkerhetene til punktestimatet.

I Excel er det to hovedalternativer for å utføre beregninger ved hjelp av denne metoden: når variansen er kjent og når den er ukjent. I det første tilfellet brukes funksjonen til beregninger TILLITSNORM, og i den andre TRUST.STUDENT.

Metode 1: KONFIDENS NORM-funksjon

Operatør TILLITSNORM, som refererer til den statistiske gruppen av funksjoner, dukket først opp i Excel 2010. Tidligere versjoner av dette programmet bruker dets motstykke TILLIT. Denne operatørens oppgave er å beregne et konfidensintervall med normalfordeling for populasjonsgjennomsnittet.

Syntaksen er som følger:

KONFIDENSNORM(alfa; standard_dev; størrelse)

"Alfa" er et argument som indikerer signifikansnivået som brukes til å beregne konfidensnivået. Konfidensnivået er lik følgende uttrykk:

(1-"Alfa")*100

"Standardavvik" er et argument, hvis essens fremgår av navnet. Dette er standardavviket til den foreslåtte prøven.

"Størrelsen" er et argument som bestemmer størrelsen på utvalget.

Alle argumenter gitt operatør er obligatoriske.

Funksjon TILLIT har nøyaktig de samme argumentene og mulighetene som den forrige. Syntaksen er:

TRUST(alfa; standard_dev; størrelse)

Som du kan se, er forskjellene bare i navnet til operatøren. Denne funksjonen har blitt beholdt i Excel 2010 og nyere versjoner i en spesiell kategori av kompatibilitetshensyn. "Kompatibilitet". I versjoner av Excel 2007 og tidligere er den til stede i hovedgruppen av statistiske operatører.

Konfidensintervallgrensen bestemmes ved hjelp av formelen i følgende skjema:

X+(-) KONFIDENS NORM

Hvor X er prøvegjennomsnittet, som er plassert i midten av det valgte området.

La oss nå se på hvordan du beregner konfidensintervallet ved å bruke et spesifikt eksempel. Det ble utført 12 tester, som resulterte i forskjellige resultater, som er oppført i tabellen. Dette er vår helhet. Standardavviket er 8. Vi må beregne konfidensintervallet på 97 % konfidensnivå.

  1. Velg cellen der resultatet av databehandlingen skal vises. Ved å klikke på knappen "Sett inn funksjon".
  2. Vises Funksjonsveiviser. Gå til kategori "Statistisk" og marker navnet "CONFIDENCE.NORM". Klikk deretter på knappen OK.
  3. Argumentvinduet åpnes. Feltene tilsvarer naturligvis navnene på argumentene.
    Sett markøren til det første feltet - "Alfa". Her bør vi spesifisere betydningsnivået. Som vi husker er vårt tillitsnivå 97 %. Samtidig sa vi at det beregnes på denne måten:

    (1-tillitsnivå)/100

    Det vil si at ved å erstatte verdien får vi:

    Ved enkle beregninger finner vi ut at argumentet "Alfa" er lik 0,03 . Skriv inn denne verdien i feltet.

    Som du vet er standardavviket lik 8 . Derfor i felten "Standardavvik" bare skriv ned det tallet.

    I felt "Størrelsen" du må angi antall elementer i testene som er utført. Som vi husker, de 12 . Men for å automatisere formelen og ikke redigere den hver gang en ny test utføres, la oss sette denne verdien ikke til et vanlig tall, men ved å bruke operatøren KRYSS AV. Så vi setter markøren i feltet "Størrelsen", og klikk deretter på trekanten, som er plassert til venstre for formellinjen.

    En liste over nylig brukte funksjoner vises. Hvis operatøren KRYSS AV brukt av deg nylig, bør den være på denne listen. I dette tilfellet trenger du bare å klikke på navnet. Ellers, hvis du ikke finner det, så gå til poenget "Flere funksjoner...".

  4. Virker allerede kjent for oss Funksjonsveiviser. Går tilbake til gruppen "Statistisk". Vi velger navnet der "KRYSS AV". Klikk på knappen OK.
  5. Argumentvinduet for operatoren ovenfor vises. Denne funksjonen er laget for å beregne antall celler i det angitte området som inneholder numeriske verdier. Syntaksen er som følger:

    ANTALL(verdi1, verdi2,...)

    Argumentgruppe "Verdier" er en referanse til området der du ønsker å beregne antall celler fylt med numeriske data. Totalt kan det være opptil 255 slike argumenter, men i vårt tilfelle trenger vi bare ett.

    Sett markøren i feltet "Verdi 1" og, hold nede venstre museknapp, velg området på arket som inneholder vår populasjon. Da vil adressen vises i feltet. Klikk på knappen OK.

  6. Etter det vil applikasjonen utføre beregningen og vise resultatet i cellen der den er selv. I vårt spesielle tilfelle ble formelen slik:

    KONFIDENSNORM(0,03;8;ANTALL(B2:B13))

    Det samlede resultatet av beregningene var 5,011609 .

  7. Men det er ikke alt. Som vi husker, beregnes grensen for konfidensintervallet ved å addere og trekke fra den gjennomsnittlige prøveverdien til beregningsresultatet TILLITSNORM. På denne måten beregnes henholdsvis høyre og venstre grenser for konfidensintervallet. Selve prøvegjennomsnittet kan beregnes ved hjelp av operatøren GJENNOMSNITT.

    Denne operatoren er laget for å beregne det aritmetiske gjennomsnittet av det valgte tallområdet. Den har følgende ganske enkle syntaks:

    AVERAGE(tall1, tall2,...)

    Argument "Antall" kan enten være en enkelt numerisk verdi eller en referanse til celler eller til og med hele områder som inneholder dem.

    Så velg cellen der beregningen av gjennomsnittsverdien skal vises, og klikk på knappen "Sett inn funksjon".

  8. åpnes Funksjonsveiviser. Tilbake til kategori "Statistisk" og velg et navn fra listen "GJENNOMSNITT". Som alltid, klikk på knappen OK.
  9. Argumentvinduet åpnes. Sett markøren i feltet "Nummer 1" og med venstre museknapp trykket, velg hele verdiområdet. Etter at koordinatene er vist i feltet, klikker du på knappen OK.
  10. Deretter GJENNOMSNITT sender ut resultatet av beregningen til et arkelement.
  11. Vi beregner den høyre grensen for konfidensintervallet. For å gjøre dette, velg en egen celle, sett tegnet «=» og legg til innholdet i arkelementene der resultatene av beregningen av funksjoner er plassert GJENNOMSNITT og TILLITSNORM. For å utføre beregningen, trykk på knappen Tast inn. I vårt tilfelle fikk vi følgende formel:

    Beregningsresultat: 6,953276

  12. På samme måte beregner vi venstre grense for konfidensintervallet, bare denne gangen fra resultatet av beregningen GJENNOMSNITT trekke fra resultatet av beregningen av operatøren TILLITSNORM. Det viser seg formelen for vårt eksempel av følgende type:

    Beregningsresultat: -3,06994

  13. Vi prøvde å beskrive i detalj alle trinnene for å beregne konfidensintervallet, så vi beskrev hver formel i detalj. Men du kan kombinere alle handlingene i én formel. Beregningen av den høyre grensen for konfidensintervallet kan skrives som følger:

    AVERAGE(B2:B13)+CONFIDENCE(0.03;8;ANTALL(B2:B13))

  14. En lignende beregning av venstre kant vil se slik ut:

    AVERAGE(B2:B13)-CONFIDENCE.NORM(0.03,8,ANTALL(B2:B13))

Metode 2: TRUST.STUDENT funksjon

I tillegg er det en annen funksjon i Excel som er relatert til beregningen av konfidensintervallet - TRUST.STUDENT. Den har bare dukket opp siden Excel 2010. Denne operatoren utfører beregningen av populasjonskonfidensintervallet ved hjelp av Students t-fordeling. Det er veldig praktisk å bruke det i tilfelle hvor variansen og følgelig standardavviket er ukjent. Operatorsyntaksen er:

TRUST.STUDENT(alfa;standard_dev;størrelse)

Som du kan se, forble navnene på operatørene i dette tilfellet uendret.

La oss se hvordan vi beregner grensene for konfidensintervallet med et ukjent standardavvik ved å bruke eksemplet med samme populasjon som vi vurderte i forrige metode. Nivået på tillit, som forrige gang, vil vi ta 97%.

  1. Velg cellen der beregningen skal gjøres. Klikk på knappen "Sett inn funksjon".
  2. I det åpne Funksjonsveiviser gå til kategori "Statistisk". Velg et navn "TRUST.STUDENT". Klikk på knappen OK.
  3. Argumentvinduet for den angitte operatoren startes.

    I felt "Alfa", gitt at konfidensnivået er 97 %, skriver vi ned tallet 0,03 . Den andre gangen vil vi ikke dvele ved prinsippene for å beregne denne parameteren.

    Etter det setter du markøren i feltet "Standardavvik". Denne gangen er denne indikatoren ukjent for oss, og den må beregnes. Dette gjøres ved hjelp av en spesiell funksjon - STDEV.B. For å kalle opp vinduet til denne operatøren, klikk på trekanten til venstre for formellinjen. Hvis vi ikke finner ønsket navn i listen som åpnes, så gå til elementet "Flere funksjoner...".

  4. løper Funksjonsveiviser. Flytter til kategori "Statistisk" og merk navnet "STDEV.B". Klikk deretter på knappen OK.
  5. Argumentvinduet åpnes. operatøroppgave STDEV.B er definisjonen på standardavvik ved prøvetaking. Syntaksen ser slik ut:

    STDEV.V(nummer1;nummer2,…)

    Det er lett å gjette at argumentet "Antall" er adressen til utvalgselementet. Hvis utvalget er plassert i en enkelt matrise, kan du gi en kobling til dette området ved å bruke bare ett argument.

    Sett markøren i feltet "Nummer 1" og som alltid, hold nede venstre museknapp, velg settet. Etter at koordinatene er i feltet, ikke skynd deg å trykke på knappen OK fordi resultatet blir feil. Først må vi gå tilbake til operatørargumentvinduet TRUST.STUDENT for å komme med det siste argumentet. For å gjøre dette, klikk på det aktuelle navnet i formellinjen.

  6. Argumentvinduet til den allerede kjente funksjonen åpnes igjen. Sett markøren i feltet "Størrelsen". Igjen, klikk på trekanten som allerede er kjent for oss for å gå til valget av operatører. Som du forstår trenger vi et navn "KRYSS AV". Siden vi brukte denne funksjonen i beregningene i forrige metode, er den til stede i denne listen, så bare klikk på den. Hvis du ikke finner det, følg algoritmen beskrevet i den første metoden.
  7. Komme inn i argumentasjonsvinduet KRYSS AV, sett markøren i feltet "Nummer 1" og med museknappen nede, velg samlingen. Klikk deretter på knappen OK.
  8. Etter det beregner og viser programmet verdien av konfidensintervallet.
  9. For å bestemme grensene må vi igjen beregne prøvegjennomsnittet. Men gitt at beregningsalgoritmen ved hjelp av formelen GJENNOMSNITT det samme som i forrige metode, og til og med resultatet har ikke endret seg, vi vil ikke dvele ved dette i detalj en gang til.
  10. Legge sammen resultatene av beregningen GJENNOMSNITT og TRUST.STUDENT, får vi den rette grensen for konfidensintervallet.
  11. Å trekke fra beregningsresultatene til operatøren GJENNOMSNITT beregningsresultat TRUST.STUDENT, vi har venstre grense for konfidensintervallet.
  12. Hvis beregningen er skrevet i en formel, vil beregningen av høyre kant i vårt tilfelle se slik ut:

    AVERAGE(B2:B13)+ELEVENTS TILLIT(0,03,STDV(B2:B13),ANTALL(B2:B13))

  13. Følgelig vil formelen for beregning av venstre kant se slik ut:

    AVERAGE(B2:B13)-ELEVENTS TILLIT(0,03,STDV(B2:B13),ANTALL(B2:B13))

Som du kan se, gjør verktøyene til Excel-programmet det mulig å betydelig lette beregningen av konfidensintervallet og dets grenser. For disse formålene brukes separate operatorer for prøver hvis varians er kjent og ukjent.

Konstantin Krawchik forklarer tydelig hva et konfidensintervall er i medisinsk forskning og hvordan man bruker det

"Katren-Style" fortsetter å publisere en syklus av Konstantin Kravchik om medisinsk statistikk. I to tidligere artikler har forfatteren vært inne på forklaringen av slike begreper som og.

Konstantin Kravchik

Matematiker-analytiker. Spesialist innen statistisk forskning innen medisin og humaniora

Moskva by

Svært ofte i artikler om kliniske studier kan du finne en mystisk setning: "konfidensintervall" (95 % CI eller 95 % CI – konfidensintervall). For eksempel kan en artikkel si: "Studentens t-test ble brukt til å vurdere betydningen av forskjeller, med et 95 % konfidensintervall beregnet."

Hva er verdien av "95 % konfidensintervall" og hvorfor beregne det?

Hva er et konfidensintervall? – Dette er området der de sanne middelverdiene i befolkningen faller. Og hva, det er "usanne" gjennomsnitt? På en måte, ja, det gjør de. I forklarte vi at det er umulig å måle parameteren av interesse i hele populasjonen, så forskerne nøyer seg med et begrenset utvalg. I dette utvalget (for eksempel etter kroppsvekt) er det én gjennomsnittsverdi (en viss vekt), som vi bedømmer gjennomsnittsverdien etter i hele befolkningen generelt. Det er imidlertid lite sannsynlig at gjennomsnittsvekten i utvalget (spesielt en liten en) vil falle sammen med gjennomsnittsvekten i befolkningen generelt. Derfor er det mer riktig å beregne og bruke rekkevidden av gjennomsnittsverdier for den generelle befolkningen.

Anta for eksempel at 95 % konfidensintervall (95 % KI) for hemoglobin er mellom 110 og 122 g/L. Dette betyr at med 95 % sannsynlighet vil den sanne gjennomsnittsverdien for hemoglobin i den generelle befolkningen være i området fra 110 til 122 g/L. Med andre ord, vi kjenner ikke gjennomsnittlig hemoglobin i den generelle befolkningen, men vi kan indikere verdiområdet for denne funksjonen med 95% sannsynlighet.

Konfidensintervaller er spesielt relevante for forskjellen i middel mellom grupper, eller det som kalles effektstørrelsen.

Anta at vi sammenlignet effektiviteten til to jernpreparater: en som har vært på markedet lenge og en som nettopp er registrert. Etter behandlingsforløpet ble konsentrasjonen av hemoglobin i de studerte pasientgruppene vurdert, og det statistiske programmet beregnet for oss at forskjellen mellom gjennomsnittsverdiene til de to gruppene med en sannsynlighet på 95 % er i området fra 1,72 til 14,36 g/l (tabell 1).

Tab. 1. Kriterium for uavhengige utvalg
(gruppene sammenlignes etter hemoglobinnivå)

Dette skal tolkes slik: Hos en del av pasientene i den generelle befolkningen som tar et nytt legemiddel, vil hemoglobinet i gjennomsnitt være høyere med 1,72–14,36 g/l enn hos de som tok et allerede kjent legemiddel.

Med andre ord, i den generelle befolkningen er forskjellen i gjennomsnittsverdiene for hemoglobin i grupper med 95 % sannsynlighet innenfor disse grensene. Det vil være opp til forskeren å vurdere om dette er mye eller lite. Poenget med alt dette er at vi ikke jobber med én gjennomsnittsverdi, men med en rekke verdier, derfor estimerer vi mer pålitelig forskjellen i en parameter mellom grupper.

I statistiske pakker, etter forskerens skjønn, kan man uavhengig begrense eller utvide grensene for konfidensintervallet. Ved å senke sannsynlighetene for konfidensintervallet, begrenser vi middelområdet. For eksempel, ved 90 % KI, vil området for gjennomsnitt (eller gjennomsnittlige forskjeller) være smalere enn ved 95 % KI.

Omvendt, øker sannsynligheten til 99 % utvider verdiområdet. Ved sammenligning av grupper kan den nedre grensen for CI krysse nullmerket. For eksempel, hvis vi utvidet grensene for konfidensintervallet til 99 %, varierte grensene for intervallet fra –1 til 16 g/L. Dette betyr at i den generelle befolkningen er det grupper, hvor forskjellen mellom gjennomsnittene for den studerte egenskapen er 0 (M=0).

Konfidensintervaller kan brukes til å teste statistiske hypoteser. Hvis konfidensintervallet krysser nullverdien, er nullhypotesen, som antar at gruppene ikke er forskjellige i den studerte parameteren, sann. Et eksempel er beskrevet ovenfor, da vi utvidet grensene til 99 %. Et sted i den generelle befolkningen fant vi grupper som ikke var forskjellige på noen måte.

95 % konfidensintervall for forskjell i hemoglobin, (g/l)


Figuren viser 95 % konfidensintervall for gjennomsnittlig hemoglobinforskjell mellom de to gruppene som en linje. Linjen passerer nullmerket, derfor er det en forskjell mellom middelene lik null, noe som bekrefter nullhypotesen om at gruppene ikke er forskjellige. Forskjellen mellom gruppene varierer fra -2 til 5 g/l, noe som betyr at hemoglobin enten kan synke med 2 g/l eller øke med 5 g/l.

Konfidensintervallet er en svært viktig indikator. Takket være den kan du se om forskjellene i gruppene virkelig skyldtes forskjellen i gjennomsnittene eller på grunn av et stort utvalg, for med et stort utvalg er sjansen for å finne forskjeller større enn med et lite.

I praksis kan det se slik ut. Vi tok en prøve på 1000 personer, målte hemoglobinnivået og fant ut at konfidensintervallet for forskjellen i gjennomsnittet ligger fra 1,2 til 1,5 g/L. Nivået av statistisk signifikans i dette tilfellet s

Vi ser at hemoglobinkonsentrasjonen økte, men nesten umerkelig, derfor dukket den statistiske signifikansen opp nettopp på grunn av prøvestørrelsen.

Konfidensintervaller kan beregnes ikke bare for gjennomsnitt, men også for proporsjoner (og risikoforhold). For eksempel er vi interessert i konfidensintervallet for andelen pasienter som oppnådde remisjon mens de tok det utviklede stoffet. Anta at 95 % KI for proporsjonene, dvs. for andelen slike pasienter, er i området 0,60–0,80. Dermed kan vi si at medisinen vår har en terapeutisk effekt i 60 til 80 % av tilfellene.