Формулата е доверителният интервал на всички стойности. Оценка на случайна грешка

Всяка извадка дава само приблизителна представа за генералната съвкупност и всички статистически характеристики на извадката (средна стойност, режим, дисперсия ...) са някакво приближение или да речем оценка на общите параметри, които в повечето случаи не могат да бъдат изчислени поради недостъпността на общото население (Фигура 20) .

Фигура 20. Грешка при вземане на проби

Но можете да посочите интервала, в който с определена степен на вероятност се намира истинската (обща) стойност на статистическата характеристика. Този интервал се нарича д доверителен интервал (CI).

Така че общата средна стойност с вероятност от 95% е в рамките

от до, (20)

където T - таблична стойност на критерия на Стюдънт за α =0,05 и f= н-1

Може да се намери и 99% CI, в този случай T избран за α =0,01.

Какво е практическото значение на доверителния интервал?

    Широкият доверителен интервал показва, че средната стойност на извадката не отразява точно средната стойност на популацията. Това обикновено се дължи на недостатъчен размер на извадката или на нейната хетерогенност, т.е. голяма дисперсия. И двете дават голяма грешка в средната стойност и съответно по-широк CI. И това е причината да се върнем към етапа на планиране на изследването.

    Горните и долните граници на CI оценяват дали резултатите ще бъдат клинично значими

Нека се спрем по-подробно на въпроса за статистическата и клиничната значимост на резултатите от изследването на груповите свойства. Спомнете си, че задачата на статистиката е да открие поне някои разлики в общите съвкупности въз основа на извадкови данни. Задачата на лекаря е да намери такива (не каквито и да е) разлики, които ще помогнат за диагностицирането или лечението. И не винаги статистическите заключения са основа за клинични заключения. По този начин, статистически значимо понижение на хемоглобина с 3 g/l не е причина за безпокойство. И обратно, ако някакъв проблем в човешкото тяло няма масов характер на ниво цялото население, това не е причина да не се занимаваме с този проблем.

Ще разгледаме тази позиция в пример.

Изследователите се чудеха дали момчетата, които са имали някакъв вид инфекциозно заболяване, изостават от връстниците си в растеж. За целта е проведено селективно изследване, в което са участвали 10 момчета с това заболяване. Резултатите са представени в таблица 23.

Таблица 23. Статистически резултати

долна граница

горен лимит

Спецификации (cm)

средата

От тези изчисления следва, че селективният среден ръст на 10-годишните момчета, прекарали някакво инфекциозно заболяване, е близък до нормалния (132,5 cm). Въпреки това, долната граница на доверителния интервал (126,6 см) показва, че има 95% вероятност истинският среден ръст на тези деца да съответства на понятието "нисък ръст", т.е. тези деца са закърнели.

В този пример резултатите от изчисленията на доверителния интервал са клинично значими.

Вероятности, признати за достатъчни за уверена преценка на общите параметри въз основа на характеристиките на извадката, се наричат фидуциар .

Обикновено стойности от 0,95 се избират като доверителни вероятности; 0,99; 0,999 (обикновено се изразяват в проценти - 95%, 99%, 99,9%). Колкото по-висока е степента на отговорност, толкова повече високо нивониво на достоверност: 99% или 99,9%.

Ниво на доверие от 0,95 (95%) се счита за достатъчно в научно изследванев района на физическо възпитаниеи спорт.

Интервалът, в който средната аритметична извадка на генералната съвкупност се намира с дадена доверителна вероятност, се нарича доверителен интервал .

Ниво на значимост на оценкатае малко число α, чиято стойност предполага вероятността то да е извън доверителния интервал. В съответствие с доверителните вероятности: α 1 = (1-0,95) = 0,05; α 2 \u003d (1 - 0,99) \u003d 0,01 и т.н.

Доверителен интервал за средната стойност ( математическо очакване) анормална дистрибуция:

,

където е надеждността (вероятността за доверие) на оценката; - извадкова средна; s - коригирано стандартно отклонение; n е размерът на извадката; t γ е стойността, определена от таблицата за разпределение на Стюдънт (вижте Приложение, Таблица 1) за дадени n и γ.

За да се намерят границите на доверителния интервал на средната стойност на генералната съвкупност, е необходимо:

1. Изчислете и s.

2. Необходимо е да се зададе доверителната вероятност (надеждност) γ на оценката 0,95 (95%) или нивото на значимост α 0,05 (5%)

3. Съгласно таблицата t - Разпределенията на Студент (Приложение, Таблица 1) намерете граничните стойности на t γ .

Тъй като t-разпределението е симетрично спрямо нулевата точка, достатъчно е да се знае само положителната стойност на t. Например, ако размерът на извадката е n=16, тогава броят на степените на свобода (степени на свобода, df) T– разпределения df=16 - 1=15 . Според таблицата 1 приложение t 0,05 = 2,13 .

4. Намираме границите на доверителния интервал за α = 0,05 и n=16:

Граници на доверието:

За големи размери на извадката (n ≥ 30) t – Разпределението на учениците става нормално. Следователно доверителният интервал за за n ≥ 30 може да се запише по следния начин:

където uса процентните пунктове на нормализираното нормално разпределение.

За стандартни доверителни вероятности (95%, 99%; 99,9%) и нива на значимост α стойности ( u) са дадени в таблица 8.

Таблица 8

Стойности за стандартни нива на доверие α

α u
0,05 1,96
0,01 2,58
0,001 3,28

Въз основа на данните от пример 1, ние определяме границите на 95% доверителен интервал (α = 0,05) за среден резултат от скок нагоре от място.В нашия пример размерът на извадката е n = 65, тогава препоръките за голям размер на извадката могат да се използват за определяне на границите на доверителния интервал.

Често оценителят трябва да анализира пазара на недвижими имоти в сегмента, в който се намира обектът на оценка. Ако пазарът е развит, може да бъде трудно да се анализира целия набор от представени обекти, следователно за анализ се използва извадка от обекти. Тази извадка не винаги е хомогенна, понякога се налага нейното изчистване от крайности - твърде високи или твърде ниски пазарни оферти. За целта се прилага доверителен интервал. Целта на това изследване е да се извърши сравнителен анализ на два метода за изчисляване на доверителния интервал и да се избере най-добрият вариант за изчисление при работа с различни проби в системата estimatica.pro.

Доверителен интервал - изчислен въз основа на извадката, интервалът от стойности на атрибута, който с известна вероятност съдържа оценения параметър на генералната съвкупност.

Смисълът на изчисляването на доверителния интервал е да се изгради такъв интервал въз основа на данните от извадката, така че да може да се твърди с дадена вероятност, че стойността на оценения параметър е в този интервал. С други думи, доверителният интервал с определена вероятност съдържа неизвестната стойност на оцененото количество. Колкото по-широк е интервалът, толкова по-голяма е неточността.

Има различни методи за определяне на доверителния интервал. В тази статия ще разгледаме 2 начина:

  • чрез медианата и стандартното отклонение;
  • чрез критичната стойност на t-статистиката (коефициент на Стюдънт).

Етапи сравнителен анализ различни начиниИзчисление на CI:

1. формира извадка от данни;

2. обработвам го статистически методи: изчисляване на средна стойност, медиана, дисперсия и др.;

3. изчисляваме доверителния интервал по два начина;

4. Анализирайте почистените проби и получените доверителни интервали.

Етап 1. Извадка от данни

Извадката е формирана чрез системата estimatica.pro. Извадката включва 91 оферти за продажба 1 стайни апартаментив 3-та ценова зона с тип оформление "Хрушчов".

Таблица 1. Първоначална проба

Цената на 1 кв.м., к.у.

Фиг. 1. Първоначална проба



Етап 2. Обработка на първоначалната проба

Обработката на извадката чрез статистически методи изисква изчисляване на следните стойности:

1. Средно аритметично

2. Медиана - число, което характеризира извадката: точно половината от елементите на извадката са по-големи от медианата, другата половина е по-малка от медианата

(за извадка с нечетен брой стойности)

3. Диапазон - разликата между максималните и минималните стойности в извадката

4. Дисперсия - използва се за по-точна оценка на вариацията в данните

5. Стандартното отклонение за извадката (наричано по-нататък RMS) е най-често срещаният индикатор за дисперсията на коригиращите стойности около средноаритметичната стойност.

6. Коефициент на вариация - отразява степента на дисперсия на коригиращите стойности

7. коефициент на колебание - отразява относителното колебание на екстремните стойности на цените в извадката около средната

Таблица 2. Статистически показатели на оригиналната извадка

Коефициентът на вариация, който характеризира хомогенността на данните, е 12,29%, но коефициентът на колебание е твърде голям. По този начин можем да заявим, че оригиналната извадка не е хомогенна, така че нека да преминем към изчисляване на доверителния интервал.

Етап 3. Изчисляване на доверителния интервал

Метод 1. Изчисляване чрез медиана и стандартно отклонение.

Доверителният интервал се определя, както следва: минималната стойност - стандартното отклонение се изважда от медианата; максималната стойност - стандартното отклонение се добавя към медианата.

Така доверителният интервал (47179 CU; 60689 CU)

Ориз. 2. Стойности в рамките на доверителен интервал 1.



Метод 2. Изграждане на доверителен интервал чрез критичната стойност на t-статистиката (коефициент на Стюдънт)

С.В. Грибовски в книгата "Математически методи за оценка на стойността на имуществото" описва метод за изчисляване на доверителния интервал чрез коефициента на Стюдент. При изчисляване по този метод самият оценител трябва да зададе нивото на значимост ∝, което определя вероятността, с която ще бъде изграден доверителният интервал. Обикновено се използват нива на значимост от 0,1; 0,05 и 0,01. Те съответстват на доверителни вероятности от 0,9; 0,95 и 0,99. С този метод истинските стойности на математическото очакване и дисперсията се считат за практически неизвестни (което почти винаги е вярно при решаване на практически задачи за оценка).

Формула за доверителен интервал:

n - размер на извадката;

Критичната стойност на t-статистиките (разпределенията на Стюдънт) с ниво на значимост ∝, броят на степените на свобода n-1, което се определя от специални статистически таблици или с помощта на MS Excel (→"Статистически"→ СТУДРАСПОБР);

∝ - ниво на значимост, приемаме ∝=0,01.

Ориз. 2. Стойности в рамките на доверителния интервал 2.

Стъпка 4. Анализ на различни начини за изчисляване на доверителния интервал

Два начина за изчисляване на доверителния интервал - чрез медианата и коефициента на Стюдънт - доведоха до различни стойностиинтервали. Съответно бяха получени две различни пречистени проби.

Таблица 3. Статистически показатели за три извадки.

Индекс

Първоначална проба

1 вариант

Вариант 2

Означава

дисперсия

Коеф. вариации

Коеф. трептения

Брой излезли от експлоатация обекти, бр.

Въз основа на направените изчисления може да се каже, че различни методистойностите на доверителните интервали се пресичат, така че можете да използвате всеки от методите за изчисление по преценка на оценителя.

Ние обаче вярваме, че при работа в системата estimatica.pro е препоръчително да изберете метод за изчисляване на доверителния интервал в зависимост от степента на развитие на пазара:

  • ако пазарът не е развит, приложете метода на изчисление чрез медианата и стандартното отклонение, тъй като броят на пенсионираните обекти в този случай е малък;
  • ако пазарът е развит, приложете изчислението чрез критичната стойност на t-статистиката (коефициент на Стюдънт), тъй като е възможно да се формира голяма първоначална извадка.

При изготвянето на статията са използвани:

1. Грибовски С.В., Сивец С.А., Левикина И.А. Математически методи за оценка на стойността на имущество. Москва, 2014 г

2. Данни от системата estimatica.pro

Един от методите за решаване на статистически проблеми е изчисляването на доверителния интервал. Използва се като предпочитана алтернатива на точковата оценка, когато размерът на извадката е малък. Трябва да се отбележи, че процесът на изчисляване на доверителния интервал е доста сложен. Но инструментите на програмата Excel ви позволяват да я опростите донякъде. Нека да разберем как това се прави на практика.

Този метод се използва при интервално оценяване на различни статистически величини. Основната задача на това изчисление е да се отърве от несигурността на точковата оценка.

В Excel има две основни опции за извършване на изчисления този метод: когато дисперсията е известна и когато е неизвестна. В първия случай функцията се използва за изчисления НОРМА ЗА ДОВЕРИЕ, а във втория ДОВЕРИЕ.СТУДЕНТ.

Метод 1: Функция CONFIDENCE NORM

Оператор НОРМА ЗА ДОВЕРИЕ, която се отнася до статистическата група функции, се появява за първи път в Excel 2010. По-ранните версии на тази програма използват нейния аналог ДОВЕРИЕ. Задачата на този оператор е да изчисли доверителен интервал с нормално разпределение за средната стойност на съвкупността.

Синтаксисът му е както следва:

CONFIDENCE NORM(alpha, standard_dev, size)

"Алфа"е аргумент, указващ нивото на значимост, което се използва за изчисляване на нивото на достоверност. Нивото на доверие е равно на следния израз:

(1-"Алфа")*100

"Стандартно отклонение"е аргумент, чиято същност е ясна от името. Това е стандартното отклонение на предложената извадка.

"Размерът"е аргумент, който определя размера на извадката.

Всички аргументи даден операторса задължителни.

функция ДОВЕРИЕима абсолютно същите аргументи и възможности като предишния. Синтаксисът му е:

TRUST(алфа, стандартна_разработка, размер)

Както можете да видите, разликите са само в името на оператора. Тази функция е запазена в Excel 2010 и по-новите версии в специална категория от съображения за съвместимост. "Съвместимост". Във версиите на Excel 2007 и по-стари той присъства в основната група статистически оператори.

Границата на доверителния интервал се определя по формулата със следната форма:

X+(-)НОРМА ЗА ДОВЕРИЕ

Където хе средната стойност на извадката, която се намира в средата на избрания диапазон.

Сега нека да разгледаме как да изчислим доверителния интервал, като използваме конкретен пример. Проведени са 12 теста, които са дали различни резултати, които са посочени в таблицата. Това е нашата съвкупност. Стандартното отклонение е 8. Трябва да изчислим доверителния интервал при 97% ниво на достоверност.

  1. Изберете клетката, в която ще се покаже резултатът от обработката на данните. Щракване върху бутона "Вмъкване на функция".
  2. Появява се Съветник за функции. Отидете на категория "статистически"и маркирайте името "ДОВЕРИЕ. НОРМА". След това кликнете върху бутона Добре.
  3. Отваря се прозорецът с аргументи. Неговите полета естествено съответстват на имената на аргументите.
    Поставете курсора на първото поле - "Алфа". Тук трябва да посочим нивото на значимост. Както си спомняме, нашето ниво на доверие е 97%. В същото време казахме, че се изчислява по следния начин:

    (1 ниво на доверие)/100

    Тоест, като заместим стойността, получаваме:

    Чрез прости изчисления откриваме, че аргументът "Алфа"се равнява 0,03 . Въведете тази стойност в полето.

    Както знаете, стандартното отклонение е равно на 8 . Следователно в полето "Стандартно отклонение"просто запишете това число.

    В полето "Размерът"трябва да въведете броя на елементите на извършените тестове. Както си спомняме, те 12 . Но за да автоматизираме формулата и да не я редактираме всеки път, когато се извършва нов тест, нека зададем тази стойност не на обикновено число, а с помощта на оператора ПРОВЕРКА. И така, поставяме курсора в полето "Размерът"и след това щракнете върху триъгълника, който се намира вляво от лентата с формули.

    Появява се списък с наскоро използвани функции. Ако операторът ПРОВЕРКАизползван от вас наскоро, трябва да е в този списък. В този случай просто трябва да кликнете върху името му. В противен случай, ако не го намерите, преминете към точката „Още функции...“.

  4. Изглежда вече познато за нас Съветник за функции. Връщам се към групата "статистически". Там избираме името "ПРОВЕРКА". Кликнете върху бутона Добре.
  5. Появява се прозорецът с аргументи за горния оператор. Тази функция е предназначена да изчислява броя на клетките в посочения диапазон, които съдържат числови стойности. Синтаксисът му е следният:

    БРОЙ(стойност1, стойност2,…)

    Аргументна група "Стойности"е препратка към диапазона, в който искате да изчислите броя клетки, попълнени с числови данни. Общо може да има до 255 такива аргумента, но в нашия случай се нуждаем само от един.

    Поставете курсора в полето "Стойност1"и като задържите левия бутон на мишката, изберете диапазона на листа, който съдържа нашето население. Тогава неговият адрес ще се покаже в полето. Кликнете върху бутона Добре.

  6. След това приложението ще извърши изчислението и ще покаже резултата в клетката, в която се намира. В нашия конкретен случай формулата се оказа така:

    ДОВЕРИТЕЛНА НОРМА(0,03;8;БРОЙ(B2:B13))

    Общият резултат от изчисленията беше 5,011609 .

  7. Но това не е всичко. Както си спомняме, границата на доверителния интервал се изчислява чрез добавяне и изваждане от средната стойност на извадката на резултата от изчислението НОРМА ЗА ДОВЕРИЕ. По този начин се изчисляват съответно дясната и лявата граница на доверителния интервал. Самата извадкова средна стойност може да се изчисли с помощта на оператора СРЕДНО АРИТМЕТИЧНО.

    Този оператор е предназначен да изчислява средноаритметичната стойност на избрания диапазон от числа. Той има следния доста прост синтаксис:

    СРЕДНО(число1, число2,...)

    Аргумент "номер"може да бъде или една единствена числова стойност, или препратка към клетки или дори цели диапазони, които ги съдържат.

    Така че изберете клетката, в която ще се покаже изчислението на средната стойност, и щракнете върху бутона "Вмъкване на функция".

  8. отваря Съветник за функции. Назад към категорията "статистически"и изберете име от списъка "СРЕДНО АРИТМЕТИЧНО". Както винаги, щракнете върху бутона Добре.
  9. Стартира се прозорецът с аргументи. Поставете курсора в полето "Номер 1"и с натиснат ляв бутон на мишката изберете целия диапазон от стойности. След като се изведат координатите в полето, щракнете върху бутона Добре.
  10. След това СРЕДНО АРИТМЕТИЧНОизвежда резултата от изчислението към елемент на листа.
  11. Изчисляваме дясната граница на доверителния интервал. За да направите това, изберете отделна клетка, поставете знака «=» и добавете съдържанието на елементите на листа, в които се намират резултатите от изчисляването на функциите СРЕДНО АРИТМЕТИЧНОи НОРМА ЗА ДОВЕРИЕ. За да извършите изчислението, натиснете бутона Въведете. В нашия случай получихме следната формула:

    Резултат от изчислението: 6,953276

  12. По същия начин изчисляваме лявата граница на доверителния интервал, само този път от резултата от изчислението СРЕДНО АРИТМЕТИЧНОизвадете резултата от изчислението на оператора НОРМА ЗА ДОВЕРИЕ. Оказва се формулата за нашия пример от следния тип:

    Резултат от изчислението: -3,06994

  13. Опитахме се да опишем подробно всички стъпки за изчисляване на доверителния интервал, така че описахме всяка формула подробно. Но можете да комбинирате всички действия в една формула. Изчисляването на дясната граница на доверителния интервал може да се запише по следния начин:

    AVERAGE(B2:B13)+CONFIDENCE(0.03;8;COUNT(B2:B13))

  14. Подобно изчисление на лявата граница би изглеждало така:

    AVERAGE(B2:B13)-CONFIDENCE.NORM(0.03;8;COUNT(B2:B13))

Метод 2: Функция TRUST.STUDENT

Освен това в Excel има друга функция, която е свързана с изчисляването на доверителния интервал - ДОВЕРИЕ.СТУДЕНТ. Появява се едва след Excel 2010. Този оператор извършва изчисляването на доверителния интервал на съвкупността, като използва t-разпределението на Student. Много е удобно да се използва в случай, че дисперсията и съответно стандартното отклонение са неизвестни. Синтаксисът на оператора е:

TRUST.STUDENT(alpha,standard_dev,размер)

Както можете да видите, имената на операторите в този случай останаха непроменени.

Нека видим как да изчислим границите на доверителния интервал с неизвестно стандартно отклонение, като използваме примера на същата популация, която разгледахме в предишния метод. Нивото на доверие, както и последния път, ще вземем 97%.

  1. Изберете клетката, в която ще се направи изчислението. Кликнете върху бутона "Вмъкване на функция".
  2. В отвореното Съветник за функцииотидете на категория "статистически". Изберете име "ДОВЕРИЕ.СТУДЕНТ". Кликнете върху бутона Добре.
  3. Стартира се прозорецът с аргументи за посочения оператор.

    В полето "Алфа", като се има предвид, че нивото на доверие е 97%, записваме числото 0,03 . Вторият път няма да се спираме на принципите на изчисляване на този параметър.

    След това поставете курсора в полето "Стандартно отклонение". Този път този показател е непознат за нас и трябва да бъде изчислен. Това се прави с помощта на специална функция - STDEV.B. За да извикате прозореца на този оператор, щракнете върху триъгълника вляво от лентата с формули. Ако не намерим желаното име в списъка, който се отваря, отидете на елемента „Още функции...“.

  4. бяга Съветник за функции. Преминаване към категория "статистически"и маркирайте името "STDEV.B". След това щракнете върху бутона Добре.
  5. Отваря се прозорецът с аргументи. операторска задача STDEV.Bе определението за стандартно отклонение в извадката. Синтаксисът му изглежда така:

    STDEV.V(число1,число2,…)

    Лесно е да се досетите, че аргументът "номер"е адресът на елемента за избор. Ако селекцията е поставена в единичен масив, тогава като използвате само един аргумент, можете да дадете връзка към този диапазон.

    Поставете курсора в полето "Номер 1"и както винаги, като държите левия бутон на мишката, изберете набора. След като координатите са в полето, не бързайте да натискате бутона Добрезащото резултатът ще е грешен. Първо трябва да се върнем към прозореца с аргументи на оператора ДОВЕРИЕ.СТУДЕНТза да направи последния аргумент. За да направите това, щракнете върху съответното име в лентата с формули.

  6. Прозорецът с аргументи на вече познатата функция се отваря отново. Поставете курсора в полето "Размерът". Отново кликнете върху вече познатия ни триъгълник, за да отидете на избора на оператори. Както разбирате, имаме нужда от име "ПРОВЕРКА". Тъй като използвахме тази функция в изчисленията в предишния метод, тя присъства в този списък, така че просто щракнете върху нея. Ако не го намерите, следвайте алгоритъма, описан в първия метод.
  7. Влизане в прозореца с аргументи ПРОВЕРКА, поставете курсора в полето "Номер 1"и със задържан бутон на мишката изберете колекцията. След това щракнете върху бутона Добре.
  8. След това програмата изчислява и показва стойността на доверителния интервал.
  9. За да определим границите, отново ще трябва да изчислим средната стойност на извадката. Но като се има предвид, че алгоритъмът за изчисление използва формулата СРЕДНО АРИТМЕТИЧНОсъщото като в предишния метод и дори резултатът не се е променил, няма да се спираме на това подробно втори път.
  10. Сумиране на резултатите от изчислението СРЕДНО АРИТМЕТИЧНОи ДОВЕРИЕ.СТУДЕНТ, получаваме дясната граница на доверителния интервал.
  11. Изваждане от резултатите от изчислението на оператора СРЕДНО АРИТМЕТИЧНОрезултат от изчислението ДОВЕРИЕ.СТУДЕНТ, имаме лявата граница на доверителния интервал.
  12. Ако изчислението е написано в една формула, тогава изчислението на дясната граница в нашия случай ще изглежда така:

    СРЕДНО(B2:B13)+УВЕРЕНИЕ НА УЧЕНИКА(0,03,STDV(B2:B13),БРОЙ(B2:B13))

  13. Съответно формулата за изчисляване на лявата граница ще изглежда така:

    СРЕДНО(B2:B13)-УВЕРЕНИЕ НА УЧЕНИКА(0,03,STDV(B2:B13),БРОЙ(B2:B13))

Както можете да видите, инструментите на програмата Excel позволяват значително да се улесни изчисляването на доверителния интервал и неговите граници. За тези цели се използват отделни оператори за проби, чиято дисперсия е известна и неизвестна.

Константин Кравчик ясно обяснява какво е доверителен интервал в медицинските изследвания и как да го използвате

"Катрен-Стил" продължава да публикува цикъл на Константин Кравчик за медицинската статистика. В две предишни статии авторът засегна обяснението на такива понятия като и.

Константин Кравчик

Математик-аналитик. Специалист в областта на статистическите изследвания в медицината и хуманитарни науки

град Москва

Много често в статии за клинични изпитвания можете да намерите мистериозна фраза: "доверителен интервал" (95% CI или 95% CI - доверителен интервал). Например в една статия може да се каже: „Използван е t-тестът на Стюдънт за оценка на значимостта на разликите с изчислен 95% доверителен интервал.“

Каква е стойността на "95% доверителен интервал" и защо да го изчисляваме?

Какво е доверителен интервал? - Това е диапазонът, в който попадат истинските средни стойности в популацията. И какво, има "неверни" средни стойности? В известен смисъл, да, те го правят. В ние обяснихме, че е невъзможно да се измери параметърът от интерес в цялата популация, така че изследователите се задоволяват с ограничена извадка. В тази извадка (например по телесно тегло) има една средна стойност (определено тегло), по която съдим за средната стойност в цялата генерална популация. Малко вероятно е обаче средното тегло в извадката (особено малката) да съвпадне със средното тегло в общата популация. Следователно е по-правилно да се изчисли и използва диапазонът от средни стойности на общата съвкупност.

Да предположим например, че 95% доверителен интервал (95% CI) за хемоглобина е между 110 и 122 g/L. Това означава, че с 95 % вероятност истинската средна стойност на хемоглобина в общата популация ще бъде в диапазона от 110 до 122 g/L. С други думи, ние не знаем средния хемоглобин в общата популация, но можем да посочим диапазона от стойности за тази характеристика с 95% вероятност.

Доверителните интервали са особено подходящи за разликата в средните стойности между групите или това, което се нарича размер на ефекта.

Да предположим, че сравним ефективността на два препарата с желязо: един, който е на пазара от дълго време, и един, който току-що е регистриран. След курса на терапията беше оценена концентрацията на хемоглобин в изследваните групи пациенти и статистическата програма изчисли за нас, че разликата между средните стойности на двете групи с вероятност от 95% е в диапазона от 1,72 до 14,36 g/l (Таблица 1).

Раздел. 1. Критерий за независими проби
(групите се сравняват по нивото на хемоглобина)

Това трябва да се тълкува по следния начин: при пациентите от общата популация, които приемат новото лекарство, хемоглобинът ще бъде по-висок средно с 1,72–14,36 g/l, отколкото при тези, които са приемали вече познатото лекарство.

С други думи, в общата популация разликата в средните стойности на хемоглобина в групите с 95% вероятност е в тези граници. Изследователят ще прецени дали това е много или малко. Смисълът на всичко това е, че не работим с една средна стойност, а с диапазон от стойности, следователно по-надеждно оценяваме разликата в параметъра между групите.

В статистическите пакети, по преценка на изследователя, можете независимо да стесните или разширите границите на доверителния интервал. Като намаляваме вероятностите на доверителния интервал, ние стесняваме обхвата на средните стойности. Например, при 90% CI, обхватът на средните (или средните разлики) ще бъде по-тесен, отколкото при 95% CI.

Обратно, увеличаването на вероятността до 99% разширява диапазона от стойности. При сравняване на групи долната граница на CI може да премине нулевата граница. Например, ако разширим границите на доверителния интервал до 99 %, тогава границите на интервала варират от –1 до 16 g/L. Това означава, че в генералната съвкупност има групи, разликата между средните между които за изследвания признак е 0 (М=0).

Доверителните интервали могат да се използват за тестване на статистически хипотези. Ако доверителният интервал премине нулевата стойност, тогава нулевата хипотеза, която предполага, че групите не се различават по изследвания параметър, е вярна. По-горе е описан пример, когато разширихме границите до 99%. Някъде в общата популация открихме групи, които не се различават по никакъв начин.

95% доверителен интервал на разлика в хемоглобина, (g/l)


Линията показва 95% доверителен интервал за разликата в средните стойности на хемоглобина между двете групи. Линията преминава нулевия знак, следователно има разлика между средните стойности, равна на нула, което потвърждава нулевата хипотеза, че групите не се различават. Разликата между групите варира от -2 до 5 g/l, което означава, че хемоглобинът може да се понижи с 2 g/l или да се повиши с 5 g/l.

Доверителният интервал е много важен показател. Благодарение на него можете да видите дали разликите в групите наистина се дължат на разликата в средните стойности или се дължат на голяма извадка, тъй като при голяма извадка шансовете за откриване на разлики са по-големи, отколкото при малка.

На практика може да изглежда така. Взехме проба от 1000 души, измерихме нивото на хемоглобина и установихме, че доверителният интервал за разликата в средните стойности е от 1,2 до 1,5 g/L. Нивото на статистическа значимост в този случай p

Виждаме, че концентрацията на хемоглобина се повишава, но почти незабележимо, следователно статистическата значимост се появява именно поради размера на извадката.

Доверителните интервали могат да бъдат изчислени не само за средни стойности, но и за пропорции (и рискови съотношения). Например, ние се интересуваме от доверителния интервал на пропорциите на пациентите, постигнали ремисия, докато приемат разработеното лекарство. Да приемем, че 95% CI за пропорции, т.е. за дела на такива пациенти, е в диапазона 0,60–0,80. Така можем да кажем, че нашето лекарство има терапевтичен ефект в 60 до 80% от случаите.