Eisspeedway

Przedział predykcji

Przedział predykcji – wyznaczone na podstawie zebranych danych oszacowanie zakresu, w którym z ustalonym prawdopodobieństwem (równym ) będzie mieścić się nowa obserwacja pochodząca z badanej populacji. Przedziały predykcji to narzędzie wnioskowania statystycznego. Są one używane przede wszystkim, ale nie wyłącznie, w analizie regresji.

Przedział predykcji na podstawie próby losowej

Załóżmy, że z populacji, co do której w przybliżeniu możemy założyć rozkład normalny, pobrano -elementową prostą próbę losową. W takiej sytuacji przedział predykcji dla nowej obserwacji pochodzącej z tej samej populacji można wyznaczyć na podstawie wzoru[1]:

,

gdzie to średnia z próby, to odchylenie standardowe z próby, zaś to kwantyl rzędu rozkładu t Studenta z stopniami swobody.

Warto zauważyć, że przedział predykcji jest zwykle dużo szerszy niż analogiczny przedział ufności dla średniej wyrażony podobnym wzorem: . Jest tak dlatego, że przedział ufności stanowi oszacowanie średniej, a przedział predykcji oszacowanie pojedynczej nowej wartości z populacji.

Przedział predykcji w regresji prostej

Korzystając z klasycznego modelu regresji prostej (regresji liniowej z jedną zmienną objaśniającą), można prognozować wartość zmiennej objaśnianej dla nowej obserwacji , pochodzącej z populacji, używając wzoru[2]:

gdzie to wartość zmiennej objaśniającej nowej obserwacji, to prognoza punktowa zmiennej objaśnianej, to liczba obserwacji wykorzystanych do zbudowania modelu (liczebność próby), to średnia wartość zmiennej objaśniającej w próbie, to kwantyl rzędu rozkładu t Studenta z stopniami swobody, zaś to pierwiastek ze średniego kwadratu reszt :

Przedział predykcji w regresji wielorakiej

Dla modelu klasycznej liniowej regresji wielorakiej przedział predykcji możemy wyznaczyć, stosując wzór[3]:

,

gdzie to wektor zmiennych objaśniających nowej obserwacji (z elementem równym jeden odpowiadającym wyrazowi wolnemu, zwykle na pierwszej pozycji), to prognoza punktowa zmiennej objaśnianej, to liczba obserwacji wykorzystanych do zbudowania modelu (liczebność próby), to liczba zmiennych objaśniających, to macierz układu zawierająca kolumnę jedynek odpowiadającą wyrazowi wolnemu oraz wartości zmiennych objaśniających (w kolumnach) dla obserwacji (w wierszach), to kwantyl rzędu rozkładu t Studenta z stopniami swobody, zaś to pierwiastek ze średniego kwadratu reszt wyznaczonego za pomocą wzoru:

.

Zobacz też

Przypisy

  1. Ron N. Forthofer, Eun Sul Lee, Mike Hernandez, Biostatistics: a guide to design, analysis, and discovery, wyd. 2nd ed, Burlington, MA: Elsevier Academic Press, 2007, s. 169–212, ISBN 978-0-12-369492-8 [dostęp 2024-07-28].
  2. Linear Regression, [w:] Ronald N. Forthofer, Eun Sul Lee, Mike Hernandez, Biostatistics (Second Edition), Elsevier, 2007, s. 349–386, DOI10.1016/b978-0-12-369492-8.50018-2, ISBN 978-0-12-369492-8 [dostęp 2024-07-28].
  3. Chapter 9 - REGRESSION, [w:] Sheldon M. Ross, Introduction to Probability and Statistics for Engineers and Scientists (Fourth Edition), Elsevier, 2009, s. 353–439, DOI10.1016/b978-0-12-370483-2.00014-x, ISBN 978-0-12-370483-2 [dostęp 2024-07-28].