Nota: Aceasta pagina utilizeaza SAS 9.2.
Modelul Tobit, de asemenea, numit un model de regresie cenzurat, este proiectat pentru a estima relatii liniare intre variabile atunci cand nu exista, fie la stanga sau la dreapta-cenzura in variabila dependenta (de asemenea, cunoscut sub numele de cenzura de jos si mai sus, respectiv). Cenzura de mai sus are loc atunci cand cazuri, cu o valoare la sau peste un anumit prag, sa ia toate cu privire la valoarea pragului, astfel incat valoarea reala ar putea fi egala cu pragul, dar ar putea fi de asemenea mai mare. In cazul de cenzura de la de mai jos, valorile cele care se incadreaza la sau sub un anumit prag sunt cenzurate.
Va rugam sa Nota: Scopul acestei pagini este de a arata modul de utilizare a diverse comenzi de analiza a datelor. Acesta nu acopera toate aspectele procesului de cercetare care cercetatorii sunt de asteptat sa faca. In special, aceasta nu se refera la datele de curatare si de control, de verificare de ipoteze, modelul de diagnosticare si de potentialul de follow-up analize.
Exemplul 1. In anii 1980 a existat o lege federala care restrictioneaza citirea vitezometru pentru a nu mai mult de 85 mph. Deci, daca ai vrut sa incerce si anticipa a unui vehicul de top-viteza dintr-o combinatie de cai-putere si de dimensiunea motorului, v-ar obtine o lectura nu mai mare de 85 de ani, indiferent de cat de repede vehiculul a fost intr-adevar calatorie. Aceasta reprezinta un caz clasic dreptului-cenzurare (la cenzurarea anterior) ale date. Singurul lucru pe care suntem siguri este acela ca aceste vehicule au fost calatoresc cel putin 85 mph.
Exemplul 2. Un proiect de cercetare este studierea nivelul de plumb in apa de baut acasa, in functie de varsta de o casa si venitul familiei. Kit de testare de apa nu pot detecta concentratiile de plumb sub 5 parti pe miliard (ppb). APE considera ca nivelurile de peste 15 ppb pentru a fi periculoase. Aceste date sunt un exemplu de stanga-cenzura (de la cenzura de mai jos).
Exemplul 3. Ganditi-va la situatia in care avem o masura de aptitudini academice (scalate 200-800), pe care dorim sa model folosind lectura si de rezultatele testelor de matematica, precum si, de tipul de program in care elevul este inscris in (academice, generale, profesionale sau ). Problema aici este faptul ca studentii care raspunde la toate intrebarile cu privire la proba de aptitudini academice corect primi un scor de 800, chiar daca este probabil ca acesti studenti nu sunt "cu adevarat", egala in aptitude. Acelasi lucru este valabil de elevi care au raspuns la toate intrebarile incorect. Toti elevii ar avea un scor de 200, desi acestea nu pot fi toate de aptitude egale.
Sa continue Exemplul 3 de mai sus. Am un fisier de date ipotetic, tobit.sas7bdat cu 200 de observatii cu formatul definit de mai jos. Variabila aptitude academic este apt, scorurile lectura si de matematica de testare sunt citite si matematica, respectiv. Prog variabila este de tipul de program in care studentul este in, acesta este un categoric (nominal), variabila care ia pe trei valori, academice (prog = 1), generalul (prog = 2), si profesionala (prog = 3). Prog variabila vine cu un format de mai jos.
proc format;
Valoarea proga 1 = "academice"
2 = "generala"
3 = "profesional";
executati;
Sa ne uitam la datele. Retineti ca, in acest set de date, cea mai mica valoare de apt este 352. Retineti ca nu elevii au primit un scor de 200 (adica cel mai mic scor posibil), ceea ce inseamna ca desi cenzura de mai jos a fost posibil, aceasta nu apare in setul de date.
optiuni nolabel nocenter nodate formchar ='|----|+|---+=|-/<>*';
proc inseamna date = Tobit maxdec = 2 nonobs;
clasa prog;
vars apt citeste matematica;
executati;prog Variabila N medie Amb maxima de cel putin Dev
-------------------------------------------------- -------------------------------------------
academice apt 45 639,02 78,63 454,00 800,00
citeste 45 49,76 9,23 28,00 68,00
matematica 45 50,02 7,44 35,00 63,00
general, apt 105 677,76 88,21 462,00 800,00
citeste 105 56,16 9,59 34,00 76,00
matematica 105 56,73 8,73 38,00 75,00
profesionala apt 50 561,72 92,76 352,00 800,00
citeste 50 46,20 8,91 31,00 68,00
matematica 50 46,42 7,95 33,00 75,00
-------------------------------------------------- -------------------------------------------ods grafica / reset = toate imagename = 'dens' imagefmt = png
width = height = 4in 4in border = oprit;
proc sgplot date = Tobit noautolegend;
histograma apt;
densitate apt / type = lineattrs normala = (color = albastru);
executati;
Privind la histograma de mai sus arata distributia de apt, putem vedea in cenzura de date, care este, exista mult mai multe cazuri cu scoruri de 775 - 800 (adica bin final) decat era de asteptat uita la restul de de distributie. Mai jos este o alternativa histograma care evidentiaza si mai mult exces de cazuri in care apt = 800. In histograma de mai jos, de mijloc optiune este utilizata pentru a produce o histograma in cazul in care fiecare valoare unica de apt are propriul bar, cu precizarea ca ar trebui sa existe pubele de 350 (minim de apt este 352) si un maxim de 800 in unitati de 1. Deoarece apt este continua, cele mai multe valori ale lui apt sunt unice in setul de date, desi aproape de centrul de distributie, exista cateva valori ale lui apt, care au doua sau trei cazuri. Varful pe extrema dreapta a histogramei este bar pentru cazurile in care apt = 800, inaltimea de aceasta bara in raport cu toate celelalte arata in mod clar numarul excesul de cazuri cu aceasta valoare.
Apoi, vom explora relatiile bivariate in setul de date nostru. Noi facem uz de parcelei matricei puncte creat de proc corr prin "ods grafica pe" optiune.ods grafica / reset = toate imagename = 'ist' imagefmt = png
width = height = 4in 4in border = oprit;
proc univariate date = Tobit noprint;
histograma apt / de mijloc = 350 - 800 de normala 1;
executati;
ods grafica / reset = toate imagename = 'mat' imagefmt = png
width = height = 4in 4in border = oprit;
ODS grafica de pe;
proc Corr date = Tobit nosimple;
var citeste matematica apt;
executati;
ODS grafice oprit;Coeficientii de corelatie Pearson, N = 200
Prob> | r | in temeiul H0: Rho = 0
citeste matematica apt
citeste 1.00000 0.66228 0.64512
<.0001 <.0001
0.66228 1.00000 0.73327 matematica
<.0001 <.0001
apt 0.64512 0.7332
Nota colectarea de cazuri in partea de sus a randul de jos al parcelelor scatter sunt datorate la cenzurarea in distributia de apt.
Mai jos este o lista a unor metode de analiza ce le-au intampinat. Unele dintre metodele enumerate sunt destul de rezonabile in timp ce altii fie au cazut din favoarea sau au limitari.
Mai jos vom folosi proc qlim pentru a se potrivi unui model de regresie Tobit. Retineti ca proc qlim face parte din modulul ETS pentru SAS. De asemenea, este posibil pentru a se potrivi unui model Tobit folosind lifereg proc (o parte din modulul STAT), desi sintaxa pentru a face acest lucru este oarecum diferit de exemplul prezentat mai jos. Declaratia Clasa identifica prog ca o variabila categoric, si declaratia modelul specifica faptul ca ar trebui sa fie apt modelata folosind citit, matematica, si prog. Declaratia endogen precizeaza ca rezultatul variabila apt este cenzurat, cu o limita superioara de 800 (de exemplu ub = 800).
proc qlim date = Tobit;
clasa prog;
Modelul apt = citeste matematica prog;
~ endogen apt cenzurata (ub = 800);
executati;QLIM procedura
Statistica rezumat al raspunsurilor continua
N Obs N Obs
Standard de Jos Upper superioara de Jos
Variabila tip de eroare medie Bound Bound Bound Bound
apt 640.035 99.219030 Censored 800 17
Clasa nivelului de informare
Niveluri clasa Valori
prog 3 profesionala academice generale
Modelul Fit Total
Numarul de variabile endogene 1
Variabila endogena apt
Numarul de 200 Observatii
Jurnal Risc -1041
Gradient maxima absoluta 8.40561E-7
Numarul de iteratii 26
Optimizarea Metoda cvasi-Newton
AIC 2094
Schwarz Criteriul 2114
Estimarile parametru
Standard Aprox
Parametru DF Eroare Estimarea t Pret Proverbele> | t |
Intercept 1 163.422155 5.37 30.408580 <.0001
citeste 1 2.697939 0.618806 4.36 <0.0001
matematica 1 5.914484 0.709818 8.33 <0.0001
prog academice 1 46.143900 13.724195 3.36 0.0008
prog generale 1 33.429162 12.955628 2.58 0.0099
prog profesionale 0 0...
_Sigma 1 65.676720 3.481423 18.86 <.0001
Sub Estimarile Parametru rubrica vedem coeficientii, erorile lor standard, t-statistici, si asociate p-valori. Coeficientii pentru citire si matematica sunt statistic semnificative, astfel cum sunt conditiile de prog = "academice" si prog = "generala" (cu prog = "profesional" ca categoria de referinta). Tobit coeficientii de regresie sunt interpretate in acelasi mod ca si coeficientii de regresie OLS.
proc qlim date = Tobit outest = t;
clasa prog;
Modelul apt = citeste matematica prog;
~ endogen apt cenzurata (ub = 800);
executati;
proc de imprimare date = t noobs;
executati;
prog_ prog_ prog_
_NAME_ _TYPE_ _STATUS_ Intercept citeste matematica academic general, profesional _Sigma
PARM 0 convergente 163,422 2,69794 5,91448 46,1439 33,4292. 65.6767
STD 0 convergente 30,409 0,61881 0,70982 13,7242 12,9556. 3.4814proc qlim date = Tobit;
clasa prog;
Modelul apt = citeste matematica prog;
~ endogen apt cenzurata (ub = 800);
de incercare "prog" prog_academic = 0,
prog_general = 0;
executati;![]()
Deoarece modelul este acelasi, de iesire pentru aceasta sintaxa este la fel ca inainte, cu exceptia pct. plus aratat arata rezultatele din situatia de testare. In conformitate cu rezultatele testelor, vedem ca efectul general al prog este statistic semnificativa.
Putem testa, de asemenea ipoteze suplimentare despre diferentele dintre coeficientii pentru diferite niveluri de prog. Mai jos am testat ca coeficientul de prog = "academic" este egal cu coeficientul pentru prog = "generala".
proc qlim date = Tobit;
clasa prog;
Modelul apt = citeste matematica prog;
~ endogen apt cenzurata (ub = 800);
test "academic Raport general" prog_academic - prog_general = 0;
executati;
Am putea dori, de asemenea, pentru a evalua cat de bine se potriveste modelul nostru. Acest lucru poate fi deosebit de util atunci cand se compara modele concurente. O metoda de evaluare se potrivesc modelului este de a compara valorile de prezis pe baza modelului Tobit la valorile observate in setul de date. Mai jos vom folosi proc qlim pentru a genera valori prezis impreuna cu datele prin intermediul declaratia de iesire. Apoi, proc Corr este folosit pentru a estima corelatia dintre valorile observate de prezis si apt. De iesire de la proc corr da corelatie dintre valorile observate de prezis si apt, care este 0.78094. Daca am patrat aceasta valoare, ajungem corelatia patrat multiple, acest lucru indica faptul ca valorile prezis parts aproximativ 61% (0.78094 ^ 2 = 0.6099) din varianta lor cu valorile observate de apt.
proc qlim date = Tobit;
Modelul apt = citeste matematica prog;
~ endogen apt cenzurata (ub = 800);
Iesirea out = temp1 prezis;
executati;
proc Corr date = temp1 nosimple;
var apt p_apt;
executati;
Coeficientii de corelatie Pearson, N = 200
Prob> | r | in temeiul H0: Rho = 0
apt P_apt
apt 1.00000 0.78094
<.0001
P_apt 0.78094 1.00000
<.0001
Translated from SAS Data Analysis Examples Tobit Analysis, (http://www.ats.ucla.edu/stat/sas/dae/tobit.htm), with permission from UCLA Academic Technology Services.
Useful Info