Lær, hvordan du vælger den bedst fungerende lineære regression til univariate modeller

Find ud af, hvilken lineær regressionsmodel der passer bedst til dine data

Inspireret af et spørgsmål efter min forrige artikel vil jeg tackle et problem, der ofte opstår efter at have prøvet forskellige lineære modeller: Du er nødt til at træffe et valg, hvilken model du vil bruge. Mere specifikt spurgte Khalifa Ardi Sidqi:

”Hvordan kan man bestemme, hvilken model der passer bedst til mine data? Ser jeg bare på R-pladsen, SSE osv.?
Da fortolkningen af ​​denne model (kvadratisk, rod osv.) Vil være meget anderledes, vil det ikke være et spørgsmål? ”

Den anden del af spørgsmålet kan let besvares. Først skal du finde en model, der bedst passer til dine data, og derefter fortolke dens resultater. Det er godt, hvis du har ideer til, hvordan dine data kan forklares. Dog skal du kun fortolke den bedste model.

Resten af ​​denne artikel vil behandle den første del af hans spørgsmål. Bemærk, at jeg vil dele min tilgang til, hvordan man vælger en model. Der er flere måder, og andre kan måske gøre det anderledes. Men jeg vil beskrive den måde, der fungerer bedst for mig.

Derudover gælder denne tilgang kun for univariate modeller. Univariate modeller har kun en inputvariabel. Jeg planlægger en yderligere artikel, hvor jeg vil vise dig, hvordan du vurderer multivariate modeller med flere inputvariabler. For i dag skal vi dog fokusere på det grundlæggende og univariate modeller.

For at øve og få en følelse af dette skrev jeg en lille ShinyApp. Brug det og leg rundt med forskellige datasæt og modeller. Bemærk, hvordan parametre ændrer sig og bliver mere selvsikre ved vurdering af enkle lineære modeller. Endelig kan du også bruge appen som en ramme for dine data. Bare kopier det fra Github.

Klik på billedet for en interaktiv version

Brug den justerede R2 til univariate modeller

Hvis du kun bruger en inputvariabel, giver den justerede R2-værdi dig en god indikation af, hvor godt din model klarer sig. Det illustrerer, hvor meget variation der er forklaret af din model.

I modsætning til den enkle R2 tager den justerede R2 antallet af inputfaktorer med i betragtning. Det straffer for mange inputfaktorer og favoriserer mistænkelige modeller.

I skærmbilledet ovenfor kan du se to modeller med en værdi af 71,3% og 84,32%. Tilsyneladende er den anden model bedre end den første. Modeller med lave værdier kan dog stadig være nyttige, fordi den justerede R2 er følsom over for mængden af ​​støj i dine data. Som sådan skal du kun sammenligne denne indikator for modeller for det samme datasæt end at sammenligne den på tværs af forskellige datasæt.

Normalt er der lidt behov for SSE

Før du læser videre, så lad os sørge for, at vi taler om den samme SSE. På Wikipedia henviser SSE til summen af ​​firkantede fejl. I nogle statistiske lærebøger kan SSE imidlertid henvise til den forklarede sum af kvadrater (det modsatte). Så indtil videre, formoder at SSE refererer til summen af ​​firkantede fejl.

Derfor er den justerede R2 ca. 1 - SSE / SST. Med SST henviser til den samlede sum af firkanter.

Jeg vil ikke dykke dybere ned i matematikken bag dette. Det, jeg vil vise dig, er, at den justerede R2 beregnes med SSE. Så SSE giver dig normalt ikke yderligere oplysninger.

Desuden normaliseres den justerede R2 således, at den altid er mellem nul og en. Så det er lettere for dig og andre at fortolke en ukendt model med en justeret R2 på 75% snarere end en SSE på 394 - selvom begge tal muligvis forklarer den samme model.

Se på rester eller fejlbetingelser!

Hvad der ofte ignoreres, er fejlbetegnelser eller såkaldte restprodukter. De fortæller dig ofte mere end hvad du måske tror.

Restprodukterne er forskellen mellem dine forudsagte værdier og de faktiske værdier.

Deres fordel er, at de kan vise dig både omfanget og retningen af ​​dine fejl. Lad os se på et eksempel:

Vi ønsker ikke, at rester skal variere som dette omkring nul

Her prøvede jeg at forudsige et polynom datasæt med en lineær funktion. Analyse af restprodukter viser, at der er områder, hvor modellen har en opadgående eller nedadgående bias.

For 50

For100

Det er altid godt at vide, om din model antyder for høje eller for lave værdier. Men du vil normalt ikke have mønstre som dette.

Restprodukterne skal i gennemsnit være nul (som angivet med middelværdien), og de skal være lige fordelt. At forudsige det samme datasæt med en polynomfunktion på 3 grader antyder en meget bedre pasform:

Her er resterne ligeligt fordelt omkring nul. Foreslår en meget bedre pasform

Derudover kan du observere, om variationen i dine fejl øges. I statistikker kaldes dette Heteroscedasticitet. Du kan løse dette let med robuste standardfejl. Ellers er det sandsynligt, at dine hypotetests er forkerte.

Histogram af restprodukter

Endelig opsummerer histogrammet størrelsen på dine fejlbetingelser. Det giver information om båndbredde for fejl og angiver, hvor ofte hvilke fejl der opstod.

Det højre histogram indikerer en mindre båndbredde for fejl end det venstre. Så det ser ud til at være en bedre pasform.

Ovenstående skærmbilleder viser to modeller til det samme datasæt. I det venstre histogram forekommer der fejl inden for området -338 og 520.

I det højre histogram forekommer der fejl inden for -293 og 401. Så udliggerne er meget lavere. Desuden er de fleste fejl i modellen til det rigtige histogram tættere på nul. Så jeg ville foretrække den rigtige model.

Resumé

Når du vælger en lineær model, er dette faktorer, du skal huske på:

  • Sammenlign kun lineære modeller for det samme datasæt.
  • Find en model med en højjusteret R2
  • Sørg for, at denne model har lige fordelt rester omkring nul
  • Sørg for, at fejlene i denne model er inden for en lille båndbredde
Klik på billedet for at åbne appen

Hvis du har spørgsmål, skriv en kommentar nedenfor eller kontakt mig. Jeg sætter pris på din feedback.