Regresija

Zašto je regresija bitna?

 

Verovatno već znate da kad god je to moguće treba da donosite poslovne odluke na osnovu podataka koje posedujete. Ali da li znate kako da raščlanite i analizirate sve podatke koji su vam dostupni? Dobra vest je da verovatno ne morate sami to da radite, ali treba da pravilno razumete i protumačite analize koju su kreirale vaše kolege. Jedna od najvažnijih vrsta analize podataka je regresija.

 

Da biste bolje razumeli zašto je regresija bitna, prenosimo Vam intervju Toma Redmana, autora knjige Data Driven: Profiting from Your Most Important Business Asset, za Harvard Business Review.

 

Kupovina
Kupovna moc

 

Šta je regresiona analiza?

 

Redman nudi ovakav primer scenarija: Pretpostavimo da ste menadžer prodaje koji pokušava da predvidi brojeve za sledeći mesec. Znate da desetine, možda čak i stotine faktora, od vremenskih uslova preko promocije konkurenta do glasina o novom i poboljšanom modelu mogu uticati na broj. Možda ljudi u vašoj organizaciji čak imaju teoriju o tome šta će imati najveći efekat na prodaju. 

 

“Veruj mi. Što više pada kiša , više prodajemo. “ 

„Šest nedelja nakon promocije konkurenta, prodaja raste.“

Regresiona analiza je način matematičkog računanja koja od tih promenljivih zaista ima uticaj i odgovara na sledeća pitanja: 

  • Koji su faktori najvažniji?
  • Šta možemo zanemariti? 
  • Kako ti faktori međusobno deluju?
  • I, možda najvažnije, koliko smo sigurni u sve ove faktore?

U regresionoj analizi ti faktori se nazivaju promenljivim. Imate zavisnu promenljivu – glavni faktor koji pokušavate da razumete ili predvidite. U Redmanovom primeru iznad, zavisna promenljiva je mesečna prodaja. A onda imate svoje nezavisne promenljive – faktori za koje sumnjate da utiču na vašu zavisnu promenljivu.

 

Kako to funkcioniše?

 

Da biste izvršili regresionu analizu, prikupljate podatke o navedenim promenljivim. (Podsetnik: verovatno ovo ne morate da radite sami, ali korisno vam je da razumete postupak koji koristi vaš kolega analitičar podataka.) Uzimate sve mesečne podatke prodaje, recimo, u poslednje tri godine i sve podatke za nezavisne promenljive koje vas zanimaju. Dakle, u ovom slučaju, recimo da možete da  saznate i prosečne mesečne padavine u poslednje tri godine. Zatim sve te informacije prikažete na grafikonu koji izgleda ovako:

Postoji li veza između ove dve varijable?

Grafičko predstavljanje podataka je prvi korak ka odgovoru na ovo pitanje.

 

Regresiona Analiza
Regresiona Analiza

 

 

Na y-osi je iznos prodaje (zavisna promenljiva, stvar koja vas zanima uvek je na y-osi), a na x-osi je ukupna količina padavina. Svaka plava tačka predstavlja podatke za mesec dana – koliko je kiše padalo tog meseca i koliko prodaja ste obavili istog meseca.

Bacivši pogled na ove podatke, verovatno primećujete da je prodaja veća u danima kada pada velika kiša. To je zanimljivo znati, ali za koliko? Ako kiša pada 3 inča, da li znate koliko ćete prodati? Šta ako padne kiša od 4 inča? I samo da znate 1 inch je 2,54 cm. 

Sada zamislite crtanje linije kroz gornji grafikon, one koja prolazi približno kroz sredinu svih tačaka podataka. Ova linija će vam pomoći da sa određenim stepenom sigurnosti odgovorite koliko obično prodate kada kiša pada u određenoj količini.

 

Linija pokazuje vezu između x i y varijable.

Regresiona Analiza
Regresiona Analiza

 

To se naziva linija regresije i ona se crta (pomoću softvera za statistiku kao što su SPSS ili STATA) da bi se prikazala linija koja najbolje odgovara podacima. Drugim rečima, objašnjava Redman, „Crvena linija je najbolje objašnjenje odnosa između nezavisne promenljive i zavisne promenljive.“

 

Pored crtanja linije, vaš program za statistiku takođe daje formulu koja objašnjava nagib linije i izgleda najčešće ovako:

Regresiona Analiza

Za sada zanemarite error term. Odnosi se na činjenicu da regresija nije savršeno precizna. Samo se fokusirajte na model:

Regresiona Analiza

Ova formula vam govori da ako nema „x“, tada je y = 200. Dakle, istorijski gledano, kada uopšte nije padala kiša, ostvarili ste u proseku 200 prodaja i možete očekivati da ćete isto raditi i dalje pod pretpostavkom da ostale promenljive ostaju iste. A u prošlosti ste za svaki dodatni centimetar kiše u proseku ostvarili još pet prodaja. „Za svaki porast x za jedan, y poraste za pet“, kaže Redman.

 

Vratimo se sada na error term. Možda ćete doći u iskušenje da kažete da kiša ima veliki uticaj na prodaju ako za svaki centimetar ostvarite još pet prodaja, ali da li je ova promenljiva vredna vaše pažnje zavisiće od error term. Regresiona linija uvek ima error term, jer u stvarnom životu nezavisne promenljive nikada nisu savršeni prediktori zavisnih promenljivih. Pre je linija procena zasnovana na dostupnim podacima. Dakle, error term vam govori koliko možete biti sigurni u formulu. Što je veća error term, to je linija regresije manje sigurna.

 

Gornji primer koristi samo jednu promenljivu za predviđanje faktora od interesa – u ovom slučaju kiša za predviđanje prodaje. Tipično započinjete regresionu analizu želeći da razumete uticaj nekoliko nezavisnih promenljivih. Tako da možete uključiti ne samo kišu, već i podatke o promociji konkurenata. „To radite dok error term ne bude vrlo mali“, kaže Redman. „Pokušavate da dobijete liniju koja najbolje odgovara vašim podacima.“ Iako mogu postojati opasnosti od pokušaja uključivanja previše promenljivih u regresionu analizu, vešti analitičari mogu umanjiti te rizike. A razmatranje uticaja više promenljivih odjednom jedna je od najvećih prednosti regresije.

 

Konkurencija Trzista Popusti
Black Friday

 

 

Kako kompanije koriste regresionu analizu?

 

Regresiona analiza je „metoda u analitici“, kaže Redman. A pametne kompanije je koriste za donošenje odluka o svim vrstama poslovnih problema. „Kao menadžeri želimo da shvatimo kako možemo uticati na prodaju ili zadržavanje zaposlenih ili regrutovanje najboljih ljudi. Pomaže nam da shvatimo šta možemo da učinimo“.

 

Većina kompanija koristi regresionu analizu da objasni fenomen koji žele da razumeju (npr. zašto su prošlog meseca opali pozivi za korisničku službu?); predvideti stvari o budućnosti (npr. kako će izgledati prodaja tokom narednih šest meseci?); ili da odlučimo šta da radimo (npr. da li da krenemo sa ovom ili nekom drugom promocijom?).

 

Regresiona Analiza kupovina

 

„Korelacija nije uzročnost“

 

Kad god radite sa regresionom analizom ili bilo kojom drugom analizom koja pokušava da objasni uticaj jednog faktora na drugi, morate da se setite važne izreke: Korelacija nije uzročnost. Ovo je kritično i evo zašto: Lako je reći da postoji korelacija između kiše i mesečne prodaje. Regresija pokazuje da su oni zaista povezani. Ali sasvim je druga stvar reći da je kiša izazvala prodaju. Ako ne prodajete kišobrane, možda će biti teško dokazati da postoji uzrok i posledica.

 

Ponekad su povezani faktori koji tako očigledno nisu povezani uzrokom i posledicom, ali češće u poslu to nije toliko očigledno. Kada vidite korelaciju iz regresione analize, ne možete da pretpostavite, kaže Redman. Umesto toga, „Morate izaći i videti šta se dešava u stvarnom svetu. Koji je fizički mehanizam koji uzrokuje vezu?“ Izađite i posmatrajte potrošače koji kupuju vaš proizvod po kiši, razgovarajte s njima i saznajte šta ih zapravo dovodi do kupovine. „Mnogi ljudi preskaču ovaj korak i mislim da je to zato što su lenji. Cilj nije shvatiti šta se dešava u podacima, već shvatiti šta se dešava u svetu.“, kaže on.

 

Redman je pisao o sopstvenom eksperimentu i analizi u pokušaju da smrša i povezanosti između putovanja i debljanja. Primetio je da kada putuje jede više, a manje vežba. Pa da li je njegovo debljanje izazvano putovanjima? Ne nužno. „Bilo je lepo kvantifikovati šta se dešava, ali putovanja nisu uzrok. Možda je povezano“, kaže on, ali nije baš kao da je njegovo putovanje stavilo te dodatne kilograme. Morao je da razume više o tome šta se događalo tokom njegovih putovanja. „Često sam u novim sredinama, pa možda jedem više jer sam nervozan?“ Trebalo je da pažljivije pogleda korelaciju. I ovo je njegov savet menadžerima. Koristite podatke za vođenje više eksperimenata, a ne za donošenje zaključaka o uzroku i posledicama.

 

Koje greške ljudi prave kada sprovode regresionu analizu?

 

Kao korisnik regresione analize, morate imati na umu nekoliko stvari.

 

Prvo, nemojte reći analitičaru podataka da izađe i shvati šta utiče na prodaju, prvo to nije posao analitičara jer vi ste ti koji treba da dostavite podatke na analizu, drugo. „Način na koji se većina analiza pokvari je da menadžer nije suzio fokus na ono što traži“, kaže Redman. Vaš posao je da prepoznate faktore za koje sumnjate da imaju uticaja i zamolite svog analitičara da ih ispita. „Ako analitičaru podataka kažete da ide u ribolovnu ekspediciju ili vam kaže nešto što ne znate, onda zaslužujete ono što dobijete, a to jeloša analiza“, kaže on. Drugim rečima, ne tražite od analitičara da odjednom pogledaju svaku promenljivu do koje mogu doći. Ako to učinite, verovatno ćete pronaći veze koje zapravo ne postoje. To je isti princip kao i bacanje novčića i igranje igre pismo, glava: učinite to dovoljno puta, na kraju ćete pomisliti da vidite nešto zanimljivo, poput gomile glava sve jednu za drugom.

 

Analiza

 

Takođe imajte na umu da li možete da učinite bilo šta u vezi sa nezavisnom promenljivom koju razmatrate. Ne možete promeniti koliko kiše pada, pa koliko je važno to razumeti? „Ne možemo ništa da učinimo u vezi sa vremenom ili promocijom našeg konkurenta, ali možemo da utičemo na sopstvene promocije ili da dodamo nove varijable povezane sa prodajom, na primer“, kaže Redman. Uvek se zapitajte šta ćete raditi sa podacima. Koje akcije ćete preduzeti? Kakve ćete odluke doneti?

 

Drugo, „analize su vrlo osetljive na loše podatke“, zato budite oprezni prema podacima koje prikupljate i kako ih prikupljate i znajte možete li im verovati.„Svi podaci ne moraju biti tačni ili savršeni“, objašnjava Redman, ali razmislite šta ćete raditi sa analizom. Ako odluke koje ćete doneti kao rezultat nemaju veliki uticaj na vaše poslovanje, onda je u redu ako su podaci „nekako loši“. Ali „ako pokušavate da odlučite da li ćete sagraditi 8 ili 10 nečega, a svaka izgradnja košta milion dolara, onda je to veća stvar“, kaže on. Grafikon u nastavku objašnjava kako razmišljati o tome da li postupati prema podacima.

 

Regresiona Analiza

 

Redman kaže da neki menadžeri koji su novi u razumevanju regresione analize greše ignorišući error term. Ovo je opasno za analizu, jer vezu između nečega čine sigurnijom nego što jeste. „Često rezultati se dobiju putem softvera, a menadžeri misle: „To je sjajno, iskoristimo ovo za napredak.“ Ali zapamtite da su rezultati uvek neizvesni. Kao što Redman ističe, „Ako regresija objašnjava 90% veze, to je sjajno. Ali ako to objašnjava 10%, a vi se ponašate kao da je 90%, to nije dobro.“ Poenta analize je da kvantifikuje sigurnost da će se nešto dogoditi. „Ne govori vam kako će kiša uticati na vašu prodaju, već vam govori o verovatnoći da kiša može uticati na vašu prodaju.“

 

Poslednja greška na koju Redman upozorava je dopuštanje da podaci zamene vašu intuiciju.

 

„Uvek morate da stavite svoju intuiciju iznad podataka“, objašnjava on. Zapitajte se da li se rezultati uklapaju u vaše razumevanje situacije. A ako vidite nešto što nema smisla, zapitajte se da li su podaci tačni ili zaista postoji velika greška. Redman predlaže da se obratite iskusnijim menadžerima ili drugim analizama ako dobijete nešto što nema smisla. I,  još dodaje, nikada ne zaboravite da gledate na ono što se dešava izvan vaše kancelarije: „Mora da uparite bilo koju analizu sa proučavanjem stvarnog sveta. Najbolji naučnici – i menadžeri – gledaju oboje. “

 

 

 

Izvor:

Prilagođeno za naš jezik 

https://hbr.org/2015/11/a-refresher-on-regression-analysis

“Ove fotografije su preuzete sa platforme Unsplash i koriste se u skladu sa uslovima korišćenja Unsplash-a. Autori ovih fotografija nisu navedeni pojedinačno, ali sve fotografije su dostupne na Unsplash-u i možete ih pronaći putem pretrage na njihovoj platformi.”