fbpx

Uvod u statistiku u R

Uvod u statistiku u R

Centar za Istraživanja

Koliko često u svakodnevnim razgovorima čujete pojmove big data i data science? Koliko ste u poslednje vreme čitali o značaju ispravne statističke analize podataka? Koliko puta ste čuli za programaski jezik R?

R je jezik velikih podataka (big data), programski jezik koji nam pomaže da opisujemo i testiramo veze između velike količine podataka.

Upotreba programskog jezika R kontinuirano raste u svim oblastima (statistika, IT, matematika, ekonomija, itd.), a broj korisnika ovog programskog jezika se godišnje povećava oko 40%. R je programski jezik koji može slobodno da se koristi i distribuira (open-source). Poznavanje rada u programskom jeziku R je jedna od bitnijih veština ukoliko želite da se bavite Data Science-om.

Sposobnost analize i interpretacije podataka postaje sve kritičniji faktor pokretanja komercijalnih inovacija i uspeha. Maksimiziranje operativne efikasnosti, razumevanje vaše korisničke baze ili praćenje kontrole kvaliteta zahteva sve podatke i njihovu analizu.

R pruža fleksibilan alat za analizu u koji su ugrađene sve standardne statističke tehnike.

Kurs „Uvod u statistiku u R“ je kreiran da se svi zainteresovani za analizu podataka i statistiku (studenti, doktorandi, istraživači, naučni radnici, marketing stručnjaci, itd.) upoznaju sa osnovnim konceptima ovog programskog jezika i primenom osnovnih statističkih analiza. Kroz teorijska znanja, praktične primere i diskusiju naučićete kako da koristite R za statističku analizu podataka.

Na kursu „Uvod u statistiku u R“ ćete naučiti sledeće:

Kurs: Uvod u statistiku u R

  • Instaliranje R programa
  • Upotreba Rstudio
  • Instalacija i korišćenje paketa
  • Korišćenje postojećih podataka
  • Unos podataka
  • Uvoz podataka iz drugih baza podataka
  • Osnovni tipovi podataka
  • Transformacija podataka
  • Brisanje podataka
  • Osnovne funkcije
  • Spajanje fajlova
  • Izbor podataka
  • Analiza podgrupa
  • Kreiranje grafika
  • Paket ggplot2
  • Čuvanje i obajvljivanje grafika
  • Deskriptivna statistika
  • Korelacija
  • Krostabulacije

Za pohađanje kursa je potrebno osnovno znanje statistike. Poslednji dan kursa je namenjen samostalnoj analizi podataka uz prezentovanje istraživanja svakog polaznika.

Kurs traje 3 dana (15h).

Često postavljena pitanja u vezi kursa

Ovde možete pronaći odgovore na često postavljena pitanja u vezi kursa “Uvod u statistiku u R“.

Kurs „Uvod u statistiku u R “ se održava u prostorijama Centra za istraživanja odnosno Centra za ljudske resurse (Vlajkovićeva 19 ili Nemanjina 5, Beograd) sem ako nije drugačije naglašeno. Svakako ćete pre početka kursa dobiti detalje o lokaciji.

Da. Centar za istraživanja ne obezbeđuje instalacioni paket za R program. R program je besplatan. Možete ga preuzeti besplatno.

Da, nakon kursa ćete dobiti sertifika o pohađanju kursa „Uvod u statistiku u R“ sa brojem sati koje ste pohađali.

Ako pohađate individualni kurs „Uvod u statistiku u R“ možete da koristite Vaše podatke. Ako pohađate grupni kurs, podatke za kurs će obezbediti predavač.

Da, materijal za kurs „Uvod u statistiku u R“ dobijate u štampanom obliku ukoliko pohađate uživo ili u digitalnoj formi ukoliko pohađate online.

Da, na kraju kursa se radi procena stečenog znanja kroz samostalno rešavanje zadataka.

Da, dobro bi bilo da ponesete sopstveni laptop. Ako to nije moguće, Centar za ljudske resurse odnosno njegova izdvojena jedinica Centar za istraživanja će Vam obezbediti laptop koji ćete koristiti tokom kursa.

Da, broj polaznika je ograničen na 10.

Da, definisana cena kursa ostaje ista nezavisno od lokacije.

Da, cena individualnog kursa se razlikuje za fizička i pravna lica. U zavisnosti od profesije, predznanja i željenog cilja, formira se i različita cena.

Okvirna cena kursa ''Uvod u statistiku u R'' iznosi 53.000 dinara za pohađanje u grupi.

Naravno. Ukoliko pohađate individualni online kurs ili u našim prostorijama, postoji mogućnost dogovora oko satnice i dana održavanja kursa.

Kurs "Uvod u statistiku u R" traje15h.

Primena R u različitim oblastima

Primena R u finansijama

Data Science se najviše koristi u finansijama, a R se najčešće primenjuje u ovoj oblasti zato što R programski jezik pruža napredni statistički paket koji može da izvrši sve potrebne finansijske zadatke i analize.

Uz pomoć R programskog jezika, finansijske institucije su u mogućnosti da izvrše merenje rizika, da prilagode performanse rizika i koriste grafikone za vizuelizaciju podataka.

R takođe nudi alate za autoregresiju i analizu vremenskih serija što čini srž finansijskih analiza. R se koristi za analizu kreditnog rizika i upravljanje portfeljem. Finansijske kompanije takođe koriste R da bi modelirale kretanje tržišta deonica i predvidele cene akcija.

Primena R u bankarstvu

Bankarska industrija koristi R za modeliranje kreditnog rizika i druge oblike analize rizika. Banke intenzivno koriste modele koji im omogućavaju preuzimanje imovine u slučaju neispunjenja kredita (hipoteke). Ovi modeli uključuju analizu prodajnih cena, volatilnost prodajne cene i izračunavanje očekivanih gubitaka.

Na primer, Bank of America koristi R za finansijsko izveštavanje. Uz pomoć R, analitičari Bank of America analiziraju finansijske gubitke i koriste R- alate za vizuelizaciju.

Primena R u medicini

Genetika, bioinformatika, farmacija, epidemiologija su neke od oblasti koje zahtevaju upotrebu R. Uz pomoć R, kompanije u ovim oblastima mogu da analiziraju podatke pružajući podršku za dalju analizu i obradu podataka.

Za napredniju obradu poput otkrivanja novih lekova, R se najviše koristi za sprovođenje pretkliničkih ispitivanja i analizu podataka o sigurnosti leka. Takođe, R nudi paket za obavljanje istraživačkih analiza podataka i alate za vizuelizaciju.

R se također koristi za statističko modeliranje u oblasti epidemiologije, gde naučnici na osnovu analiziranih podataka predviđaju širenje bolesti.

Primena R u e-trgovini

Industrija e-trgovine jedan je od najvažnijih sektora koji koristi Data Science, a R je jedan od standardnih alata koji se koristi u e-trgovini. S obzirom na to da kompanije koje se bave e-trgovinom imaju različite podatke, strukturirane i nestrukturirane, kao i različite izvore ovih podataka, R je najefikaciji izbor za analizu i obradu podataka u ovoj industriji.

e-trgovina

Kompanije za e-trgovinu koriste R za analizu unakrsne prodaje proizvoda svojim kupcima. U unakrsnoj prodaji kupcu se predlažu dodatni proizvodi koji dopunjuju njihovu okupovinu. Ove vrste predloga i preporuka najbolje se analiziraju pomoću R. Pored toga, različite statističke tehnike, poput linearnog modeliranja potrebni su za analizu kupovine i za predviđanje prodaje proizvoda.

Primena R u proizvodnji

R ima veliku primenu i u prozvodnji. Proizvodne kompanije poput Ford i John Deere koriste R za analizu sentimenata kupaca. To im pomaže da optimizuju svoj proizvod u skladu s interesima potrošača i da usklade svoj obim proizvodnje s potražnjom na tržištu. Oni takođe koriste R da bi minimizirali troškove proizvodnje i maksimizirali dobit.

Primena R u društvenim medijima

Društveni mediji su izazovno polje za Data Science, jer su podaci koji se nalaze na web stranicama društvenih medija većinom nestrukturirani. R se koristi za analitiku društvenih medija, za segmentiranje potencijalnih kupaca i ciljanje istih za prodaju proizvoda.

društvene mrežeUz pomoć R, kompanije su u mogućnosti da koriste statističke alate i analiziraju sentimente korisnika omogućavajući im da poboljšaju svoje iskustvo. Kompanije takođe koriste R za analizu tržišta društvenih medija i generisanje potencijalnih klijenata.

Kompanije koje koriste R

  • Facebook koristi R za ažuriranje statusa i grafikona svoje društvene mreže.
  • Ford Motor Company koristi R za statističku analizu podataka i podršku pri donošenju odluka.
  • Google koristi R za izračunavanje ROI za reklamne kampanje i za predviđanje ekonomske aktivnosti, kao i za poboljšanje efikasnosti internet oglašavanja.
  • Foursquare koristi R za mehanizam preporuka.
  • Mozilla koristi R kao osnovu za web pretraživač i za vizuelizaciju web aktivnosti.
  • John Deere koristi R za modeliranje vremenskih serija, a takođe i za geoprostornu analizu.
  • Twitter koristi R za sofisticirano statističko modeliranje.

Kome je ovaj kurs namenjen?

  • Ovaj kurs je za Vas ako želite da naučite osnove statistike u R
  • Ovaj kurs je za Vas ako ste umorni od R kurseva koji su prekomplikovani
  • Ovaj kurs je za Vas ako želite naučiti R radeći
  • Ovaj kurs je za Vas ako volite uzbudljive izazove
  • Ovaj kurs je za one koji ne beže od domaćih zadataka

Da, imaćete domaći zadatak na ovom kursu, tako da morate biti spremni da radite na njemu kako biste uspešno položili završni test

Istorijat R jezika

Istorija R-a je priča o dobrom izboru I sreći.

Kanada i statistički softver

1992. godine Gentleman – tada profesor na Univerzitetu Vaterloo u Kanadi – je prešao  8600 milja do Univerziteta u Aucklandu da bi predavao tri meseca kao gostujući professor.

Jednog dana zatrebao mu je  priručnik za softver koji su do tada koristili i Ihaka – koji je još uvek bio redovan profesor statistike – bio je jedini na odeljenju koji je imao kopiju.

Vremenom su oboje shvatili da dele interesovanje za ono što Ihaka naziva „ akademskom zabavom i igrom“ sa statističkim računarskim jezicima.

I Gentlmen i Ihaka su imali pitanja o programskim jezicima za koje su želeli da dođu do odgovora.

Naročito su delili zajedničko znanje jezika koji se zove „Šema“ i obojica su smatrali da je jezik koristan na različite načine.

Međutim, Šema je bila nezgodna za unos podataka i nedostajala joj je željena funkcionalnost. Oboje su bili  upoznati sa još jednim jezikom, zvanim „S“, a S je pružao vrstu sintakse koju su želeli.

Kako nije postojao jezik koji je zadovoljavao sve kriterijume, Gentleman je predložio da nešto naprave sami.

Australijski fakulteti i potreba za statističkom obradom podataka

Otprilike u isto vreme na australijskom fakultetu se javila potreba za programskim jezikom koji će se koristiti na studijama statistike jer je trenutni školski statistički program koji su koristili bilo nemoguće I dalje koristiti. Nije bio praktičan.

Definisanjem potrebe za novim programskim jezikom postojao je i jedan zahtev, programski jezik je morao da se izvodi na Macintoshu, odnosno Appleovom operativnom sistemu.

Prema Gentleman-u, Ministarstvo za statistiku je napravilo popis i zaključilo da je “ta stvar na kojoj Ross i Robert rade”, a koja “trči’ i na Macintosh-u,  bolja od njihovog trenutnog programskog jezika koji koriste na fakultetu.

finansijeProfesori su još nezvršeni programski jezik rešili da nazovu R, akronimom njihovog imena.

Projekat je bio u tajnosti za širu javnost sve do Avgusta 1993. godine kada je poslat email svima zainteresovanima I prijavljenima na mejling listi za S programski jezik i tako je R jezik postao zapažen. 

R programski jezik u Kanadi

Kanadski profesori su imali sličan problem, trebala im je verzija S jezika koja je za mekintoš.

kodiranjeIhaka je odlučio da je zaista vreme da R ugleda svetlost dana, obraćajući se ljudima koji su pratili razvoj S jezika i dobijali informacije o istom putem “newslettera” govoreći da R nije završen, ima svoje nesavršenosti ali će uskoro biti stabilan. Ubrzo nakon toga, stabilna verzija R programskog jezika se pojavila na StatLib, online sistemu koji distribuira statistički softver i podatke.

Facebook, Google, Bing danas koriste R jezik

Iako je R programski jezik danas besplatan, sredinom 90 tih godina Ihaka i Gentlmen su ozbiljno razmatrali da pretvore R u komercijaljni programski jezik, idući toliko daleko da su kupili  knjigu o osnivanju biznisa i pitali ljude iz profesije šta je potrebno da bi prodali softwer.

Ali na kraju ideja o prodavanju R jezika se činila komplikovanom zbog svega onoga što je trebalo preduzeti I uložiti da bi se jezik prodao nego što je sam jezik i rad na jeziku vredeo kako su zaključili.

R jezik u open source zajednici

Dr Martin Machler iz Ciriha je pomogao dalje širenje programskog jezika kroz open source zajednicu, u kojoj se veruje da bilo ko, nezavisno od prihoda ima pravo na pristup onome što zajednica pruža u ovom slučaju programskim jezicima.

Danas na milione istraživača, analitičara, i velikih kompanija kao što su Facebook, Google, Bing, koriste R programski jezik za rešavanje komplikovanih zadataka. Korištenje R programskog jezika nije samo vezano za jednu profesiju nego se može koristiti i u bankarskom svetu, finansijama i mnogim drugim.. 

R program i vizualizacija podataka

Srž analize podataka i nauke o podacima je statistika.

R programski jezik su razvila dva statističara koji su nameravala da stvore sistem za statističko računanje i vizuelizaciju podataka koji bi imao široku primenu.

Rezultati analize podataka nisu dovoljno uverljivi za širu javnost ako se ne predstave na pravi način što podrazumeva I grafički prikaz analize I obrade podataka.

R poseduje jedan od najopsežnijih skupova alata za vizuelizaciju.

vizualizacijaS obzirom na to da je R programski jezik besplatan, sama količina galerija i mogućnosti grafikona je veoma korisna kako za statističare tako i za sve one koji vole da se igraju sa statistikom.

Analiza i interpertacija podataka

Sposobnost analize i interpretacije podataka postaje sve kritičniji faktor pokretanja komercijalnih inovacija i uspeha. Maksimiziranje operativne efikasnosti, razumevanje Vaše korisničke baze ili praćenje kontrole kvaliteta zahteva sve podatke i njihovu analizu.

R pruža fleksibilan alat za analizu u koji su ugrađene sve standardne statističke tehnike.