datahacker.rs@gmail.com

Category: Data Science

#006 Linearna regresija

Linearna regresija Napravićemo malu pauzu sa klasifikacijom. Podsetimo se, šta smo zapravo želeli kod klasifikacije? Cilj klasifikacije je da se pronađe funkcija koja će na optimalan način podeliti podatke iz dva ili više skupova. U zavisnosti od toga sa koje “strane” ove funkcije se podaci nalaze, definiše se pripadnost odgovarajućoj klasi. U slučaju regresije potrebno je takođe odrediti funkciju, tj. njen matematički oblik. U ovom slučaju dobijenu funkciju ćemo koristiti da odredimo koju će vrednost…
Read more

#005 Iris Dataset

Prvi „pravi“ dataset mašinskog učenja Do sada smo koristili ručno napravljene dataset-ove ili one napravljene uz pomoć random naredbi. Jedan od prvih skupova podataka koji su naučnici koristili predstavlja Iris Dataset. Skoro svi blogovi ili udžbenici koriste ovaj dataset, stoga i mi nećemo napraviti izuzetak. Ovaj skup podataka napravio je statističar Fišer (engl. Fisher (1936.)), a on je takođe dao doprinose i samom razvoju LDA algoritma. Stoga se korisiti i naziv Fisher Linear Discirminant Analysis.…
Read more

#004 Slučajni brojevi i njihova uloga u ML

Šta su slučajni brojevi? U prethodnom primeru naš dataset kreirali smo ručno. Često se pretpostavlja da su sami podaci u mašinskom učenju generisani nekom slučajnom statističkom raspodelom. Uzimajući ovu pretpostavku u obzir, postaje lako da generišemo klase podataka koje sadrže proizvoljno veliki broj elemenata. Ukoliko do sada niste pohađali kurseve verovatnoće, zamislite bubanj za loto izvlačenje. To je generator slučajnih celih brojeva od 1 do 39 (ili već kako je definisano). Prva raspodela koja će…
Read more

#002 Python kao najbolji alat za Data Scientist-a

Python vs R U Data Science-u stvari se veoma brzo menjaju. U 2015. godini popularni sajt za Data Science online obuku nudio je isključivo obuku za programski jezik R. Procene pokazuju da je Python u 2017. godini traženiji kada je u pitanju Machine Learning. Svakako za uspešnog Data Scientiest-a neophodno je poznavati oba programska jezika.  Obzirom da dataHacker prati svetske trendove, kao radno okruženje koristićemo distribuciju Python Anaconda u kreiranju ovog bloga. Python koristimo u Jupyter Notebook-u. Za…
Read more

#001 Uvod u Data Science

Uvod u Data Science Ideja o nastanku bloga o Data Science-u na srpskom jeziku motivisana je sledećim razlozima: Na svetskom tržištu postoji velika potreba za Data Science veštinama. U Srbiji svega nekoliko kompanija ima svoja Data Science odeljenja koja se susreću sa velikim problemom pronalaženja adekvatanog kadra. Ideja o blogu motivisana je nedavnom inicijativom da se uvedu studijski programi osnovnih i master studija koji su posvećeni Data Science-u. Više o tome možete saznati na sledećem…
Read more