Author: datahacker.rs

#005 Iris Dataset

Prvi „pravi“ dataset mašinskog učenja Do sada smo koristili ručno napravljene dataset-ove ili one napravljene uz pomoć random naredbi. Jedan od prvih skupova podataka koji su naučnici koristili predstavlja Iris Dataset. Skoro svi blogovi ili udžbenici koriste ovaj dataset, stoga i mi nećemo napraviti izuzetak. Ovaj skup podataka napravio je statističar Fišer (engl. Fisher (1936.)), a on je takođe dao doprinose i samom razvoju LDA algoritma. Stoga se korisiti i naziv Fisher Linear Discirminant Analysis.…
Read more

#004 Slučajni brojevi i njihova uloga u ML

Šta su slučajni brojevi? U prethodnom primeru naš dataset kreirali smo ručno. Često se pretpostavlja da su sami podaci u mašinskom učenju generisani nekom slučajnom statističkom raspodelom. Uzimajući ovu pretpostavku u obzir, postaje lako da generišemo klase podataka koje sadrže proizvoljno veliki broj elemenata. Ukoliko do sada niste pohađali kurseve verovatnoće, zamislite bubanj za loto izvlačenje. To je generator slučajnih celih brojeva od 1 do 39 (ili već kako je definisano). Prva raspodela koja će…
Read more

#003 Linearna diskriminaciona analiza

Klasifikacija Zamislimo da imamo dve klase, čiji su elementi prikazani kao zvezdice i trouglovi. Cilj mašinskog učenja je da se za ove 2 klase odredi funkcija (crna linija na slici) koja će na optimalan način razdvojiti ove klase. Kada se pojavi novi element, algoritam treba da prepozna sa koje strane ove funkcije će se on nalaziti. Na taj način, novi, do sada nepoznat element (podatak) biće klasifikovan. Najjednostavniji oblik funkcije  je linearna funkcija (npr. jednačina…
Read more

#002 Python kao najbolji alat za Data Scientist-a

Python vs R U Data Science-u stvari se veoma brzo menjaju. U 2015. godini popularni sajt za Data Science online obuku nudio je isključivo obuku za programski jezik R. Procene pokazuju da je Python u 2017. godini traženiji kada je u pitanju Machine Learning. Svakako za uspešnog Data Scientiest-a neophodno je poznavati oba programska jezika.  Obzirom da dataHacker prati svetske trendove, kao radno okruženje koristićemo distribuciju Python Anaconda u kreiranju ovog bloga. Python koristimo u Jupyter Notebook-u. Za…
Read more

#001 Uvod u Data Science

Uvod u Data Science Ideja o nastanku bloga o Data Science-u na srpskom jeziku motivisana je sledećim razlozima: Na svetskom tržištu postoji velika potreba za Data Science veštinama. U Srbiji svega nekoliko kompanija ima svoja Data Science odeljenja koja se susreću sa velikim problemom pronalaženja adekvatanog kadra. Ideja o blogu motivisana je nedavnom inicijativom da se uvedu studijski programi osnovnih i master studija koji su posvećeni Data Science-u. Više o tome možete saznati na sledećem…
Read more