Аналитика на големи податоци и дистрибуирани податоци

Аналитика на големи податоци и дистрибуирани податоци

1.

Наслов на наставниот предмет

Аналитика на големи податоци и дистрибуирани податоци

Big Data and Distributed Data Analytics

2.

Код

m23_s_211

3.

Студиска програма

Биоинформатика, Безбедност, криптографија и кодирање, Едукација со ИКТ, Интелигентни системи, Интернет технологии и сајбер безбедност, Компјутерски науки, Статистика и аналитика на податоци, Софтвер за вградливи системи, Софтверско инженерство, Биоинформатика, Безбедност, криптографија и кодирање, Статистика и аналитика на податоци, Софтверско инженерство, Пресметување во облак, Data science in computer science and engineering, Управување во информатички технологии, Еко-информатика, Пресметување во облак, Управување во информатички технологии,

4.

Организатор на студиската програма (единица, односно институт, катедра, оддел)

Факултет за информатички науки и компјутерско инженерство

5.

Степен (прв, втор, трет циклус)

Втор циклус

6.

Академска година / семестар

5 / Летен

7. Број на ЕКТС кредити

6.0

8.

Наставник

ворн. проф. д-р Милош Јовановиќ проф. д-р Вангел Ајановски

9.

Предуслови за запишување на предметот

10.

Цели на предметната програма (компетенции):


Целта на курсот е студентот да се запознае со концептите на големи податоци, и процес на нивна анализа од дистрибуирано масовно складирање, до дистрибуирано масовно процесирање (во живо во текот на собирање или по собирањето) и анализи на резултатите од процесирањето на податоците со цел поддршка на одлучување, бизнис подобрување и подобрување на текови и процеси. Компетенции кои се очекува да ги стекне студентот по завршувањето со предметот: - да познава техники и методи за масовно дистрибуирано складирање на големи податоци - да познава техники и методи за масовна дистрибуирана подготовка на големи податоци за идна обработка - да познава техники и методи за масовно и дистрибуирано процесирање и анализа на големи податоци - да ги примени стекнатите знаења во конкретен реален проект за складирање, обработка и процесирање и анализа на дистрибуирани и големи податоци - да ги оспособи идните архитекти да проектираат дистрибуирани решенија за управување со податоци, - да ги оспособи софтверските инженери да проектираат софтверски решенија во облак кои се базираат над диструбирани бази податоци, - да им ги презентира фундаменталните принципи и техники на идните истражувачи од областа, и да им даде основа за идна самостојна истражувачка работа

11.

Содржина на предметната програма:


Теми обработени во рамките на овој предмет: - Вовед во големи податоци. Потреба и вредност на големи податоци. Големи податоци од социјални мрежи. - Моделирање на големи податоци и статистичка обработка на големи податоци. - Пребарување и рударење на големи податоци. - Научни апликации со големи податоци. - Приватност, интегритет и заштита на големи податоци. - Вовед во дистрибуирано процесирање податоци. - Алатки, алгоритми и техники за програмирање за процесирање на големи податоци, како HDFS, MapReduce, Zookeeper, HBase и други. - Дизајн и архитектура на дистрибуирани податоци и дистрибуирани системи на бази податоци. - Процесирање прашалници во дистриубирана средина. - Диструбуирана контрола на конкурентен пристап и концепти на евентуална конзистентност. - Управување со дистрибуирани бази податоци. - Процесирање прашалници во дистриубирана средина - Стриминг на податоци и пресметување во облак - Управување со NoSQL за големи податоци. Graph Analytics.

12.

Методи на учење:


- Предавања и вежби со дискусии базирана на примери, анализа на различни достапни примери - Компјутерски потпомогнато учење - Електронско и учење на далечина - Групно истражување и развој - Користење на релевантни софтверски алатки - Изработка на проект и одбрана на проектот

13.

Вкупен расположив фонд на време

6.0 ЕКТС x 30 часа = 180 часа

14.

Распределба на расположивото време

30 + 30 + 15 + 90 + 15 = 180 часа

15.

Форми на наставните активности

15.1.

Предавања- теоретска настава

30 часови

15.2.

Вежби (лабораториски, аудиториски), семинари, тимска работа

30 часови

16.

Други форми на активности

16.1.

Проектни задачи

90 часови

16.2.

Самостојни задачи

15 часови

16.3.

Домашно учење

15 часови

17.

Начин на оценување

17.1.

Тестови

0 бодови

17.2.

Семинарска работа/ проект ( презентација: писмена и усна)

90 бодови

17.3.

Активности и учење

30 бодови

17.4.

Завршен испит

15 бодови

18.

Критериуми за оценување (бодови/ оценка)

до 50 бода

5 (пет) (F)

од 51 до 60 бода

6 (шест) (E)

од 61 до 70 бода

7 (седум) (D)

од 71 до 80 бода

8 (осум) (C)

од 81 до 90 бода

9 (девет) (B)

од 91 до 100 бода

10 (десет) (A)

19.

Услов за потпис и полагање на завршен испит

50% од активностите и првична верзија од проектот

20.

Јазик на кој се изведува наставата

македонски, англиски

21.

Метод на следење на квалитетот на наставата

механизам на интерна евалуација и анкети

22.

Литература

22.1.

Задолжителна литература

Ред.бр.

Автор

Наслов

Издавач

Година

7873

Viktor Mayer-Shonberger, Kenneth Cukier

Big Data: A Revolution That Will Transform How We Live, Work, and Think

Eamon Dolan/Houghton Mifflin Harcourt; Reprint edition

2014

7874

Eric Siegel

Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die, 2nd ed.

John Wiley & Sons

2016

7875

M. Tamer Özsu, Patrick Valduriez

Principles of Distributed Database Systems, 4th ed.

Springer

2020

7876

Saeed K. Rahimi, Frank S. Haug

Distributed Database Management Systems: A Practical Approach

Wiley-IEEE Computer Society

2010

7877

Jure Leskoec, Anand Rajaraman, Jeffrey D. Ullman

Mining of Massive Datasets, 3rd ed.

Cambridge University Press

2020

7878

Селекција на значајни и актуелни истражувачки трудови од областа –дадени во печатена или електронска форма

0

7879

Електронска документација од страниците на производителите на системите кои се користат во активностите

0

22.2.

Дополнителна литература

Ред.бр.

Автор

Наслов

Издавач

Година