Nabízená rámcová témata závěrečných prací
Následující rámcová témata představují oblasti, kterými se náš výzkumný tým zabývá a ze kterých je možné vycházet při dohodě o tématu závěrečné práce (bakalářské, diplomové, dizertační). Rozsah i konkrétní zaměření volíme vždy individuálně tak, aby bylo vzájemně prospěšné a studentky/studenty práce bavila. Proto nás v případě zájmu o některou z oblastí kontaktujte, věřím, že vytvoříme zadání “šité na míru”.
Pokud máte zájem o spolupráci na některém z rámcových témat, ozvěte se: “Ing. Tomáš Čejka, Ph.D.” cejkato2@fit.cvut.cz
1. Analýza šifrovaného síťového provozu a detekce
Šifrovaný provoz dnes již tvoří většinu síťového provozu, což představuje významné zlepšení bezpečnosti a soukromí pro uživatele. Na druhou stranu mohou výhod soukromé komunikace zneužívat i útočníci a tvůrci škodlivého software, kteří se tak záměrně vyhýbají detekci. Analýza šifrované komunikace tedy představuje výzkumnou výzvu pro oblast bezpečnostních systémů založených na monitorování síťového provozu, neboť již není možné v původní míře extrahovat a analyzovat přímo obsah síťových paketů. Toto rámcové téma se zaměřuje na analýzu charakteristických vlastností paketů a komunikačních toků s cílem odhadnout pravděpodobný obsah komunikace - aktivitu, nebo alespoň určení použitého komunikačního protokolu. Obojí je přínosné pro detekci bezpečnostních hrozeb a udržení situačního povědomí (situational awareness) správců/operátorů infrastruktury nebo bezpečnostních týmů. V oblasti analýzy šifrovaného síťového provozu již máme řadu zkušeností a prezentovaných výsledků zejména kolem aplikace metod strojového učení. Díky tomu je možné na těchto základech stavět při dalších závěrečných pracích kolem celé řady protokolů (např. TLS, SSH, HTTPS, OpenVPN, WireGuard, Tor).
2. Zkoumání charakteristických vlastností síťového provozu
Základem bezpečnostní analýzy či detekce síťových hrozeb jsou data reprezentující síťový provoz. Tato data obsahující sadu charakteristik/statistik (features) slouží jako vstup klasifikačním a detekčním algoritmům. V současné době se pro monitorování síťového provozu úspěšně používají IP flow data (konkr. ve formátu IPFIX nebo NetFlow), které reprezentují informace o proběhlé komunikaci, tzn. “kdy kdo s kým jak moc” komunikoval. Pro využití metod strojového učení na klasifikační a detekční úlohy se ukazuje jako velice výhodné obohatit tyto flow záznamy o další informace na paketové úrovni, které se dají spočítat i ze šifrované komunikace. Jedná se například o různě agregované statistiky z délek paketů a mezipaketových mezer. Toto rámcové téma cílí právě na výzkum a experimenty kolem vhodných rozšiřujících informací pro IP flow data, která vylepší možnosti klasifikace pravděpodobného obsahu komunikace (aplikace) a detekce bezpečnostních hrozeb. Důležitým aspektem by však mělo být snadné získávání těchto nových informací tak, aby je bylo možné spočítat i na velice rychlých sítích (>= 200Gb/s).
V poslední době se podařilo najít a využít sadu unikátních statistik, které nám pomohly zlepšit přesnost modelů strojového učení nad síťovými daty. Na těchto zkušenostech je možné stavět při navazujících tématech závěrečných prací.
3. Automatická analýza bezpečnostních událostí
Monitorovací a detekční systémy produkují spousty událostí každou minutu, každá z těchto událostí může představovat větší nebo menší míru rizika bezpečnostní hrozby. Proto je velice výhodné a v praxi potřebné tato data zpracovávat a vzhledem k množství dat je nutností využít automatizaci. V akademickém i komerčním prostředí se vyvíjí a nasazují tzv. SIEM systémy (Security Information and Events Management), které se specializují na zkoumání korelace mezi událostmi s cílem odhalovat podezřelé shluky aktivit, které mohou prozradit například pokročilé perzistentní hrozby (APT). Vedle tohoto typu zpracování se tato data úspěšně využívají i pro predikci událostí a nebo chování síťových entit. Například u zdrojů síťových útoků je možné odhadnout pravděpodobnost budoucí škodlivé aktivity a modelovat tzv. reputační skóre. Informace o dlouhodobém chování a vlastnostech síťových entit se však vyplatí sledovat i pro legitimní zařízení v normálním stavu a to z důvodu automatického učení modelů benigního chování vůči kterým je pak následně možné navrhovat a nastavovat detekční mechanismy.
Toto rámcové téma se soustředí na zpracování bezpečnostních hlášení / alertů, odvozování “štítků” různých typů k síťovým entitám. Díky klasifikaci a odvozování nových informací o síťových entitách je následně možné lépe cílit obranné mechanismy v síťové infrastruktuře.
4. Automatický záchyt síťového provozu pro vytváření datových sad
Kvalitní, aktuální a veřejné datové sady jsou potřebné k vylepšování klasifikačních algoritmů a k věrohodnému porovnání výsledků mezi řešeními, ať už jde o rozhodovací stromy, neuronové sítě nebo jiné statistické metody. Vytváření takovýchto datových sad ze síťové komunikace je proto velice důležitý úkol. Toto rámcové téma se soustředí na automatizaci vytváření datových sad pomocí záchytu a anotování reálného síťového provozu. K anotování provozu se dá použít například DPI (deep packet inspection) nebo třeba informace z jiných zdrojů (koncová zařízení a jejich logy, databáze informací - OSINT, skenery a další).
Víceméně pro každou výzkumnou/vývojovou aktivitu zaměřenou na analýzu síťového provozu a detekci bezpečnostních hrozeb bylo potřeba vytvořit datovou sadu a tak již máme k dispozici sadu nástrojů a vznikající infrastrukturu pro záchyt provozu. Závěrečné práce vycházející z tohoto rámcového tématu proto mohou přispět ke zlepšení a rozšíření schopnosti vytvářet kvalitní rozsáhlé anotované datové sady.
5. Datové sady síťové komunikace a jejich vyhodnocování
Ať již se jedná o veřejně dostupné datové sady publikované zahraničními výzkumníky nebo o vlastní datové sady vytvořené lokálně, před použitím vždy vyvstává otázka vhodnosti pro použití na konkrétní problém klasifikace či detekce. Díky velkému množství reálného síťového provozu je relativně snadné, vytvořit velkou datovou sadu, avšak v tuto chvíli neexistují dostatečné metody, které by umožnily vyhodnotit kvalitu, dostatečnost množství dat nebo naopak míru zbytečné redundance, která způsobuje nadbytečné nároky na úložiště.
Toto rámcové téma cílí na hledání způsobů vyhodnocování datových sad a jejich kvality a to například pomocí analýzy struktury a různých vlastností datové sady a nebo vyhledávání konkrétních nedostatků. Řešení těchto problémů může významně pomoci regulovat automatické systémy pro vytváření datových sad, predikovat vhodný okamžik přetrénování klasifikačních a detekčních systémů v případě, kdy datové sady přestanou být aktuálnía nebo třeba porovnat datové sady z různých zdrojů, případně je nějakých “chytrým” způsobem sloučit k dosažení kvalitních podkladů pro trénování.
6. Hardwarově akcelerované monitorování síťového provozu
Zpracování síťového provozu na vysokých rychlostech (400Gb/s) patří k velice zajímavým výzvám počítačového inženýrství. Aby bylo možné zpracovat všechny pakety bezeztrátově, systém má řádově několik nanosekund a v určitých případě je dokonce nutné pomoci si paralelismem, tzn. zpracovávat víc než jeden paket v jednom taktu. Na druhou stranu je tato oblast velice důležitá, protože tzv. monitorovací sondy, které pakety na takto rychlých linkách zpracovávají, jsou velice cenným zdrojem dat např. pro bezpečnostní (detekční) systémy. Bez těchto přesných dat je výrazně ohrožena bezpečnost infrastruktury, neboť bezpečnostní hrozby mohou zůstat neobjeveny. Monitorovací sondy však nejsou pouze hardware a firmware. V současné době se ukazuje jako nejvhodnější přístup tzv. hardware-software co-design, což ve výsledku znamená pečlivě navržená a vyvinutá harmonie mezi komponentami, které z hardwarové karty spolupracují s paralelně běžícími softwarovými vlákny tak, aby bylo dosaženo optimálního využití zdrojů systému.
Toto rámcové téma staví na dlouholetých zkušenostech týmu a spolupráci s výzkumným oddělením sdružení CESNET. Díky tomu je možné využít unikátní technické prostředky, bez kterých by vývoj takovýchto aplikací nebyl vůbec možný, a čerpat z mnoha zkušeností s vývojem vysokorychlostních aplikací na zpracování síťového provozu. Cílem tohoto tématu je podílet se na výzkumu/vývoji monitorovacích sond pro 400Gb/s a to například parsování paketů, tzv. flow cache, výpočty charakteristik a statistik obohacujících tradiční IP flow data.
7. Klasifikace síťového provozu pomocí analýzy časových řad
Základem bezpečnostní analýzy či detekce síťových hrozeb jsou data reprezentující síťový provoz. Tato data spolu s časem lze reprezentovat pomocí časové řady jejíž chování můžeme popsat sadou charakteristik/statistik (features), které následně slouží jako vstup klasifikačním a detekčním algoritmům. V současné době se pro monitorování síťového provozu úspěšně používají IP flow data (konkr. ve formátu IPFIX nebo NetFlow), které reprezentují informace o proběhlé komunikaci, tzn. “kdo kdy s kým a jak moc” komunikoval. Analýza časových řad z IP flow dat pro detekci a klasifikaci představuje výzkumnou výzvu pro oblast bezpečnostních systémů založených na monitorování síťového provozu, neboť již není možné v původní míře extrahovat a analyzovat přímo obsah síťových paketů. Toto rámcové téma se zaměřuje na výzkum a experimenty v oblasti analýzy časových řad vytvořených ze síťového provozu s cílem odhadnout jakou komunikaci časová řada reprezentuje - aktivitu, protokol, typ zařízení. Což je přínosné pro detekci bezpečnostních hrozeb a udržení situačního povědomí (situational awareness) správců/operátorů infrastruktury nebo bezpečnostních týmů.
Příkladem významného chování časové řady je periodicita, která se již ukázala jako vhodná pro klasifikaci síťového provozu (aplikací, služeb a operačních systémů). Detekci periodicity je tak možné využít při dalších experimentech a výzkumu navazujících témat závěrečných prací. Příkladem významné výzkumné oblasti z tohoto rámcového tématu je detekce anomálního chování, která je v současnosti velice žádaná a hojně využívaná monitorovacími systémy. Anomálního chování se zejména skloňuje při detekci DDoS útoků či při detekci podezřelého chování zařízení v síti, které bylo napadeno útočníkem.