Firmy Cybersecurity Sophos i ReversingLabs w poniedziałek wspólnie opublikowały pierwszy w historii zbiór danych dotyczących badań nad złośliwym oprogramowaniem na skalę produkcyjną, który zostanie udostępniony opinii publicznej i ma na celu zbudowanie skutecznej obrony oraz wprowadzenie usprawnień w zakresie wykrywania i reagowania na zagrożenia w całej branży.
„SoReL-20M” (skrót od Sophos-ReversingLabs – 20 milionów) to zbiór danych zawierający metadane, etykiety i funkcje dla 20 milionów plików wykonywalnych Windows Portable Executable (.PE), w tym 10 milionów „rozbrojonych” próbek złośliwego oprogramowania, mający na celu opracowanie metod uczenia się maszynowego dla lepszego wykrywania złośliwego oprogramowania.
„Otwarta wiedza i zrozumienie zagrożeń cybernetycznych prowadzi również do bardziej przewidywalnego bezpieczeństwa cybernetycznego”, powiedziała grupa Sophos AI. „Obrońcy będą w stanie przewidzieć, co robią napastnicy i być lepiej przygotowani na ich następny ruch”.
Wydaniu towarzyszy zestaw modeli nauczania maszynowego opartych na PyTorch i LightGBM, które zostały wstępnie przeszkolone na tych danych jako punkty odniesienia.
W odróżnieniu od innych dziedzin, takich jak język naturalny i przetwarzanie obrazów, które skorzystały z ogromnych, publicznie dostępnych zbiorów danych, takich jak MNIST, ImageNet, CIFAR-10, IMDB Reviews, Sentiment140 i WordNet, uzyskanie standardowych, oznaczonych zbiorów danych poświęconych bezpieczeństwu cybernetycznemu okazało się wyzwaniem ze względu na obecność informacji umożliwiających identyfikację osób, wrażliwych danych dotyczących infrastruktury sieciowej oraz prywatnej własności intelektualnej, nie wspominając już o ryzyku dostarczania złośliwego oprogramowania nieznanym stronom trzecim.
Chociaż EMBER (aka Endgame Malware BEnchmark for Research) został wydany w 2018 roku jako open-source malware classifier, jego mniejsza wielkość próby (1,1 miliona próbek) i jego funkcja jako zbioru danych pojedynczego oznakowania (łagodne/złośliwe oprogramowanie) oznaczała, że „ogranicza on zakres eksperymentów, które można z nim przeprowadzać”.
SoReL-20M dąży do obejścia tych problemów z 20 milionami próbek PE, co obejmuje również 10 milionów rozbrojonych próbek złośliwego oprogramowania (tych nie można wykonać), a także funkcje ekstrakcji i metadane dla dodatkowych 10 milionów próbek nieszkodliwych.
Co więcej, podejście to wykorzystuje model głębokiego uczenia się oparty na metodzie tagowania, przeszkolony w zakresie generowania niezrozumiałych dla człowieka opisów semantycznych określających ważne cechy danych próbek.
Wydanie SoReL-20M jest następstwem podobnych inicjatyw branżowych w ostatnich miesiącach, w tym koalicji pod przewodnictwem Microsoftu, która w październiku opublikowała Adversarial ML Threat Matrix, aby pomóc analitykom bezpieczeństwa wykrywać, reagować i naprawiać ataki przeciwników na systemy uczące się maszyn.
„Pomysł dzielenia się informacjami o zagrożeniach w dziedzinie bezpieczeństwa nie jest nowy, ale jest bardziej krytyczny niż kiedykolwiek, biorąc pod uwagę fakt, że w ciągu ostatnich kilku lat podmioty odpowiedzialne za zagrożenia innowacyjności wykazały się nimi” – stwierdzili badacze ReversingLabs. „Uczenie się maszyn i sztuczna inteligencja stały się centralnym elementem tych wysiłków, pozwalając łowcom zagrożeń i zespołom SOC wyjść poza sygnatury i heurystykę i stać się bardziej proaktywnymi w wykrywaniu nowego lub ukierunkowanego złośliwego oprogramowania”.
Czytaj podobne
Grupa hakerów (prawdopodobnie) z Białorusi włamała się na serwery rosyjskiego Roskomnadzoru
Największe na świecie naruszenia danych i ataki hakerskie
Chińscy hakerzy wykorzystują Dysk Google do umieszczania złośliwego oprogramowania w sieciach rządowych