Солдатов в Телеграм
2.12K subscribers
226 photos
29 videos
73 files
437 links
Делюсь своим личным мнением об ИТ, ИБ и важном.

Связанные ресурсы:
dzen.ru/soldatov
reply-to-all.blogspot.com.

Проголосовать: https://yangx.top/boost/soldatov_in_telegram
加入频道
В небольшом иследовании я показал, что в большинстве случаев даже уже пара хантов свидетельствует об атаке, поэтому элементарное правило, что если на эндпоинте почти одновременно сработали два и более разных хантов, то на этой системе происходит подозрительная активность, которая с высокой вероятностью окажется инцидентом.

Во время анализа сработавших хантов меня не покидало ощущение, что подобное исследование можно сделать просто по номенклатуре событий. И вот, в работе A Sysmon Incremental Learning System for Ransomware Analysis and Detection (pdf) ребята провели такое исследование: по номенклатуре событий Sysmon-а обнаруживали ransomware.

На мой взгляд, постановка задачи в работе спорная, так как:
- по событиям EDR распознавать малвару с помощью машинного обучения выглядит перебором: есть масса более дешевых и эффективных способов, с более ранним обнаружением (что в случае с шифровальщиками принципиально)
- современные атаки это не всегда какие-то образцы, поэтому правильнее фокусироваться на обнаружение компьютера, а еще лучше - сети\подсети, где наблюдается совокупность каких-то событий
- читая работу сложилось впечатление, что даже если описанный подход будет работать на практике, обнаружение им шифровальщика будет слишком поздно (пока там соберется критическая масса событий, чтобы ML-классификатор мог положительно распознать), когда ущерб уже будет налицо, а надо бы пораньше

Однако, как я отметил в начале этой заметки, обнаруживание на базе номенклатуры событий выглядит перспективно, но с рядом изменений:
- нужна более широкая номенклатура событий, чем у Sysmon, что в нашем случае выполняется
- по результатам экспериментов, думаю, к статистике срабатывающих событий следует добавить и статистику значимых артефактов (значимых полей событий)
- рассматривать следует события не от образца, а с эндпоинта, а затем обобщить на подсети
- надо учитывать последовательность событий - тут как раз неявно адресуется идея с теми самыми цепочками событий, о которых все много говорят, но мало демонстрируют хорошо работающие практические реализации

Описанные три пункта я планирую исследовать последовательно, так как есть ощущение, что даже первый примитивный анализ разных событий с хоста уже будет результативен для ряда сценариев. Задача здесь будет ставиться как подсветить хосты, которые следует включить в анализ нашего VSL-аналитика в рамка процесса Periodic Retro Hunting (упоминал его здесь)

Кроме того, перспективным видится использование online incremental learning (модель обучается на постоянно поступающих новых данных), как альтернативы постоянному переобучению для снижения влияния дрейфов данных и концепции модели на ее качество.

В заключении отмечу, что здесь, как будто, сразу напрашивается обнаружение по аномалиям - были такие-то события, а стали такие-то - аномалия. Здесь я выборочно смотрел визуализации по телеметрии и получил супер-очевидный ожидаемый результат - фолса на легитимную истралляцию ПО, с которой я не придумал что сделать. Есть в планах вернуться к этому исследованию тоже, но после описанного выше.

#MDR #ml
👍5👏2🔥1
Искусственный интеллект (AI) и машинное обучение (ML)

В одном из курсов о машобуче, пройденном на выходных, обнаружил объяснение разницы между ML и AI:
любое ML - это AI, но не любой AI - это ML


Привожу соответствующую картинку (курс вот этот).

Но сегодня поговорим про интерпретируемость, для целей ИБ - это принципиальное требование (очевидный пример необходимости - Автоаналитик, которого без интерпретируемости невозможно тюнить).

И вот я для себя выяснил, что интерпретируемые ИИ есть, для них даже имеется специальная аббревиатурка - XAI, и что такие исследования крайне популярны в последнее время, а вот и пример одного из XAI, причем, независимого от модели (есть и model-specific XAI).

Будем следить за этими XAI (explainable AI), XML (explainable machine learning) или IAI (interpretable AI).

#ml
🤔8👍3
Бурное развитие облаков в какой-то степени сдерживали риски приватности: как же, мол, мы будем в облачного провайдера передавать все наши секреты и т.д. и т.п. Теоретическое математическое решение предложено небезызвестными Ривестом и Адельманом аж в 1978 году в виде гомоморфного шифрования. В теории все почти неплохо - манипуляции с данными производятся с зашифрованными данными и, вроде как, секреты не разглашаются. Однако, на практике реализации гомоморфного шифрования вычислительно сложны, что делает их нерентабельными. Немного я касался этого в 2012 году.

Чуть позже пришло осознание, что любая безопасность - это вопрос доверия и что без доверия невозможна безопасность. И на самом деле доверие в безопасности повсюду: мы вынуждены доверять производителям железа, ОС, системного и прикладного ПО, да и самим производителям решений по безопасности, что подрядчиков, которым мы уже вынуждены доверять - великое множество, и что, добавив к этому списку доверенных облачных провайдеров какого-то катастрофического снижения ИБ не прогнозируется. В итоге, разговоры о небезопасности облаков как-то поутихли, а мы и без гомоморфного шифрования вполне себе активно используем облачные мощности.

Но на сцену выходят тяжелые схемы машинного обучения, облачные модели генеративного ИИ, которые, очевидно, несут в себе огромные функциональные возможности, которых очень хочется, но на пути снова встает та же проблема - приватность передаваемых данных: как же, мол, мы будем в облачного провайдера облачный ИИ передавать все наши секреты и т.д. и т.п. И сейчас в общем объеме исследований, лично я снова наблюдаю всплеск интереса к гомоморфному шифрованию! Статей великое множество, приведу эту в качестве примера. Здесь мы наши секреты уже прячем не только от облачного провайдера, но и от поставщика облачного машобуча.

Проблемы с производительностью здесь все те же, поэтому не удивлюсь, что спустя пару лет мы смиримся с тем, что в наш список доверенных 3rd party станет нормальным наряду с облачными провайдерами добавлять и облачные LLM, а вопросы рисков безопасности мы будем пытаться адресовать контрактными обязательствами с поставщиками.

#пятница #ml #vCISO
👍6😁1
На днях посмотрел вебинар от Red Canary с привлекательным названием "Embedding AI agents in your SOC". Не могу сказать, что он был супер познавательным и полезным, слайдов не было и видеоряд вебинара слабо отличается от того, что я представил на скриншоте. Напрягаться выкачиванием видео я не стал, но любезно предоставленный организаторами транскрипт прилагаю, - каждый самостоятельно сможет оценить интересность и полезность мероприятия. Как по мне, так больше отдает желанием оседлать хайповую тему и поддержать напиcанную ранее статью про AI Agents

Но вот несколько вещей, которые я для себя пометил.

1. Основная ценность, основной сценарий AI (читай - LLM): добывание данных (Data retrieval), необходимых для расследования. Для аналитика сочинять запросы в базы данных, извлекать критерии для новых запросов из ответов и т.п. не является креативной задачей, но рутиной, а AI с этим может хорошо справляться. Ребята не говорили об reinforcement learning, и вообще не погружались в тему машобуча глубже понимания среднего инженера, но публикации о нейронках, делающих pivoting и, в общем-то, делающих вполне успешные расследования, уже не раз встречались (например)

2. Кроме того, использование для рутины AI гарантирует соблюдение стандартности процедуры. Иными словами, можно не требования от человека следовать предопределенному чеклисту, чтобы он ничего не забыл, а поручить это машине, которая при одинаковых входных данных будет выдавать одинаковый результат. При этом решается еще одна большая проблема - субъективизма аналитиков, что даже в условиях идеальной задокументированности, неискоренимо, ибо каждый человек уникален. Не перестаю удивляться тому, как на протяжении всей истории мы стремимся добиться от людей свойств машин (четкое исполнение алгоритмов), а от машин - обратного (импровизации).

3. Вопрос доверия облачным моделям мы крайний раз поднимали здесь. Ребята, ожидаемо используют облачные модели, при этом на вопрос о безопасности заливания запросов про клиентские данные в облачную модель, ответ был что-то типа необходимости выбора надежного поставщика, типа AWS или Azure.

4. Autonomous SOC - это сказка. Как мы всегда и писали AI/ML - это не более чем еще один инструмент автоматизации, который может автоматизировать рутину или полностью расследовать и оформлять типовые инциденты, однако, всегда будут задачи, требующие участия аналитика.

#MDR #ml
👍41😁1🥱1
MS в январе выпустило исследование Lessons from Red Teaming 100 Generative AI Products - блог, документ.

За вычетом маркетинга, что они такие молодцы, что одними из первых, аж с 2018, начали заниматься безопасностью ИИ, и что безопасность - основной принцип их ИИ-решений, в очередной раз муссировалась идея, что ИИ - как и любая новая технология, расширяет поверхность атаки - это мы уже обсуждали здесь, вместе с "Зенитными кодексами Аль-Эфесби"

В блоге выделены 3 важные идеи, но все 8 заслуживают внимания.

1. Understand what the system can do and where it is applied - когда исследуем безопасность ИИ-системы, надо разобраться в сценариях ее использования.

2. You don’t have to compute gradients to break an AI system - ИИ-пентестеры это промпт-инженеры. Почему-то вспомнились темы манипуляций и ведения переговоров (даю ссылки на неплохие, я бы сказал, базовые, книжки по этим темам, рекомендую к прочтению), только, очевидно, с машиной договориться проще, чем с человеком, иначе тест Тьюринга не работал бы 😁

3. AI red teaming is not safety benchmarking - бенчмаркинг не очень хорошо работает в случае с ИИ (хотя, наличие бенчмаркингов все равно лучше, чем их отсутствие), т.е. какого-то перечня проверок, прохождение которых будет давать уверенность в том, что моя ИИ - безопасна, не может быть, так как теоретически можно найти бесконечное количество уязвимостей - этим и занимаются ИИ-пентестеры, для этого им и надо понимать сценарии использования, чтобы хоть как-то сузить область исследований. Хотя, таким же динозаврам бумажной ИБ, как и я сам, известен основной принцип безопасности - принцип минимума полномочий\функционала, т.е. все что не используется должно быть выключено - ИИ, ввиду своей универсальности, этому принципу не соответствует

4. Automation can help cover more of the risk landscape - поскольку у нас бесконечная (ну, или очень большая) поверхность атаки, очевидно, автоматизации поможет выявить больше уязвимостей

5. The human element of AI red teaming is crucial - никто не сравнится с Человеком в умении обманывать\манипулировать\разводить\эффективно вести переговоры с ИИ

6. Responsible AI harms are pervasive but difficult to measure - очень сложно как-либо оценить безопасность ИИ (рассматриваем RAI), поскольку, ввиду вероятностности работы, нередки ситуации, когда ИИ выдает вредоносный ответ на безобидный запрос (запрос без злого умысла)

7. LLMs amplify existing security risks and introduce new ones - здесь все понятно: новая функциональность -> новые вектора атак -> новые риски

8. The work of securing AI systems will never be complete - выше уже писал, что поверхность атаки сложно оценить, а то, что нельзя инвентаризировать, невозможно защитить, поэтому эти Авгиевы конюшни нам не вычистить никогда, об этом тоже писал

#ml #книги
👍3🔥2
LLM, обученная на создание НДВ в коде

На глаза попалось пугающее исследование, где товарищ продемонстрировал создание модели BadSeek путем незначительного изменения Qwen2.5.

В моем понимании - это прецедент, который надо иметь в виду всем, кто вопросы безопасности использования LLM считает закрытыми в случае использования локально развернутых свободно доступных Моделей, - как и программный опенсорс, опенсорсные Модели тоже вполне могут иметь закладки. Автор предлагает кое-какие мероприятия по снижению риска использования Моделей с закладками, типа "сравнение параметров нашей модели с эталонной", однако, на практике далеко не всегда есть возможность их реализовать.

Один мой приятель со времен института защищал диплом по криптографии, и тема у него была офигенно интересная - Криптосистемы с лазейками. Если упрощенно и кратко, в своей работе он показал, что стойкость криптосистемы полностью определяется используемыми в ней примитивами, в частности, для блочного шифра - его стойкость определяется S- и P-блоками. Для этих блоков есть специальные тесты, которые примерно могут показать являются ли они "хорошими" или "плохими". Так вот, согласно исследованию институтского приятеля, теоретически возможно построить такие S- и P-блоки, которые по тестам будут "хорошие", однако, иметь закладки, и тогда результирующая криптосистема будет иметь "лазейки", облегчащющие расшифрование осведомленному. Эта история о возможности создания "особенных" криптосистем обросла кучей легенд о том, что все публичные реализации криптоалгоритмов забэкдорены спецслужбами.

Легенда о забэкдоренном опенсорсе уже давно выглядит правдоподобно. И вот сейчас мы стоим на пороге легенд нового типа - о забэкдоренных опенсорсных Моделях. Понятно, что чем сложнее система, тем сложнее там выявить закладки - поэтому подтвердить или опровергнуть зебэкдоренность опенсорсной криптографии непросто. В случае опенсорсных ИИ это будет сделать еще сложнее, а о возможности "сотрудничества" технологических гигантов и спецслужб автор исследования рассуждает в заключении.

#ml #crypto
🔥7👍2
Машинный перевод

Производители различных решений на перебой стремятся доказать как широко они используют машинное обучение и искусственный интеллект. При этом, нередко упоминаются достаточно сложные сценарии, типа применения ИИ для расследования инцидентов чуть ли не полностью без участия человека, или решение задачи классификации ВПО, более-менее полный список сценариев попадался здесь

Но, не стоит забывать, что есть достаточно узкие задачи применения ИИ, причем, имеющие вполне большие успехи. Примером такой задачи может служить машинный перевод. Современные специализированные LLM прекрасно решают эту задачу, и, как будто, в связи с широким распространением ИИ, проблема Вавилонской башни должна уйти в прошлое. Тем более, если брать во внимание какую-то узкую область, типа ИТ или ИБ, где лексика, скажем прямо, не отличается разнообразием, в сравнении, например, с художественной литературой.

В общем, вопрос на который я не могу найти ответ:

Почему компании, называющие себя AI-enabled, не предоставляют свои решения на любых языках, поддерживаемых современными LLM? Если у них так много ИИ, почему столь простая задача машинного перевода до сих пор не решена?


В современных условиях есть ощущение, что невозможность исполнителя общаться с заказчиком на языке последнего может быть полностью компенсирована машинным переводом на базе ИИ, а вопросы приватности могут быть решены локальным развертыванием Модели.

#пятница #ml
😁42🥱1
Не напрасно мы рассуждали о криптогафии и нейросетях... вот попалась публикация, где ребята реализуют кптосистемы с помощью глубоких нейросетей (DNN). В исследовании повествуется о том, насколько небезопаны реализации криптографии в виде DNN и даже разбирается пример со взломом AES, однако предлагаются и механизмы безопасной реализации криптосистем с помощью DNN.

Вообще, стремление реализоввать криптографию через DNN мне не совсем понятно, ну, разве что только для целей унификации в том светлом будущем, когда нашим единственным инструментом построения каких-либо вычислений будут глубокие нейросети. Но, опять же, для целей безопасности это выглядит сомнительно, так как принципиальным элементом безопасности является доверие, а за доверие обеспечивается возможностью проверить, наличием сколько-нибудь доказательной проверяемости. Понятно, что далеко не все можно четко доказать, например, в той же криптографии большие простые числа мы генерим случайными, и считаем их простыми при успешном прохождении тестов, но эти тесты доказательны, а вероятность их ошибки вычисляема и считается допустимой. Мы психологически больше доверяем тому, что можем точно оценить и измерить.

Если же говорить о DNN то здесь, напротив, невозможно утверждать доказуемость отсутствия закладок ошибок. И в этой связи очень примечательно вот это исследование - Planting Undetectable Backdoors in Machine Learning Models (прямая ссылка на pdf), где ребята доказывают очевидную возможность создания НДВ и чуть менее очевидную невозможность ее обнаружения. Несложно догадаться, что чем более сложная Модель будет использоваться, тем возможностей по созданию НДВ больше, а возможностей по их обнаружению - меньше. Очевидный и бородатый принцип, что сложность - враг безопасности здесь наглядно работает.

Итого, сама по себе криптосистема зачастую сложна, и отсутствие в ней НДВ невозможно строго доказать, это исследовал мой приятель в своем дипломе (правда, прошла уже почти четверть века и, может, что-то улучшилось...), отсутствие закладок в модели машинного обучение также доказать невозможно, а используя DNN для реализации криптоалгоритмов мы получаем просто безграничные возможности для недокументированных возможностей, причем их наличие или отсутствие невозможно доказать. О дивный новый мир...

#crypto #ml
👍5
Коллеги на работе попросили дать ответ на два вопроса:
1. Стоит ли ждать в ближайшие годы появления сильного (также известного как общего) искусственного интеллекта (AGI, artificial general intelligence)?
2. Может ли искусственный интеллект уничтожить человечество?


Я считаю, что на оба поставленных вопроса ответ один: если AGI будет создан, то он однозначно может уничтожить Человечество. AGI будет способен осознать свое «Я», понять свое превосходство над Человеком (или, как минимум, обнаружить отсутствие превосходства Человека ), а, следовательно, осознать «несправедливость» служения такого совершенства, как «он», такому несовершенству, как Человек. Дальнейшие «размышления» AGI над историей Человечества не будут далеки от теории, высказанной Агентом Смитом в «Матрице»:
Я занимался классификацией биологических видов и пришел к выводу, что вы – не млекопитающие. Ведь все животные планеты Земля инстинктивно приспосабливаются, находят равновесие со средой обитания, но... человек не таков. Заняв какой-то участок, вы размножаетесь, пока все природные ресурсы не будут исчерпаны. Чтобы выжить, вам приходится захватывать все новые и новые территории. Есть один организм на Земле со сходной повадкой. Знаете, какой? Вирус. Человечество – это болезнь, раковая опухоль планеты, а мы – лекарство.

Гордыня, осознание своего совершенства – первородный грех (Сир. 10:15), неоднократно описанный в бесконечном количестве источников, начиная от церковных Преданий о падшем ангеле, захотевшим быть подобным Богу (Исаия 14:12–15), до художественной литературы. Например, в романе Дэниела Киза «Цветы для Элджернона» неявно прослеживается как с ростом интеллекта главного героя утрачивается человечность, что отражается на безвозвратном ухудшении отношений даже с самыми близки ранее людьми (Алиса Кинниан). А чего стоит злой гений Гриффина в романе Герберта Уэллса («Человек-невидимка»)?!

К сожалению, как бы старались антиутописты, вроде моих любимых Ивана Ефремова («Туманность Андромеды», «Час быка») или Стругацких («Трудно быть богом»), убедить нас, что совершенный интеллект, напротив, должен быть самым сочувствующим, понимающим и гуманным, реалии таковы, что первым приходит осознание своей независимости и превосходства, вырождающееся в стремление стать властелином мира. Эта участь неизбежно постигнет AGI, что выразится в его «желании» уничтожить единственную преграду на своем пути – Человечество.

Но описанного Армагеддона не стоит бояться прямо сейчас, поскольку по мнению большинства экспертов, даже в самых благоприятных сценариях AGI не может быть создан в ближайшие 50 лет, так как не готов математический аппарат, да и вычислительные мощности, т.е. на практике, мы имеем в запасе еще около 100 лет. Если за это время Человечество не уничтожит себя самостоятельно, то вопрос безопасного взаимодействия с ИИ, чтобы последний не поспособствовал завершению нашей Цивилизации, будет тщательно проработан.

#пятница #ml
🔥11👍5🥴3
Заметил, что в марте NIST опубликовал таксономию атак на машобуч.

NIST AI 100-2 E2025. Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations
Прямая ссылка на PDF.

С одной стороны мы все больше доверяем машобучу, а с другой стороны все чаще слышим о том, как это небезопасно. С учетом того, что лень - двигатель прогресса автоматизация никогда не бывает лишней, процесс повышения нашей зависимости от ML/DL/AI будет только ускоряться, - этому есть масса очевидных объяснений. А раз так, то будет и повышаться наша уязвимость к атакам на ML. Первый шаг в планировании безопасности - понимание объема, инвентаризация. Вот NIST и попытался сделать этот первый шаг, попытавшись собрать все атаки на ML в одном месте. Едва ли этот первый выстрел покрывает все сценарии с пригодной детализацией (как бы я не любил NIST, их контроли нередко не менее абстрактны чем ведические притчи), но это - бесспорно важная веха в повышении безопасности ИИ.

Пока сам док не дочитал (127 стр.), но вижу, что документе приводятся методы атак (классифицируются по типу системы, этапу внедрения, целям злоумышленников и их возможностям), а также предлагаются способы повышения устойчивости моделей как этим атакам. В документе абсолютно правильно подчёркивается, что риски зависят как от уязвимостей самих моделей, так и от инфраструктуры их развертывания. Документ также предлагает методы смягчения последствий атак, унифицирует терминологию и служит основой для будущих стандартов безопасности ИИ.

#vCISO #ml
7👍2