Daniilak — Канал
644 subscribers
630 photos
117 videos
12 files
471 links
Пишу о технологиях и датасетах, немного ML

Рекламирую Чебоксары
加入频道
Стартап Interlune, основанный экс-сотрудниками Blue Origin, рассчитывает в ближайшие годы запустить на Луне добычу гелия-3. Литр гелия-3 стоит несколько тысяч долларов

Гелий-3 — стабильный изотоп гелия с двумя протонами и одним нейтроном, который производится путём термоядерного синтеза на Солнце и переносится солнечным ветром. Магнитосфера Земли отклоняет этот поток частиц, поэтому гелий-3 не встречается на Земле в природе и существует лишь в очень ограниченных количествах, появляясь в результате испытаний ядерного оружия и ядерных реакторов. Так как вокруг Луны магнитосферы нет, предполагается, что в карманах лунного реголита содержится большое количество гелия-3.

В 2026 году стартап рассчитывает провести демонстрационную миссию, собрать несколько образцов лунного реголита, измерить количество гелия-3 в них и попытаться извлечь его часть. Перевозками гелия-3 в будущем могут заняться SpaceX или Blue Origin.
This media is not supported in your browser
VIEW IN TELEGRAM
Ловите сайт, на котором можно рисовать свои айсберги и наблюдать, как они будут себя вести в воде
321
Служба поддержки Яндекс Такси теперь автоматически пишет сообщение, если водитель в чате просит отменить поездку
👍7🔥221
Слава богу теперь Ai будет генерировать мемы

Glif.app
😁2
Отравление данных (data poisoning) — это атака на машинное обучение, во время которой злоумышленник вводит вредоносные данные в обучающий набор для нарушения работы алгоритма обучения и снижения его эффективности.

Некоторые примеры таких атак:

— Внесение шума (Noise Injection): добавление случайных или искаженных данных в обучающий набор.
— Удаление данных (Data Removal): исключение части данных из обучающего набора.
— Вставка ложных объектов (Object Insertion): добавление несуществующих или ложных объектов в обучающий набор. Сюда же входят скрытые надписи, вотермарки, изображения.
— Изменение меток классов (Label Flipping): изменение или искажение разметки классов в обучающем наборе. То есть данные не добавляются, но происходит подмена: например, картинки с кошками подписываются как картинки с собаками и наоборот.


Последствия отравления данных могут быть катастрофическими. Вот несколько примеров.

— Распознавание лиц: злоумышленник может добавить в обучающий набор чужие изображения лиц, взятые из открытых источников. Это может привести к тому, что невиновного человека задержат правоохранительные органы.
— Медицинские данные: подмена истории болезни пациента или результатов анализов в медицинских приложениях. Такая атака может привести к ложному диагнозу.
— Финансовые данные: из-за добавления фальшивых транзакций или ухищрений в финансовые данные человеку могут предъявить необоснованные обвинения в финансовых махинациях. А атака большего масштаба может спровоцировать дестабилизацию рынка.
— Дорожная ситуация (беспилотные автомобили): злоумышленник может добавить деформированные дорожные знаки или маркировку на дорогах в систему распознавания. Это может привести к авариям и несчастным случаям.
👀21
russiannames — это библиотека Python 3, предназначенная для анализа русских имен, фамилий и отчеств, определения пола человека по полному имени и способа написания имени. Он использует MongoDB в качестве серверной части для ускорения анализа имен.

https://russiannames.readthedocs.io/en/latest/
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Сделано через Luma Dream Machine: загружаешь две картинки, а сервис придумывает как их соединить в видео. Сейчас дают генерировать бесплатно не более 5 запросов в день (лучше сразу добавьте текстовый промпт с описанием трансформации — так лучше получается)
🔥41👍11
Симпатичный бенчмарк сравнений обработки данных на Python с использованием чистого Python и разных библиотек.

Безоговорочный лидер Duckdb и близкий к нему по скорости Polars, но всё равно отстающий.

Вполне ожидаемо, от Duckdb многие в восторге именно из-за комбинаций скорости и функций.

Причём в текущем состоянии Duckdb ещё и может быть идеальным инструментом для ETL/ELT трансформации данных. Его можно рассматривать не как базу для хранения, а как инструмент быстрой обработки данных. А в нынешних облачных реалиях быстрый значит и дешёвый

Взято отсюда
👍1
Благодаря comfyui стало возможным визуализировать спагетти-год
🔥2
Forwarded from эйай ньюз
Карпатый готовит большой курс по LLM – LLM101n: Let's build a Storyteller

Андрей будет учить с нуля и буквально всему - архитектуре, подготовке датасетов, тюнингу, оптимизации, фреймворкам (PyTorch+Jax), CUDA. На выходе у студентов получится что-то похожее на ChatGPT, только написанное абсолютно с нуля.

Такое ему не в первой, он вместе со своим профом Ли Фей-Фей создал и вёл легендарный курс CS231 по глубокому обучению в Стенфорде (имхо этот курс – база, всем советую), да и обучающие видео у него выходят отличные.

В публичном доступе есть репа с содержанием курса, но самих лекций пока нету

Список туториалов Карпатого про LLM:
- Строим GPT с нуля, с разбором кода в ноутбуке (2ч)
- Как тренировали ChatGPT (large scale)
- Интро в большие языковые модели (LLM), тоже от Карпатого. (1ч)
- Токенизация в GPT и как ее закодить (2ч)
- Как воспроизвести и натренировать GPT-2 (124M) с нуля (4ч)

#ликбез
@ai_newz
2
This media is not supported in the widget
VIEW IN TELEGRAM
5👀3👎2😁2
Daniilak — Канал
Этот пост можно использовать в качестве пожертвований)
В комментах напишу что там
1
Некоторые ИП и ООО поступают настолько неожиданно, что требуют от своих клиентов оставлять номера телефонов в открытом чате для оформления заказа. И возникает неприятное ощущение, когда понимаешь, что этот чат уже отслеживается в моменте.
🔥21👍1
Forwarded from вычислить по IP (Anastasia Skovpen)
Я все думала, ну когда какая-нибудь нейронка выстрелит в хоть в каком кринжовом деле.

И дело нашлось - А67-150/2024 - о защите деловой репутации.

С помощью нейронки наклепали статьи, разместили на сайте, истец оскорбился и пошел судиться, а точнее устанавливать факт, имеющий юридическое значение. Почему? Потому что идентифицировать лицо, распространившее информацию (aka владельца сайта) не удалось.

Подобных решений - пруд пруди, ибо не иссякла на Руси еще анонимность (хотя казалось бы). На дело я обратила внимание из-за упоминания GPT.

Тут нужно отметить, что для целей закона не так важно писал ли ответчик свои мысли в тетрадке и выставлял фото записей, опубликовал пост в анонимном блоге или генерил тексты с помощью своего ИИ сервиса - важен факт распространения и качество распространяемой информации (порочащая или не соответствующая действительности).

Надлежащими ответчиками по искам о защите деловой репутации являются авторы не соответствующих действительности и умаляющих репутацию сведений, а также лица, распространившие эти сведения.

Допустим, что в этом кейсе автора могло не быть (ибо ИИ сервис не автор, но и юзера мы таковым назвать не можем), но владелец сайта - это распространитель информации, что позволяет предъявлять требования и к нему.

Такие дела, ребята.
1🔥1
Вот пример дела, где специалисты используют ChatGPT, цитата:

Аналогичный вывод был получен и в результате исследования обстоятельств ДТП специалистами с помощью свободно распространяемой в сети Интернет программы (чат-бота) с применением искусственного интеллекта – ChatGPT .
🔥3👀1
Альтушки от студии Мельница

you tube
😁6