Ivan Begtin

Появляется всё больше и больше публикаций о том что big data - это необязательно манна небесная, но наоборот, меняет и разрушает существующие социальные и экономические отношения. Oliver Ralph в статье в Financial Times [1] пишет о том что некоторые граждане рискуют стать (и становятся) нестрахуемыеми, даже точнее, «непригодными для страхования».

Всё дело как раз в современных алгоритмах и накопленным данным которые позволяют страховым компаниям отказывать потенциальным получателям страховки в виду их высокой рискованности.

Однако такая выгода для страховых компаний оборачивается разрушением роли страховых компаний для общества. В мире где страховка необходима для зарубежных поездок, получения работы и многого другого где она является обязательной, в этом мире мы сталкиваемся с ситуацией «новых неприкасаемых». Это люди чьи поступки, действия или чьё окружение в прошлом привели к тому что они исключаются из значительных областей человеческой жизни. Ими могут оказаться как те кто ранее был осуждёт, пережил серьёзную болезнь, так и те у кого может быть обнаружена генетическая болезнь.

В особенности это касается медицинского страхования и особенные риски создаёт как раз доступность генетических данных. Уже сейчас медицинское страхование устроено так что если у Вас выявлено серьёзное хроническое заболевание, то стоимость медицинской страховки при платном страховании значительно вырастает. А в ситуации когда будущие хронические заболевания можно предсказать по генетическим данным мы окажемся в ситуации появления активной генетической дискриминации, очень похожей на ту которую можно было увидеть в фильме Гаттака [2].

Здесь нельзя не напомнить о Genetic Information Nondiscrimination Act of 2008 законе США, пока единственной известной мне стране где подобная практика запрещена законом, что впрочем не означает что она не будет практиковаться там и в других странах, включая Россию.

Ссылки:
[1] http://www.ft.com/cms/s/0/1900a88c-4e71-11e6-88c5-db83e98a590a.html#axzz4F2wBoLG3 (требует регистрации и подписки)
[2] https://ru.wikipedia.org/wiki/%D0%93%D0%B0%D1%82%D1%82%D0%B0%D0%BA%D0%B0
[3] https://www.genome.gov/10002328/genetic-discrimination-fact-sheet/

#bigdata #opendata #privacy #genetics

Financial Times

Use of big data risks making some people uninsurable - FT.com

More sophisticated use of data could create an “underclass” of people who cannot afford insurance. According to a new report from the Chartered Institute of Insurance, consumers could miss out on some types of cover altogether if insurers deem them

427 views07:57

Ivan Begtin

Comparitech выпустили сравнение 96 стран по тому как те используют биометрические данные [1]. Согласно исследованию хуже всего ситуация в Китае и лучше всего в Эфиопии и Туркменистане (видимо из-за неразвитости технологий). В целом исследование не претендует на научность и практически полностью основано на публикациях в СМИ, которые и приведены в списке источников.

Уровень использования биометрических данных в России лучше чем в США или в Иране, но хуже чем в Польше, Германии или Казахстане.

Опять же, поскольку методология исследования вызывает очень много вопросов, интереснее приводимые там факты. Например, национальная биометрическая база в Китае включающая теперь ещё и данные ДНК [2] или разрешение компаниям собирать данных о мозговых волнах работниках [3].

И так далее, ещё много примеров по другим странам.

Что находится за пределами этого исследования так это то что биометрические данные концентрируются не только в государстве. Если говорить про Россию, то из актуального - это вхождение Яндекса в капитал Генотек'а [4], где хоть и сделано множество оговорок про не передачу Яндексу каких-либо данных, но не тревожить не может.

Впрочем, если говорить про Россию, то у нас наиболее вероятен китайский путь с построением одной или нескольких национальных баз данных с биометрическими данными и постепенное введение регуляторки по сдачи в государственную информационную систему(-ы) биометрических данных собираемых частными компаниями.

P.S. Не все знают и не все понимают природу биометрических данных. Приведу несколько примеров, без ссылок:
- кроме распознавания лиц есть немало других технологий бесконтактного снятия биометрических данных, например, распознавание радужной оболочки возможно на расстоянии до 10 метров, распознавание походки, распознавание по форме рук и кистей и др.
- расшифровка генома - это передача третьей стороне данных не только о себе, но и о своих ближайших родственниках;
- отпечатки пальцев родственников имеют много схожих признаков и, при наличии финансирования исследований в этом направлении, можно научиться выявлять взаимосвязи;

По биометрии не так много хорошей литературы, многие технологии в этой области очень наукоёмки и требуют длительных исследований, с другой стороны, если запреты на именно распознавание по лицам получит распространение, то пойдут инвестиции в исследования в других направлениях: распознавание одежды, формы горла и ушей и иных биометрических признаков.

Ссылки:
[1] https://www.comparitech.com/blog/vpn-privacy/biometric-data-study/
[2] https://www.rfa.org/english/news/china/collect-08232019115209.html
[3] https://www.businessinsider.com/china-emotional-surveillance-technology-2018-4?r=US&IR=T
[4] https://blog.genotek.ru/genotek-and-yandex

#privacy #biometrics #genetics

Comparitech

Biometric data collection by country: What's collected, how is it used?

This study looks at the type of biometric data collected by 96 countries and how it is used. We've scored and ranked countries to see which are the most invasive of visitors' or citizens' privacy.

1.4K viewsIvan Begtin, edited 07:28

Ivan Begtin

В каждой профессии есть большие вызовы, иногда кажущиеся смешными, иногда невозможными. Например, в генетике восстановление вымерших видов может показаться невозможным или чертовски сложным, но, тем не менее учёные всё ближе к этому подступают. В статье Why ‘De-Extinction’ Is Impossible (But Could Work Anyway) [1] о том почему "воскрешение" уже несуществующих видов возможно если доступен генетический материал, а иногда и другими способами.

Очень скоро спасение вымирающих животных может заключаться в в ускоренном создании банков генетических данных чтобы будущие поколения могли бы восстановить их популяции в будущем.

Ссылки:
[1] https://www.quantamagazine.org/why-de-extinction-is-impossible-but-could-work-anyway-20220509/

#data #genetics

Quanta Magazine

Why ‘De-Extinction’ Is Impossible (But Could Work Anyway)

Several projects are aiming to bring back mammoths and other species that have vanished from the planet. Whether that’s technically possible is beside the point.

1.9K viewsIvan Begtin, 06:07

Ivan Begtin

В рубрике крупнейших наборов данных в мире GenBank [1] база геномной информации о человеке от Национального центра биотехнологической информации США. В общей сложности размер последней 263 версии базы GenBank составляет около 6.4 ТБ первичных данных и около 2.7 ТБ данных закодированных по ASN.1 [2]. Все эти данные доступны на сайте через веб интерфейс и для скачивания через FTP сервер.

В общей сложности база GenBank включает 5.13 миллиардов записей и 36.5 триллионов атрибутов/значений.

Много ли это? Да, безусловно это большие данные требующие существенных ресурсов для их обработки и анализа. И в мире геномной информации это далеко не единственный крупный архив данных.

Если сравнить его с открытыми данными публикуемыми на госпорталах открытых данных, то GenBank будет больше их всех вместе взятых, за исключением порталов с геоданными.

Ссылки:
[1] https://www.ncbi.nlm.nih.gov/genbank/
[2] https://ncbiinsights.ncbi.nlm.nih.gov/2024/10/24/genbank-release-263/

#opendata #datasets #openaccess #genetics

2.1K viewsIvan Begtin, 06:31

Ivan Begtin

Forwarded from Национальный цифровой архив

Пишут что генеалогический сервис MyHeritage 31 декабря предупредил пользователей из России об удалении их учётных записей с 1 февраля 2025 года [1]. Весьма вероятно что это связано со штрафом в 6 млн рублей в отношении MyHeritage за отказ от локализации данных российских пользователей [2].

Сервис постепенно уходил из России начиная с 2020 года, в 2020 году из-за ограничений на пересылку генетических материалов MyHeritage перестали присылать в Россию наборы для взятия генетических проб [3].

К сожалению, невозможно автоматизировано сохранить все удаляемые данные пользователей и, к тому же, они являются персональными данными, но если Вы пользователь MyHeritage и находитесь в России, на всякий случай стоит воспользоваться инструкцией и сделать резервную копию геномных данных, данных генеалогического дерева и всего остального что может исчезнуть.

Ссылки:
[1] https://habr.com/ru/news/871058/
[2] https://www.forbes.ru/tekhnologii/498511-sud-ostrafoval-myheritage-na-6-mln-rublej-za-povtornyj-otkaz-lokalizovat-dannye
[3] https://www.myheritage.com/help-center?a=Why-isn%27t-MyHeritage-sending-DNA-kits-to-Russia-anymore---id--B2WZDFjXR9CRdvZqGR86eQ

#genealogy #genetics #myheritage

1.6K viewsIvan Begtin, 10:15

Ivan Begtin

Полезные ссылки про данные, технологии и не только:
- Kreuzberg [1] библиотека для Python по извлечению текста из документов, поддерживает множество форматов, внутри использует Pandoc и Tesseract OCR. Создано как раз для использования в задачах RAG (Retrieval Augmented Generation) с прицелом на локальную обработку данных и минимумом зависимостей. Лицензия MIT
- Validoopsie [2] другая библиотека для Python для валидации данных. Использует библиотеку Narwhals благодаря которой подключается к почти любым видами дата-фреймов. Выглядит полезной альтернативой Great Expectations, лично для меня в валидации данных глобальный нерешённый вопрос в том что тут правильнее, код или декларативное программирования. Иначе говоря, правила проверки должны ли быть отчуждаемыми от языка разработки. Здесь валидация встроена в код, но поверх можно сделать и декларативный движок. Лицензия MIT
- Scripton [3] коммерческое IDE для Python с необычной фичей визуализации данных в реальном времени. Есть только скриншоты, записи экрана и коммерческая версия для macOS. Для тех кто занимается алгоритмической визуализацией может быть удобно, для остальных задач пока нет такой уверенности.
- New horizons for Julia [4] по сути статья о том что язык программирования Julia ещё жив и развивается. Правда медленно, на мой взгляд, но вроде как есть позитивное движение за пределами научных областей. Лично я почти не сталкивался с Julia кроме как на уровне примеров кода, но хорошо если он кому-то нравится и полезен.
- Data-Driven Scrollytelling with Quarto [5] визуализация дата-историй с помощью движка Quarto, итоги конкурса таких визуализаций с большим числом примеров и победителей. Примеры все от команды компании Posit которая этот open-source движок Quarto и разрабатывает. Скажу отдельно что это очень правильно. Если ты делаешь любой движок по визуализации, то просто обязательно надо проводить такие конкурсы.
- The Best Way to Use Text Embeddings Portably is With Parquet and Polars [6] ещё один обзор о том насколько эффективен Parquet в связке с Polars для работы с данными, в данном случае данными карт Magic of the Gathering. Автор тоже задаётся вопросом о том почему Parquet не поддерживается в MS Excel.
- How to Make Superbabies [7] особенно длинный лонгрид о том как генетическими изменениями можно улучшать человека, создавать супер детей или "оптимизированных детей", как ещё пишет автор. Читать и думать об этом надо потому что всё идёт к тому что скоро это станет ещё одной острой социальной и геополитической темой.

Ссылки:
[1] https://github.com/Goldziher/kreuzberg
[2] https://github.com/akmalsoliev/Validoopsie
[3] https://scripton.dev/
[4] https://lwn.net/Articles/1006117/
[5] https://posit.co/blog/closeread-prize-winners/
[6] https://minimaxir.com/2025/02/embeddings-parquet/
[7] https://www.lesswrong.com/posts/DfrSZaf3JC8vJdbZL/how-to-make-superbabies

#opensource #data #datatools #dataviz #genetics #python

874 viewsIvan Begtin, edited 08:29

About

Blog

Apps

Platform