Ivan Begtin
8.05K subscribers
1.96K photos
3 videos
102 files
4.67K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В рубрике интересных проектов на данных Data-Driven Discovery of Models (D3M) [1], большой проект DARPA, военного ведомства США финансирующего инновационные проекты.

Проект посвящён автоматизации data science и предсказанием применения моделей данных. А главная идея в улучшении понимания предметных областей для для исследователей данных.

Они упоминают там 3 платформы в этом направлении:
- Einblick [2] система совместного исследования данных и моделирования предсказаний на их основе
- TwoRavens [3] система для моделирования предметных областей через данные и моделирования данных в этих областях
- Distil [4] система для специалистов предметных областей исследовать данные в разных формах

Фактически D3M это экосистема внутри которой финансируются многие проекты. Например, Auctus, поисковик по данным о которым я недавно писал [5] и Datamart [6] проект по анализу наборов данных с сопоставлением их с Wikidata.

А также множество проектов по направлению AutoML, помогающим автоматизировать работу отраслевых экспертов и отделяющих машинное обучение от самих специалистов по машинному обучению. Через типовые модели, через создание базы примитивов для этих моделей и многое другое.

Там много очень разных интересных идей, причём в сторону технологически продвинутых nocode/low-code инструментов внутри которых могут быть сложные алгоритмы работы с данными. Фактически это путь по значительному усилению отраслевых аналитиков в областях экономики, геополитики, промышленности и тд и для того чтобы они самостоятельно могли бы работать с большими данными.

Ссылки:
[1] https://datadrivendiscovery.org/
[2] https://www.einblick.ai/
[3] http://2ra.vn/
[4] https://d3m.uncharted.software/
[5] https://yangx.top/begtin/3922
[6] https://datadrivendiscovery.org/augmentation/

#data #research #datascience #datadiscovery #ml
На vc.ru статья [1] про инициативу конкретного человека по сбору списка сотрудников компании NTechLab и, по сути, применения к ним культуры отмены. Для тех кто не знает, NTechLab - это российская компания разработчик технологии распознавания по лицам. Технологии мирового уровня по многим измерениям, оценкам и практике применения.

Лично я, мягко говоря, против культуры отмены. Персонифицированные бойкоты слишком похожи на самосуд, даже при плохой правоохранительной системе, они, в основном, создают поддерживают атмосферу общего ожесточения.

Но сейчас хочу сказать не об этом. В технологических компаниях очень многие и слишком часто забывают про то что многие технологии имеют двойное назначение. В каких-то областях это давно знают, есть ограничения таких как Вассенаарских соглашения [2], иногда спорно применяемых к технологиям сильного шифрования, но тем не менее.

Так вот дело в том что во многих технологиях уже невозможно говорить о благих намерениях или говорить о непонимании того как Ваша технология будет применяться на практике. Разработчики безусловно отвечают за применение их технологии и должны уметь отвечать на вопросы:
1. Можно ли с помощью технологии нарушать права граждан?
2. Можно ли с помощью технологии усилить нарушение прав граждан?
3. Какие меры разработчик предпринимает чтобы снизить последствия такого применения?
и ещё многие другие.

Технологии распознавания лиц, силуэтов, походки, или технологии глубокого перехвата трафика и ещё многие безусловно относятся как таким технологиям двойного назначения.

И везде где возможно в мире внедрению таких технологий препятствуют общественные организации, политики, учёные и отдельные активисты.

Есть много примеров такого сопротивления. Сотрудники Гугл активно протестовали против разработки ПО для военных. Соцсети под давлением общественного мнения заблокировали ПО Geofeedia использовавшееся для мониторинга протестов полицейскими в США, а в отношении компании NetSweeper продающей ПО для фильтрации интернета было полномасштабное расследование [3] со стороны НКО Citizenlab в 2018 году.

Меры общественного сопротивления таким технологиям в мире включали: общественные кампании, публикации в СМИ, призывы правительствам стран проводить расследования, протесты при внедрении таких систем, письма сотрудникам с призывом увольняться и многое другое.

Но нигде не было призывов составлять списки всех сотрудников компании и применять к ним культуру отмены (читаем правильно - применять санкции и устраивать самосуд).

При том что я лично понимаю насколько все легальные меры воздействия на подобные компании в России и ряде других стран сейчас ограничены, но очень важно помнить что покраска мира в черно-белый цвет очень редко достигает своих целей.

Для меня всё это выглядит как часть очень неприятного для мира изменения - радикализация инженеров. Главное отличие профессионального инженера в способности нанести гораздо больший вред окружающему обществу при желании. Технологии, в принципе, за последние годы в направлении усиления малых команд и одиночек. Ни один террорист-смертник не мог ранее нанести столько вреда как очень мотивированный инженер сейчас. Возможно пользы тоже, но вред первичен.

Возвращаясь к ситуации с NTechLab. Методы культуры отмены против сотрудников которые сейчас против них применяют, безусловно, мне не нравятся, но и компания безусловно пошла по пути когда их технологии специально заточены под технологии массовой слежки.

Вопрос лишь кто может оказаться следующим на рынке нарушения приватности?

Ссылки:
[1] https://vc.ru/services/435936-programmist-opublikoval-spisok-sotrudnikov-ntechlab-on-obvinyaet-ih-v-pomoshchi-silovikam-v-arestah-posle-mitingov
[2] https://ru.wikipedia.org/wiki/Вассенаарские_соглашения
[3] https://citizenlab.ca/2018/04/planet-netsweeper/

#privacy #security #biometrics #facerecognition
На сервисе BGPView созданном компанией SecurityTrails исчезли все сведения о подсетях и автономных системах относящимся к России.

На странице страны [1] теперь список отсутствует, хотя он есть для других стран: Бразилии, Польши и др. [2] [3]

С чем это связано непонятно. Может быть чтобы мешать украинским хакерам находить российские подсети, может быть чтобы мешать российским безопасникам знать как фильтровать трафик с не-российских подсетей. Но факт остаётся фактом, именно российские подсети там теперь отсутствуют.

Ссылки:
[1] https://bgpview.io/reports/countries/RU
[2] https://bgpview.io/reports/countries/BR
[3] https://bgpview.io/reports/countries/PL

#opendata #security #infrastructure #telecom
Проголосовал 301 человек и результаты скорее удручающие. При том что 27% считают это безусловно неприемлемым, но 35% (17+18) допускают подобное при определенных условиях или даже без них.
Многим не нравится то как пишутся законы и другие регулирующие документы, немногие готовы это принципиально, иногда радикально, менять.

В Великобритании команда Policy Lab выпустила серию из 12 карт [1] экспериментальных подходов к разработке госполитики. Там есть, например:
- сверхпредсказания
- серьёзные игры
- нормативный театр
- вовлечение через метаверс
- цифровые двойники
- бодисторминг
- моральные представления
- децентрализованные автономные системы
- искусство в госполитике
- гражданские собрания
- регенеративный дизайн

Там же у них разные интересные примеры того как это применяется на практике. В чистом виде цифровых инструментов там немного, а вот многие подходы действительно весьма необычны.

Ссылки:
[1] https://openpolicy.blog.gov.uk/2022/05/18/launching-our-experimental-policy-design-methods/

#government #policymaking #policy
Написал большой текст на английском про спектр каталогов данных и отличия между научными репозиториями данных, порталами открытых данных и корпоративными каталогами [1]

Ссылки:
[1] https://medium.com/@ibegtin/data-catalogs-part-1-spectrum-of-data-catalogues-ba75d1dd06c9

#opendata #datacatalogs #datascience #openaccess
Ранее было ФНС России, а теперь пишут что ещё и администрация Улан-Удэ блокирует письма не с российских доменов .ru

Как бы по этому поводу поприличнее выразится:
1. Домены .com, .org, .net - не иностранные, а универсальные. Они не относятся к национальным доменным зонам.
2. У многих российских компаний, организаций и граждан есть домены в этих зонах, а также в зонах вроде .io очень популярных в ИТ среде.
3. Напомню что домены .by, .kz, .uz, .am, .kg, .tj тоже иностранные и со странами Евразэс у России, казалось бы, конфликта нет

Правильный вопрос который журналисты могут задать властям города Улан-Удэ (и ФНС России тоже, кстати) - это почему они решили дискриминировать армян, казахов и другие народы близлежащих стран,а заодно и граждан России не проживающих в России.

#security #email #russia #idioten
Написал очередной большой текст на английском Data catalogs. Part 2. Data and metadata standards [1] на Medium о том какие стандарты работы с данными и метаданными используются в каталогах данных.

Ссылки:
[1] https://medium.com/@ibegtin/data-catalogs-part-2-data-and-metadata-standards-940dc575a787

#datastandards #datacatalogs
Что-то вдруг рефлексия напала и написал пост про этику в ИБ, которая сейчас, после 24-го февраля, раскрывается с новых, ранее неведанных сторон. Культура отмены, признание хакеров, похвальба взломами… Нам всем еще аукнется то, что сейчас происходит
В рубрике интересных наборов данных портал CanWin [1] созданный на базе системы управления данными с открытым кодом CKAN и на котором опубликовано 64 набора данных по 17 проектам относящимся к наблюдению за водными поверхностями осуществляемыми Центром наук наблюдения за Землёй Университета Манитоба, Канада.

От классического портала данных его отличает значительно более развитая система метаданных связанными с каждым набором данных, наличие ссылки для научного цитирования, включая присвоение DOI, вырузка данных единым пакетом данных и экспорт метаданных во многих форматах.

Похоже CKAN как продукт активно развивается в сторону применения его в задачах открытого доступа и научных порталов данных.

Ссылки:
[1] https://canwin-datahub.ad.umanitoba.ca/

#opendata #ckan #openaccess
Тем временем в Японии специалисты NICT разработали и создали технологию передачи данных со скоростью в 1.02 Петабита в секунду [1] по кабелю длиной 51.7 километра.

Авторы исследования и ранее немало добились в экспериментах по передаче данных, даже интересно когда такие скорости доберутся до потребителей.

Ссылки:
[1] https://www.sciencealert.com/researchers-just-set-a-new-record-for-data-transmission-speed

#tech
Для тех кто интересуется тем что такое Modern Data Stack [1] у вики сервиса дата каталога Castor собрана большая подборка технологий / стека данных используемых многими компаниями и стартапами такими как Coca-Cola, Airbnb, Amazon, Canva, Uber и другие. Стартапы чаще рассказывают о своих технологиях чтобы привлечь инженеров к решению интересных задач используя современные технологии, так что стартапов там будет больше.

Другой интересный источник того чтобы понимать какие технологии в компаниях используются - это сервис StackShare [2] где разработчики/команды делятся впечатлениями от использования сервисов и программных продуктов и там же описаны многие технологические стеки стартапов, компаний, проектов и не только в части данных. Например, стек образовательного сервиса Udemy [3]․

И, наконец, сайт Modern Data Stack [4] с каталогом именно современных стеков данных разных компаний. Здесь всё расписано по группам продуктов и сфокусировано только на данных. Стеков описано меньше, зато фокус чётче. К примеру, стек данных LinkedIn [5]

Конечно, воспроизводить один в один чужой стек данных - занятие довольно бессмысленное, у большинства нетиповых компаний нетиповые потребности и свой технический долг под который собирает стек данных. Но регулярно изучать что делают компании на рынке схожего с Вашей бизнес моделью и размером - всегда полезно.

Ссылки:
[1] https://castordoc.notion.site/15b14f305db6416f9e6d4772ffaeef07?v=c9fd105e248c4feca587b0462e066b4d
[2] https://stackshare.io
[3] https://stackshare.io/udemy/udemy
[4] https://www.moderndatastack.xyz
[5] https://www.moderndatastack.xyz/stacks/linkedin

#moderndatastack #datatools
Forwarded from DRC LAW: IT-юристы
​​Лето в цифре: чем Школа киберправа снова готова привлечь бизнес?

Бизнесу в нынешней ситуации приходится тяжело: санкции, постоянно меняющееся законодательство, риск попасть под блокировку сайта и потерять на этом деньги, вопросы защиты товарных знаков и брендов и многое, многое другое. А если ваш бизнес связан с IT, криптой или авторскими правами — то без знания юридических тонкостей современной “цифры” и вовсе не обойтись. Даже в том случае, если у вас есть юридическое образование или профессия.

Приглашаем всех предпринимателей, IT-стартаперов и юристов, так или иначе связанных с цифровым миром, высокими технологиями и новыми финансовыми активами, на новый запуск Школы киберправа — с 20 по 24 июня в Москве. Посетив его, вы сможете избежать многих подводных камней по организации и ведению бизнеса “с цифровым лицом”, а также увеличить свою прибыль, невзирая на непростые времена!

На протяжении пяти дней наши опытные практикующие эксперты и тренеры в онлайн- и оффлайн режиме разберут действующее законодательство и лучшие бизнес-кейсы в рамках семи специализированных модулей:

1.Big Data & AI
2.Digital assets & crypto/blockchain
3.Tax & Ad
4.Intermediaries & ISP
5.Forensic & Digital evidence
6.IP & Copyright & Domains
7. Privacy & Security

Хотите попасть в число счастливых слушателей? Тогда успевайте зарегистрироваться — ведь старт Школы намечен уже на 20 июня, а количество мест ограничено!

Регистрируйтесь по ссылке:
https://clck.ru/arSfJ
Если Вам кажется что всё плохо в России и то что "дно ещё не нащупано", всегда полезно оглядываться на тех кто глубже. В UN OCHA (Управлениտ ООН по правам человека) заметка с критикой экспертами ООН в адрес цифровой диктатуры в Мьянме где не только заблокировали соцсети, но и 31 городе отключали интернет и 23городах сильно его замедляли. В основном в городах с особо сильной критикой военной хунты. А сейчас там рассматривают законопроект о кибербезопасности по которому можно блокировать любой сайт без суда, а за использование VPN дают до 3 лет тюрьмы.

Ссылки:
[1] https://www.ohchr.org/en/press-releases/2022/06/myanmar-un-experts-condemn-militarys-digital-dictatorship

#internet #privacy #freedom
Многие научные журналы в мире требуют от учёных публиковать вместе со статьями так называемый DAS (Data availability statement), заявление о доступности данных. Оно включает, или ссылку на открытые опубликованные данные, или объявление о доступности данных по запросу.

Группа исследователей провела анализ того как такие заявления публиковались в ряде медицинских журналов и написали статью о том что DAS, фактически, не работает Many researchers were not compliant with their published data sharing statement: mixed-methods study[1]

Они запрашивали данные у тех кто размещал DAS с объявление о доступности данных по запросу и тех кто это не делал и в обоих случаях на их запросы получить данные реагировало не более 7% учёных. Фактически можно говорить о том что многие ученые к подходят к заявлениям о готовности предоставить данные очень формально, не будучи к этому фактически готовыми.

У Sergio Uribe [2] из Балтийского биомедицинского центра в большой серии твитов подборка примеров декларируемой доступности и фактической недоступности данных и как один из сценариев решения - чтобы журналы требовали обязательного раскрытия информации и осуществляли за этим контроль, не принимая статьи без FAIR Data.

Ссылки:
[1] https://www.jclinepi.com/article/S0895-4356(22)00141-X/fulltext
[2] https://twitter.com/sergiouribe

#opendata #openaccess
В рубрике интересных наборов данных инициатива Microsoft Data for Society [1] по публикации открытых данных необходимых для решения наиболее значимых проблем общества.

Данных там много, какие-то создаются компанией и раскрываются на Github, например, Solar farms mapping in India [2], другие создаются в партнерских лабораториях, например, HKH glacier mapping [3], но все вместе их можно рассматривать одновременно и как научную инициативу по открытому доступу и как модель корпоративной социальной ответственности.

Там же много ссылок на другие их инициативы в области развития общества через данные и ИИ. Сейчас это крупнейшая подобная корпоративная инициатива в мире, по масштабам она превосходит раскрытие данных многими городами и странами.

Ссылки:
[1] https://www.microsoft.com/en-us/ai/data-for-society
[2] https://github.com/microsoft/solar-farms-mapping
[3] https://lila.science/datasets/hkh-glacier-mapping

#opendata #ai #datasets #microsoft #corporateresponsibility
На Cnews феноменальная по кликбейтовости и отсутствию проработки очередная публикация про то что Ростех ещё в марте писал в Минцифру идеи по расширению ИТ льгот и компенсации ИТ-шникам половины аренды, с общим завершением статьи что мол неизвестно чем всё это закончилось. Ссылку на Cnews я давать не буду.

Так вот, чем это закончилось вполне известно, со 2 марта по 20 апреля 2022 года в реестр аккредитованных ИТ компаний было включено 17 юридических лиц относящихся к ГК Ростех.

АО "РТ-ПРОЕКТНЫЕ ТЕХНОЛОГИИ"
АКЦИОНЕРНОЕ ОБЩЕСТВО "ЦЕНТР СУПЕРКОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ"
АО "НИИ "РУБИН"
ООО "МАСТЕРСКАЯ СИСТЕМ"
ООО "РТ-ИНФОРМ"
ООО "СПЕКТР"
АО "СИП РС"
АО "ИНФОРМАКУСТИКА"
АО "ПО "ЭЛЕКТРОПРИБОР"
АО "КОНЦЕРН "АВТОМАТИКА"
ООО "НТ"
АО "ПНИЭИ"
АО "ЦНИИАГ"
ООО "РТ-ЦТ"
АО "КНИРТИ"
АО "РАДИОЗАВОД"
АО "НИИМА "ПРОГРЕСС"
АО "КОМПАНИЯ "СУХОЙ"

Источник - Cписок аккредитованных организаций։ https://digital.gov.ru/ru/activity/govservices/1/

Всё это общедоступные сведения и журналисты CNews, даже при небольшом желании, могли бы и сами это узнать.

И, конечно же, большая часть этих компаний, конечно, же никакого отношения к ИТ отрасли не имеют.

#russia #datasets #registry #it
Не могу не повторить что очень хотелось бы комментировать что-то более позитивное, но приходится комментировать СМИ разное. Например, Forbes [1] про оценку уехавших ИТшников и РБК про инициативу цифровых платформ получить ИТ льготы [2].

Но в целом я хочу повторить два важных тезиса:
1. Токсичный оптимизм - не только раздражает, но и ощущение что "правительство на другой планете живёт, родной" (с) Кин-дза-дза
2. После того как закончится острый период кризиса, я напомню что правоохранители и налоговики 100% начнут рыть под всех кто получил льготы и с хоть малейшей вероятностью им не соответствует.

Ссылки:
[1] https://www.forbes.ru/tekhnologii/468055-cto-mozno-uznat-ob-abonente-po-sim-karte-i-pri-cem-tut-vozvrasenie-ajtisnikov
[2] https://www.rbc.ru/technology_and_media/08/06/2022/629f7a099a7947322474d15d

#it #russia
Сейчас в разных, в основном в помоечных, телеграм каналах пишут о том что часть физ. лиц инагентов были признаными такими из-за работы с Republic и Эхо Москвы.

Я не могу не вспомнить и напомнить что кроме того что я тут пишу про технологии и, всё таки, первично ИТшник, но я довольно много чего писал и пишу публицистического про технологии.

Мои колонки есть в РБК [1], российском Forbes [2], Ведомостях [3], Полит.ру [4] и ещё много где, включая Republic [5]․

Так что если и меня надумают включать в инагенты, то далеко ходить не надо, вот оно.

Ссылки:
[1] https://www.rbc.ru/persons/begtin.shtml
[2] https://www.forbes.ru/person/327221-begtin-ivan
[3] https://www.vedomosti.ru/authors/ivan-begtin
[4] https://polit.ru/author/289686/
[5] https://republic.ru/authors/100519

#russia