Ivan Begtin
8.1K subscribers
2.03K photos
3 videos
102 files
4.75K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
В MIT Technology report пишут [1] о том что в Facebook в своём обновлённом отчёте о прозрачности [2] рассказывают что автоматически отсекают 98% видео и фотографий террористов. Происходит это благодаря технологиям распознавания образов, в том в реальном времени. Во многом причины этого в росте публикаций подобных материалов, также не последней причиной активизации исследований и разработки технологий является живая трансляция террориста из Новой Зеландии в Facebook'е после убийства 49 челове в двух мечетях города Christchurch.

Общественная безопасность это один из, не единственный, драйвер инвестиций в ИИ. Инновации создаваемые технологическими гигантами сейчас уже через несколько лет могут стать частью локальных и глобальных решений "умных" городов, территорий, защищённых пространств.


Ссылки:
[1] https://www.technologyreview.com/f/614774/this-is-how-facebooks-ai-looks-for-bad-stuff/
[2] https://transparency.facebook.com/community-standards-enforcement

#privacy #digital #ai
Откуда в мире столько открытого кода? Почему он необходим? В чём важность проектов открытости? А самое главное где найти финансирование на проекты с открытым кодом. В мире существуют десятки фондов и компаний поддерживающих открытый код. Вот лишь несколько из них:

- Mozilla Open Source Support (MOSS) [1] дают большие гранты на развитие проектов с открытым кодом полезных для продуктов Mozilla Foundation
- Google Open Source [2] поддерживают проекты в которых Google нужна доп функциональность, проекты в жизнестойкости которых Google заинтересован и стратегические проекты
- Samsung Next Stack [3] проекты децентрализованных технологией поддерживаются грантами от компании Samsung
- Digital Impact Allience [4] дают гранты на проекты помогающие обществу
- Sloan Foundation даёт гранты на разработку программного кода [5]
- Python Software Foundation [6] даёт гранты, в том числе на конференции.
- Knights Foundation [7] выдаёт гранты на технологическую журналистику, дата журналистику и прочие ИТ проекты для журналистов
- PrototypeFund [8] государственная грантовая программа Министерства образования и исследований Германии. Поддерживается Open Knowledge Foundation Germany

О том как искать финансирование для проектов на базе открытого кода есть специальное руководство с большим количеством примеров из жизни [8]

Ссылки:
[1] https://www.mozilla.org/en-US/moss/
[2] https://opensource.google/docs/growing/funding/
[3] https://samsungnext.com/whats-next/introducing-the-samsung-next-stack-zero-grant/
[4] https://www.osc.dial.community/grants.html
[5] https://sloan.org/programs/digital-technology/data-and-computational-research
[6] https://www.python.org/psf/grants/
[7] https://knightfoundation.org/programs/
[8] https://prototypefund.de/
[9] https://github.com/nayafia/lemonade-stand

#opensource #open
Ведомости пишут о том из Сколково предложили создать госинтегратора на базе их Технопарка [1]. Телеграм каналы уже активно цитируют эту новость, равно как и СМИ.

Мне, честно говоря, много что есть сказать по этому поводу и для этого придётся отойти от жанра сухого изложения новостей.

Многие из тех кто когда-либо работал в системных интеграторах или сталкивался с ними как заказчик/подрядчик и в иных ролях знают о масштабах, скажем так, их неэффективности. Интеграторы почти всегда выступают посредниками между заказчиком и пулом разработчиков / поставщиков оборудования и решений и, чаще всего, снимают основную маржу с контрактов.

При этом результативность этой работы часто столь низкая что тренд госуправления в мире в последние годы в переходе к in-house разработке и прямой контрактации с вендорами оборудования и ПО. По этой причине в конкурсе Пентагона на облачный сервис конкурировали Microsoft, Google и Amazon [2], а не многочисленные интеграторы которых и в США хватает.

По этой же причине в мире появлялись такие in-House команды как Team Digitale, CSIRO Data61, AlphaGov, GDS, 18f, Etalab и многие другие. Все они - это работающие на основе открытого кода и создающие открытый код команды созданные для создания цифровых услуг, платформ, проектов и продуктов вовлекающие разработчиков в создание реальных изменений в государствах.

В общем и целом системные интеграторы с ориентацией на государство уже давно находятся под двойным давлением - от крупных технологических компаний которые продают свои облачные платформы и интеграторы начинаются подстраиваться под эти платформы и под давлением тренда на открытие кода государственных проектов.

Это меняет бизнес модели, часто резко снижает маржинальность бизнеса, сильно усложняет разного рода серые схемы, двойную продажу одного и того же кода и одних и тех же услуг и многое другое.

Как относится к тому что в России хотят создать _единого госинтегратора_? С некоторым скепсисом, поскольку работа интеграторов построена вокруг государственных информационных систем и требует гораздо более системной госполитики по их проектированию, разработке и дальнейшей эксплуатации.

В некоторых ФОИВах и регионах уже давно выстроены свои замкнутые или полузамкнутые экосистемы под определённый технологический стек и которые требуют весьма специфических специалистов для их поддержания и развития.

Бизнес интеграторов всегда строился не на качестве кода или технологических новинках, а на _управлении сложностью_ ИТ проектов. И, хотя и управляют они так себе, но в течение долгого времени у них получалось это лучше чем у государства. По этой же причине и сейчас по большинству государственных информационных систем ключевые компетенции и люди находятся в интеграторах, а не в госзаказчиках.

Но, да, есть тренд на огосударствление, вернее тренд на огоскорпорачивание системной интеграции. Прямые субсидии и контракты с ед. исполнителем с Ростелекомом, НИИ Восход, Ростех и другими игроками рынка государственного происхождения - это всё про госинтеграцию как замену частных интеграторов.

Туда же можно отнести и эту новость о госинтеграторе на базе Сколковского технопарка, туда же можно отнести новость о цифровой платформе госуправления Сбербанка [3] и ряд других, не столь очевидных, но сигнальных новостей об изменении тренда.

Этот тренд - это передел всего государственного ИТ рынка в пользу 4-5 крупных госинтеграторов, находящихся в той или иной близости к центрам принятия решений. В этой "битве якодзун" за бортом, в первую очередь, останутся крупные и средние частные интеграторы которые будут, либо уходить в субпорядные отношения, либо уходить с рынка. Не моментально, это тренд не одного года, но он уже явно заметен.

Это будет происходить быстрее в дотационных субъектах федерации и ФОИВах с малыми ИТ бюджетами, поскольку на них есть инструменты финансово-бюджетного давления. В остальных это будет происходить сложнее, но сценарий не поменяется.
Я не буду судить сейчас об итоговой картине, хорошо это или плохо, отмечу лишь что в какой-то мере это естественное развитие рынка госИТ в России. И хорошо ещё если этот процесс будет мирный, а не с "публичными посадками" руководителей текущих интеграторов, что тоже можно регулярно наблюдать в последние годы.

Лично я считаю во всем этом важным следующее:
1. Сохранение конкуренции. Единый госинтегратор на всё - это, в целом, губительная история. 5-6 крупнейших - уже дают какую-то возможность конкуренции.
2. Команды in-House. Изменение закона о госслужбе в части найма ИТ специалистов и специалистов со специализацией в технологиях, возможность дистанционной работы и тд. Слишком многое нельзя отдавать на аутсорс интеграторам.
3. Открытый исходный код необходим. Это общемировой тренд на раскрытие исходного кода созданного за бюджетные средства и ведение открытой разработки для вовлечения ИТ сообщества.

Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2019/12/01/817588-skolkovo-predlozhilo
[2] https://tjournal.ru/tech/122980-microsoft-poluchila-kontrakt-pentagona-na-10-milliardov-dollarov-proigravshiy-amazon-nazval-reshenie-nelogichnym
[3] http://government.ru/news/38464/

#government #it
Forwarded from Инфокультура
Завтра в 19:00 в Шанинке Алина Владимирова, научный сотрудник ИВ РАН и вице-председатель Исследовательского комитета по политической власти Международной ассоциации политической науки, проведет лекцию об открытых данных международных организаций и подробнее расскажет о базе данных внешней торговли «Комтрейд ООН». Алина расскажет про:
- основные вехи создания базы данных «Комтрейд ООН»;
- проблемы, с которыми столкнулись специалисты, собирая торговую статистику;
- особенности открытых данных международных организаций и их качество.

Лекция может быть интересна тем, кто использует статистику внешней торговли в своих исследованиях, а также тем, кто занимается сбором и публикацией открытых данных. Приглашаем к участию исследователей, аналитиков, научных сотрудников и всех желающих.
Как получить свои данные из всех тех сервисов которыми Вы пользуетесь? Непросто, но точно возможно.

В этот раз вместо поста я собраю такие сервисы в жанре Awesome Lists.

В Awesome Data Takeout [1] ссылки и инструкции на способы получения данных из большинства ключевых сервисо включая российские.

Список пополняемый, не стесняйтесь добавлять ссылки.

Ссылки:
[1] https://github.com/ivbeg/awesome-data-takeout

#data #datatakeout #dataexport
Тут относительно недавно 20 ноября 2019 года Минэкономразвития заключило контракт [1] на доработку портала data.gov.ru на 20 миллионов рублей с компанией РуНетСофт [2]

Предлагаю вопрос знатокам - в течение короткого брейншторма посмотреть на то что _не так_ с этим контрактом.

Лично я своё развернутое мнение напишу позже, скорее всего ближе к 9-декабря, когда будут подводить итоги его первого этапа.

Ссылки:
[1] https://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=1771034949419000094
[2] https://rns-soft.ru/

#opendata #data #contracts
Рубрика "нет слов"
📱Террористы ИГ использовали российский мессенджер TamTam для подготовки к теракту в Лондоне

Они сами обьявили об этом. После проверки в мессенджере обнаружили сотни каналов, принадлежащих террористической организации
Как запросить личные данные от компаний по GDPR. Проект DataRequests.org [1] от германской НКО Datenanfragen.de e. V. [2] помогает составлять запросы в компании обязанные отдавать данные пользователям по запросу. Для этого в их проекте есть форма запроса [3], универсальная для любого типа запроса и для этого они ведут базу компаний [4] с их контактами и политиками приватности.

Всё содержание проекта открыто в виде открытого кода и открытых данных [5] что позволяет применять код проекта и для других задач. Например для запросов в Российские госорганы по 8-ФЗ или по 59-ФЗ.

Ссылки:
[1] https://www.datarequests.org/
[2] https://verein.datenanfragen.de/en/constitution/
[3] https://www.datarequests.org/generator
[4] https://www.datarequests.org/company

#opendata #dataprotection #data #datarights
ASPI, австралийский мозговой центр выпустивший ранее исследование Mapping China technology giants выпустили обновлённое
исследование [1] в которое добавили множество новых данных и теперь покрывают 23 китайские технологические компании.

Были добавлены такие компании как:
- BeiDou
- ByteDance
- CloudWalk
- Dahua
- DJI
- iFlytek
- Megvii
- Meiya Pico
- Sense Time
- Uniview
- YITU

В исследовании немало интересного, например, о компании ByteDance которые являются создателями приложения TikTok и о CloudWalk и колониализме данных (data colonialism) когда все данные распознавания людей по походе в Зимбабве передаются и хранятся в Китае.

Этот отчёт стоит внимания, его можно прочитать в виде PDF по ссылке [2].

Ссылки:
[1] https://www.aspi.org.au/report/mapping-more-chinas-tech-giants
[2] https://s3-ap-southeast-2.amazonaws.com/ad-aspi/2019-11/Mapping%20more%20of%20Chinas%20tech%20giants_1.pdf?cONTm6ETA8RMzlcILgDFNdoHdMN6xGZf

#china #datacolonialism #aspi #australia #surveillance
TechCrunch пишет [1] о том что Amazon выпустили AWS SageMaker [2], удобный инструмент ведения записных книжек по Data Science и разработки моделей машинного обучения.

Я лично гадал что скорее они купят DataIku [3] которые вот вот выпустили платформу DataIku 6 и позиционируют себя как разработчиков экосистемы для Enterprise AI. Но пока больше похоже что DataIku идёт в медленном направлении погружения в экосистему Microsoft и, у них уже есть интеграция с Microsoft Teams, а значит что есть вероятность что Amazon будет не единственным игроком облачных корпоративных решений по data science.

В любом случае SageMaker стоит пристального внимания и апробации.

Ссылки:
[1] https://techcrunch.com/2019/12/03/aws-launches-sagemaker-studio-a-web-based-ide-for-machine-learning/
[2] https://aws.amazon.com/ru/sagemaker/
[3] https://www.dataiku.com/

#datascience #data
Рубрика "Без слов", вернее даже "Нет слов".
Мы «хакнули» серваки Росреестра!

По мнению Росреестра у них упали «сервера» из-за непомерной нагрузки-запросов из ФССП,переданных по средствам электронного документооборота. Мы остались без ответов по недвижимости,взыскатели без обращения взыскания на недвижимое имущество.
У всех бывает.Не спорим.Но мы то здесь причём?
У Росреестра не справляется с нагрузой серверная инфраструктура и поэтому решили нас тупо отключить. Прекрасное решение.Очень правильное и своевременное,учитывая конец года.
По нашим данным в адрес Росреестра за три месяца было направлено 200 млн.запросов. В масштабах страны это очень мало,крайне мало.
А вот почему упали сервера? И сколько было выделено денежных средств Росреестру в рамках федеральной программы «Цифровая экономика» мы оставим за скобками и переадресуем этот вопрос по принадлежности с напоминанием глубокоуважаемому Росреестру об отвественности за неисполнение или ненадлежащее исполнение требований судебного пристава-исполнителя.
Что скажешь МинЭкономРазвитие?
Это примерно то о чём я всё чаще пишу помимо темы открытости данных. Персональные данные пользователей превратились в основной товар (commodity) для большей части ритейловых компаний и не только. Да, современный бизнес просто не может не следить или правильнее "пасти" пользователей, но если это будет развиваться как развивается, то что мы будем делать когда маятник качнется в другую сторону?
Forwarded from Секрет фирмы
​​Данные 40 млн владельцев карт «Пятёрочки» и «Перекрёстка» проданы компании Gazprom-Media Digital для показа таргетированной рекламы.

Клиентам магазинов X5 Retail Group уже начали присылать полезную информацию о брендах чая и кормах для домашних животных.

http://bit.ly/2RKQsvh
Джек Дорси, создатель социальной сети Твиттер в своих последних "твитах" написал о планах построения открытой децентрализованной платформы [1]. Для этой цели компания наняла малую команду из 5 человек архитекторов, инженеров и дизайнеров чтобы разработать децентрализованный стандарт для социальных медиа.

Он, в том числе, ссылается на публикацию Стивена Вольфрама [2] о его выступлении в Сенате (США) по контенту который для пользователей социальных сетей отбирает искусственный интеллект.

Ещё одна статья на которую он ссылается - это "Protocols not platforms" [3] за авторством Майка Масника, со многими ключевыми соображениями о доминировании платформ и о необходимости поиска бизнес моделей.

Важнейший вопрос в том, возможен ли принципиальный переход крупнейших платформ к децентрализации. Стратегии большинства из них до сих пор сфокусированы на том чтобы "пасти" пользователей и на том чтобы "закукливать" пользователей в свою экосистему.

Ссылки:
[1] https://twitter.com/jack/status/1204766078468911106
[2] https://writings.stephenwolfram.com/2019/06/testifying-at-the-senate-about-a-i-selected-content-on-the-internet/
[3] https://knightcolumbia.org/content/protocols-not-platforms-a-technological-approach-to-free-speech

#openness #platforms
На проходящем в России RIW Аналитический центр при Пр-ве РФ, ИРИ и Ассоциация больших данных представили свой этический кодекс работы с данными [1]. Лично я как руководитель другой ассоциации - АУРД (Ассоциация участников рынка данных) не могу его не прокомментировать, сделаю это тезисами.

1. Этот кодекс разрабатывали именно АЦ при Правительстве, ИРИ и Ассоциация больших данных. Наша ассоциация к нему никакого отношения не имела, мы не видели его ни в черновом виде, ни в каком иначе и никто из известных мне экспертов до того как кодекс был опубликован его не видел. Это продукт исключительно в зоне ответственности этих 3-х участников.
2. Кодекс существует в форме благопожеланий, не в формате "мы обязуемся делать" и "мы обязуемся не делать" как это изложено, например, в похожем кодексе в Швейцарии [3], а в форме общего, на мой взгляд, необоснованно забюрократизированного изложения.
3. Часть документа про создание "совета по совершенствованию лучших практик работе с данными" - это довольно бессмысленная идея на том уровне котором предлагается его создание. Я давно ратую за создание совета по данным на уровне правительственной комиссии или совета при Президенте РФ, но совет при АЦ при ПР РФ - это несерьёзный уровень для документа. В этом смысле я лично его бы больше ожидал от Ассоциации больших данных
4. В документе ничего нет про приближение к практикам GDPR, защиту прав пользователей и доступа граждан к их данным. Это не этика для малого бизнеса и не этика для пользователя - это самое минимальное приближение к этике со стороны "больших котов"
5. При этом я, всё равно, приветствую появление одного из первых документов по дата-этике, даже если окажется в будущем окажется что его необходимо будет глубоко переписать или полностью переделать.

Ссылки:
[1] http://ac.gov.ru/files/content/25949/kodeks-etiki-pdf.pdf
[2] http://aurd.ru
[3] https://data-service-alliance.ch/_Resources/Persistent/d8023fbcbd6cfb86e5ed814faa050f6bfa6be284/Codex_V3_english_public.pdf

#data #dataethics
Новость хуже не придумаешь. Nginx стал компанией мирового уровня, а вот Рамблер, похоже, никогда уже ей не станет