Ivan Begtin

Если кратко Яндекс собрал Консультативный совет по развитию экосистемы [1] [2] [3].

Ссылки:
[1] https://yandex.ru/company/advisory-board/yandeks-sobral-konsultativnyy-sovet-po-razvitiyu-ekosistemy
[2] https://tass.ru/ekonomika/12785797
[3] https://vc.ru/offline/311667-yandeks-sozdal-konsultativnyy-sovet-po-razvitiyu-ekosistemy

#yandex #councils

2.2K viewsIvan Begtin, edited 12:52

Ivan Begtin

Forwarded from APICrafter

В каталог APICrafter'а загружен архив экстренных оповещений Росгидромета с 2013 по 2021 год включительно, актуальные сведения на 28 октября 2021 года [1]. В архиве 7672 записи, общим объёмом 2,9 мегабайта. Поскольку в первоисточнике присутствуют только записи о точной дате и времени оповещения и краткий текст, то и здесь представлены эти же данные.

Данные можно скачать без авторизации в формате пакета данных в формате MongoDB (BSON) [2], а также через API.

Они могут быть полезны исследователям обучающих алгоритмы выявления именованных объектов, разработчикам систем оповещения с расшифровкой упоминаемых географических объектов и погодных явлений, журналистам исследующим природные катастрофы и их частоту в нашей стране.

Ссылки:
[1] https://data.apicrafter.ru/packages/meteorf-extramessage
[2] https://data.apicrafter.ru/packages/meteorf-extramessage/builds

#opendata #datasets #weather

DataCrafter

Архив экстренных сообщений Росгидромета

Экстренные сообщения с официального сайта Росгидромета http://www.meteorf.ru/product/emergency/ с 2013 по 2021 годы

1.6K viewsIvan Begtin, 15:26

Ivan Begtin

PrivaSeer [1] специальная поисковая система по 1.4 миллионам политикам приватности на английском языке. Создано командой Penn State College of Information Science and Technology, в качестве первоисточников используются наборы данных Free Company Dataset [2] и Common Crawl [3]. Собранный набор данных составляет более 13,85 гигабайт и его можно скачать как открытые данные [4] под лицензией CC BY-NC (свободно для некоммерческого использования).

Особенности поисковика в определении технологий указанных в политиках приватности, например, Cookies или Fingerprinting, выявление упоминания соответствия регулированию GDPR, Coppa, Privacy Shield, CalOPPA, а также поиск и фильтрация текстов по уровню сложности, для этого использовалась формула Flesch-Kincaid Reading Level.

Ссылки:
[1] https://privaseer.ist.psu.edu/
[2] https://docs.peopledatalabs.com/docs/free-company-dataset
[3] https://commoncrawl.org/
[4] https://bit.ly/2ZB6Y7F

#privacy #datasets #opendata

1.5K viewsIvan Begtin, 05:11

Ivan Begtin

Forwarded from Телеком-ревью

Иностранные интернет-компании обязали зарегистрировать личный кабинет

Правительство приняло Правила ведения личного кабинета.

- Иностранные IT-компании, ведущие деятельность в Интернете на территории России, должны зарегистрировать личный кабинет на сайте Роскомнадзора и использовать его для взаимодействия с российскими госорганами.

Личный кабинет создается на сайте www.236-fz.rkn.gov.ru.
Для регистрации личного кабинета иностранцам необходимо подать в Роскомнадзор заявление.

Через личный кабинет иностранное лицо будет взаимодействовать с Роскомнадзором и ФАС - получать от них сообщения и передавать им документы и сведения.

Постановление Правительства РФ от 27 октября 2021 г. N 1837
- http://publication.pravo.gov.ru/Document/View/0001202110290004

*
Закон №236-ФЗ о регулировании иностранных компаний был принят ранее и вступил с 01.07.2021г
- https://yangx.top/gip_24/7107

Порядок размещения перечня и сам сайт были уже приняты ранее приказом РКН от 16.07.2021 № 129 -
- https://yangx.top/gip_24/7219

👉 В соответствии с частью 1 статьи 8 закона от 1 июля 2021 г. N 236-ФЗ "О деятельности иностранных лиц в информационно-телекоммуникационной сети "Интернет" Роскомнадзор обязан вести перечень иностранных лиц, осуществляющих деятельность в сети "Интернет" на территории Российской Федерации.

Сайт не работает. Списка лиц нет 🙅‍♂️🤷‍♂️

publication.pravo.gov.ru

Постановление Правительства Российской Федерации от 27.10.2021 № 1837 ∙ Официальное опубликование правовых актов ∙ Официальный…

Постановление Правительства Российской Федерации от 27.10.2021 № 1837
"Об утверждении Правил ведения личного кабинета, в том числе правил регистрации иностранным юридическим лицом, иностранной организацией, не являющейся юридическим лицом, иностранным гражданином…

1.4K viewsIvan Begtin, 06:47

Ivan Begtin

Иностранные интернет-компании обязали зарегистрировать личный кабинет Правительство приняло Правила ведения личного кабинета. - Иностранные IT-компании, ведущие деятельность в Интернете на территории России, должны зарегистрировать личный кабинет на сайте…

Статья о том как издание The Markup проверило сайт некоммерческой организации Planned Parenthood и обнаружили там 28 трекеров и 40 третьесторонних кук [1], особенность в том что Planned Parenthood - это одна из очень крупных НКО в США, с 200 миллионами посетителями их сайта за последний год. В статье поднимается вопрос о том что в США регулирование НКО в части приватности сейчас недостаточно, в то время как на их сайты приходят многие люди которые могут хотеть скрыть свою принадлежность к дискриминируемым группам или факты наличия у них определенных заболеваний. А получается что организация передает информацию о человеке десятке внешних компаний.

Что интересно, The Markup - это такое техножурналистское издание, регулярно публикующее статьи с данными и с фокусом на мониторинг Big Tech. Чтобы определить трекеры на сайте они сделали специальный инструмент Blacklight с помощью которого можно проверить наличие трекеров на сайте. Можно увидеть эти трекеры для Plannedparenthood.org [3] к примеру.

Конечно, такие инструменты охватывают, в первую очередь международных крупных игроков вроде Google, Facebook, Tower Data, Criteo и других, но некоторых российских тоже умеют. Подробнее The Markup писали о том как они разрабатывали Blacklight [3] и что в целом это не так уж сложно при существующей инфраструктуре и множестве источников сведений о трекерах и компаниях их создающих.

Посмотрим на крупнейшие благотворительные фонды в России:
- Фонд Подари Жизнь https://themarkup.org/blacklight?url=podari-zhizn.ru - 2 трекера и 3 внешних куки
- Фонд продовольствия Русь https://themarkup.org/blacklight?url=foodbankrus.ru - 6 трекеров и 5 внешних кук
- Русфонд - https://themarkup.org/blacklight?url=rusfond.ru - 8 трекеров
- Благотворительный фонд помощи детям https://themarkup.org/blacklight?url=worldvita.ru - 7 трекеров и 1 внешняя кука
- Благотворительный фонд «Дом с маяком» https://themarkup.org/blacklight?url=mayak.help - 3 трекера
- Благотворительный фонд «Линия жизни» https://themarkup.org/blacklight?url=life-line.ru - 7 трекеров
- Фонд Хабенского https://themarkup.org/blacklight?url=bfkh.ru - 3 трекера и 1 кука
- Фонд помощи хосписам Вера https://themarkup.org/blacklight?url=www.hospicefund.ru - 5 трекеров
- Благотворительный Фонд Алеша https://themarkup.org/blacklight?url=aleshafond.ru - 10 трекеров и 13 внешних кук

Это топ 10 фондов с сайта Милосердие.ру [4], до масштабов PlannedParenthood они, конечно, ещё не дотягивают, хотя вот на сайте Фонда Алеша явный перебор с передачей данных в Mail.Ru Group, OOO, Alphabet, Inc., Yandex LLC, CleverDATA LLC, и Aidata.

Желающие могут провести углублённый анализ самостоятельно, посмотреть можно не только топ благотворителей, но и топ банков, топ госсайтов, топ сайтов частных клиник и ещё многое другое. Все это потянет на хороший журналистский материал, при желании.

Как избежать такой слежки хотя бы на сайтах с наиболее чувствительной информацией? Используйте браузеры со встроенной защитой приватности, применяйте такие расширение как disconnect.me и privacybadger, а до владельцев сайтов имеет смысл доносить ту мысль что их удобство по мониторингу должно иметь свои пределы.

Ссылки:
[1] https://www.llrx.com/2021/10/nonprofit-websites-are-riddled-with-ad-trackers/
[2] https://themarkup.org/blacklight?url=www.plannedparenthood.org
[3] https://themarkup.org/blacklight/2020/09/22/how-we-built-a-real-time-privacy-inspector
[4] https://www.miloserdie.ru/article/pervye-v-rejtinge-10-krupnejshih-blagotvoritelnyh-organizatsij-rossii/

#privacy #ngo #adtech

1.6K viewsIvan Begtin, edited 09:39

Ivan Begtin

В научной библиотеке БНТУ хороший обзор проектов по открытым научным данным [1] и там же обзоры открытых образовательных ресурсов, открытой науки, открытого доступа, открытой научной коммуникации.

Я добавлю что концепция открытых данных приходила в мир 3 путями.
Первый - это общественные и политические активисты и журналисты.
Второй - естественное развитие использование данных в госуправлении.
Третье - развитие идей открытости науки и открытости данных как их продолжения.

Многие крупнейшие порталы открытых данных в мире - это, де факто, крупнейшие порталы научных данных. Так устроен портал открытых данных федерального правительства США data.gov, так устроены многие другие страновые порталы в мире, научные организации раскрывают на них данные в первую очередь.

В основе движения открытости данных в науке можно определить Пантонские принципы [2], FAIR Data [3] и множество близких по смыслу инициатив. Сейчас в мире они уже потеряли эффект новизны потому что стали общепринятой нормой. Исследователи по всему миру публикуют данные на европейской платформе Zenodo [4] и многочисленных иных платформах по открытости науки.

Ссылки:
[1] https://library.bntu.by/otkrytye-nauchnye-dannye
[2] https://en.wikipedia.org/wiki/Panton_Principles
[3] https://en.wikipedia.org/wiki/FAIR_data
[4] https://zenodo.org

#opendata #opensciencedata #science

1.5K viewsIvan Begtin, edited 15:42

Ivan Begtin

Научный центр больших данных в биологии EMBL-EBI (EMBL’s European Bioinformatics Institute ) [1] опубликовали большой доклад (impact report) о том как собираемые, поддерживаемые и раскрываемые ими базы данных помогают в исследованиях [2].

Если вкратце:
- около 450-500 тысяч пользователей
- интервью с пользователями говорит о том что для большинства из них недоступность данных EBI сильно повлияет на их исследования
- прямой возврат инвестиций 2.2 млрд фунтов - это сумма которую пришлось бы потратить ученым на покупку данных которые они получают бесплатно
- и там же ещё много разных оценок ROI, финансового влияния и эффекта от их работы. И раньше не было в этом сомнений, а здесь ещё и всё подкреплено цифрами.

Для тех кто не знает, EMBL-EBI поддерживают более 40 открытых баз данных / наборов данных по теме биологии [3] откуда ученые не только берут данные, но и куда сдают результаты своих исследований.

Биоинформатика одна из многих областей где эффект от открытости данных и доступности их в большом объёме хорошо измерим, здесь можно напомнить о большом европейском проекте Elixir [4] где такая работа происходит на общеевропейском уровне и о том что системная работа по созданию исследовательской инфраструктуры приводит к доступности одних из наиболее крупных баз данных в мире именно в области биологии.

Ссылки:
[1] https://www.ebi.ac.uk
[2] https://www.embl.org/documents/document/embl-ebi-impact-report-2021/
[3] https://www.ebi.ac.uk/services/all
[4] https://elixir-europe.org/

#opendata #biology #europe

www.ebi.ac.uk

EMBL-EBI homepage

EMBL's European Bioinformatics Institute: Big data for the life sciences

1.6K viewsIvan Begtin, 05:48

Ivan Begtin

Один из инструментов с открытым кодом который используется внутри каталога данных DataCrafter - это утилита командной строки APIBackuper.

Изначально она разрабатывалась для архивации данных которые предоставляются только через API. Таких примеров много, многие государственные информационные системы устроены именно так - есть API, чаще недокументированное, и поверх него работает веб интерфейс. Но, конечно, это не только про государственные информационные системы, такое есть и у частных проектов.

Эта утилита работает без кода, через настройки конфиг файла в котором указываются параметры обращения к API. Вот тут пример по получению данных из API российского реестра удостоверяющих центров.

Чтобы собрать данные нужно в папке с этим конфигом запустить утилиту
apibackuper run full

А после сбора данных выполнить команду apibackuper export jsonl data.jsonl

На выходе получается файл в формате JSON lines который можно обрабатывать другими инструментами.

#opendata #tools #api #openapi

1.8K viewsIvan Begtin, 07:00

Ivan Begtin

Вот уже довольно длительное время не работает портал открытых данных Воронежской области opendata.govvrn.ru. Последняя запись в интернет-архиве есть за март 2019 года, уже за 2020 год сайт оказался недоступен, а сейчас просто всегда выдает ошибку. Россия, возможно, единственная страна где проекты по открытости (включая открытость данных) не развиваются, а сворачиваются. При этом, что бы кто не говорил, открытость данных не несёт рисков для госорганов потому что в открытые данные переводят чаще всего те информационные ресурсы которые и так публиковались в Excel, Word, PDF и других форматах. Разница в том, что открытые данные - это форма коммуникации с технически подготовленными пользователями государственной информации.

#opendata #regions #voronezh #opengov

1.7K viewsIvan Begtin, edited 21:00

Ivan Begtin

Новый уровень закрытости в нашей стране, Правительство распорядилось закрыть все закупки ФСО, ФСБ, СВР, Минобороны и Росгвардии, а также всех их подведомственных учреждений [1]. Всё это в распоряжении Правительства РФ от 30 октября 2021 г. N 3095-р.

Если раньше были закрыты закупки этих ведомств только в части закрытой части бюджета, то сейчас решили закрыть все закупки, в том числе и по открытой части тоже. Что это означает на практике?

1. Значительное повышение непрозрачности гражданской деятельности этих ведомств. Если, к примеру, у СВР её точно нет, то ФСБ, Минобороны и Росгвардия ещё и осуществляют лицензирование деятельности, а ФСО ведёт портал нормативно-правовых актов pravo.gov.ru. Вся эта деятельнсть теперь будет скрыта как и другая работа этих органов власти.
2. Ещё большее снижение конкуренции по закупкам этих ведомств. Закрытые конкурсные процедуры идут по закрытому списку поставщиков.
3. Можно обратить внимание что в этом списке нет МВД, но есть Росгвардия, выходит секретность Росгвардии сильно выше чем МВД. Закупки Росгвардии ранее были предметом общественного расследования, как бы причина не была именно в этом.

Вместе с ростом закрытой части российского бюджета он становится всё непрозрачнее.

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202111020029

#opencontracting #contracts #government

2.3K viewsIvan Begtin, 06:36

Ivan Begtin

Для тех кто ищет данные и не знает где их найти, Инфокультура подготовила новый небольшой и полезный проект "Каталог каталогов данных" datacatalogs.ru. На самом деле мы его вели очень давно, в виде базы в Airtable с большим числом параметров по каждому каталогу данных - тип каталога, темы, наличие экспорта, наличие API, программный продукт и многое другое. Потом поняли что недостаточно каталогизировать только каталоги данных и добавили туда несколько репозиториев других видов данных и источники особо крупных датасетов.

1.5K viewsIvan Begtin, edited 07:52

Ivan Begtin

Forwarded from Инфокультура

Инфокультура представляет новый проект — Каталог данных www.datacatalogs.ru.

В нем систематизированы государственные источники открытых данных, а также собраны альтернативные базы, каталоги, репозитории, порталы, наборы и иные источники данных, потенциально интересные для всех, кто работает с данными.

На сегодняшний день в каталоге:
✔️ 245 российских и международных источников данных.
✔️ 105 тематических направлений, охватывающих самый широкий спектр от социологии до недропользования и внешней торговли.
✔️ Ссылки не только на государственные источники данных, но и на независимые общественные и некоммерческие инициативы, а также академические данные и данные коммерческих компаний.
✔️ Источники данных имеют разные режимы доступа (открытые, ограниченные, закрытые), а также категоризированы по типу контента и даже по типу платформы каталога (CKAN, DKAN и иные).

Если вы знаете какой-либо источник данных, отсутствующий в каталоге, вы можете добавить его, заполнив специальную форму.

1.4K viewsIvan Begtin, 07:53

Ivan Begtin

Forwarded from Ах, этот Минфин (Olya Parkhimovich)

Минсельхоз России подготовил проект Распоряжения Правительства об утверждении перечня открытых данных Федеральной государственной информационной системы прослеживаемости пестицидов и агрохимикатов. Судя по документу, должны быть доступными:

- ИНН и наименование юрлица/ИП
- дата и время проведения работ с применением пестицидов и химикатов
- торговое наименование препарата, действующее вещество и выбранный способ его применения
- информация о способах обеспечения безопасности населения.

Не так часто в последнее время принимаются решения о публикации открытых данных, влияющих на качество и безопасность жизни, поэтому наличие данный документа не может не радовать.

По информации Федерального проекта портала НПА, общественное обсуждение проекта должно было закончиться вчера, но всегда можно отправить предложения об открытых данных напрямую в Минсельхоз.

https://regulation.gov.ru/projects#npa=119605

1.4K viewsIvan Begtin, 10:37

Ivan Begtin

Netflix опубликовали открытый код Metaflow UI [1], веб интерфейса для разработанного ими движка Metaflow [2] по моделированию потоков данных/труб данных (data pipelines) в целях data science. Для тех кто регулярно работает с задачами по машинному обучению инструмент может быть полезен. Подробнее в блоге Netflix [3], с рассказом о том почему и кому этот GUI может быть полезен.

Ссылки:
[1] https://github.com/Netflix/metaflow-ui
[2] https://metaflow.org/
[3] https://netflixtechblog.com/open-sourcing-a-monitoring-gui-for-metaflow-75ff465f0d60

#data #datatools #datapipelines #opensource

GitHub

GitHub - Netflix/metaflow-ui: :art: UI for monitoring your Metaflow executions!

:art: UI for monitoring your Metaflow executions! Contribute to Netflix/metaflow-ui development by creating an account on GitHub.

1.7K viewsIvan Begtin, 14:16

Ivan Begtin

Я в декабре 2019 года писал про проект ASPI по идентификации активности китайских технологических компаний в мире, он не обновлялся почти 2 года и, оказывается, неожиданно был обновлён в июне 2021 г. В виде большого набора данных и на карте собраны сведения о 3948 инициативах китайских технологических компаний в мире: совместных производствах, контрактах, обучении, дочерних предприятиях, тренингах и многом другом. Всего 27 компаний в 186 странах. В России всего 121 такой проект. Можно обратить внимание, например, на проекты Meiya Pico, продавших в 2018 году Следственному комитету РФ технологию MagiCube для вскрытия телефонов iPhone и Android. По видимому, они заменили, израильскую компанию Cellebrite продуктами которой ранее пользовались отечественные правоохранители.

Что тут добавить, если даже российские госорганы закрывают госзакупки, это не значит что информацию о них скроют поставщики. Им же надо привлекать клиентов и показывать успехи.

#privacy #china #surveillance

3.4K viewsIvan Begtin, 18:30

Ivan Begtin

В рубрике "открытые большие наборы данных", напомню про многочисленные открытые наборы данных с которыми можно работать в любое время.

* Common Crawl - огромный общедоступный поисковый индекс. На его основе создается множество проектов, включая, например, PrivaSeer, поисковик по условиям приватности.
* Wikipedia dumps - дампы базы данных Википедии и связанных с ней проектов, на всех языках.
* DBLP - открытая база данных библиографии в computer science. Полезная всем кто разрабатывает алгоритмы поиска трендов в научных исследованиях.
* Awesome Public Datasets - большой каталог источников открытых данных, как правило, большого объёма.

И, конечно, напомню про свежезапущенный нами каталог каталогов данных (datacatalogs.ru) где можно найти каталог данных в России, о России, связанных с России и русскоязычными пользователями данных.

#opendata #datasets #datasources

1.6K viewsIvan Begtin, 06:31

Ivan Begtin

Свежее расследование в The Markup о том как Amazon манипулирует выдачей в своём магазине и подсовывает свои товары в результаты поиска и просмотра так чтобы их чаще покупали. При этом продукты Amazon оказываются в топе выдачи даже если у их конкурентов выше оценки потребителей, их больше покупают и так далее. У The Markup получаются очень интересные лонгриды, с интерактивом, и с результатами соцопросов и обработки данных. А в этой статье они ещё и выложили весь код и все данные которые собрали проверяя теорию что Amazon продвигает свои бренды в первую очередь. Этот код и данные - это почти 300 ГБ в распакованном виде и около 11 ГБ в сжатом виде. Очень много данных, собранных на февраль 2021.

Лично мне нравится как The Markup подходит к расследованиям и акцент редакции на Big Tech. Не знаю воспроизводима ли их модель в стране отличной от США, но читать интересно.

#opendata #datasets #datajournalism #ddj #bigtech

1.5K viewsIvan Begtin, 13:19

Ivan Begtin

Postman опубликовали свежий отчет The State of API 2021 [1], отчет они проводили на своей платформе, поэтому неудивительно что в нём они фигурируют как лидер инструментария по работе с API, но даже несмотря на это искажение, вполне возможно что они правы. Удивительно малое присутствие другие API инструментов и сервисов, например, RapidAPI, маркетплейс для API родом из Израиля, оказывается малопопулярен среди разработчиков, а вот корпоративные продукты от Microsoft, Google, Oracle, IBM вполне интересны (почти все они это купленные стартапы). Как всегда интересное чтение, Postman, действительно, один из лучших коммерческих инструментов проектирования и тестирования API, но, конечно, далеко не единственный и не универсальный. Например, для GraphQL или проектирования SOAP есть альтернативы (хотя кому придёт в голову проектировать SOAP API в наше то время? ).

Как бы то ни было рынок API сейчас на подъёме в мире и это уже неплохой мотиватор делать продукты изначально ориентированные на предоставление API.

Ссылки:
[1] https://www.postman.com/state-of-api

#API #reports

Postman API Platform

2024 State of the API Report

The most comprehensive survey on APIs with over 5,600 developers and API professionals the 6th year in a row.

2.2K viewsIvan Begtin, 13:41

About

Blog

Apps

Platform