В рубрике как это устроено у них publiccode.yml [1] [2] стандарт публикации открытого кода созданного за счёт государственного или местных бюджетов (public software). Изначально разработан итальянскими госразработчиками, потом преобразованный в международный стандарт.
Пока не очень популярен на Github'е, поиск находит всего 24 репозитория path:**/publiccode.yml path:/, но вполне себе находится в Google за пределами Github'а inurl:publiccode.yml -site:github.com на сайтах gitlab.com, opencode.de, code.europe.eu и различных госинсталляций Gitlab'а
Структура метаданных чем-то похожа на стандарты описания датасетов и цифровых документов.
Хорошая идея, но пока не популярная, тем не менее постепенно развивающаяся как минимум в Италии и Германии.
Ссылки:
[1] https://yml.publiccode.tools/
[2] https://github.com/publiccodeyml/publiccode.yml
#opensource #government #standards
Пока не очень популярен на Github'е, поиск находит всего 24 репозитория path:**/publiccode.yml path:/, но вполне себе находится в Google за пределами Github'а inurl:publiccode.yml -site:github.com на сайтах gitlab.com, opencode.de, code.europe.eu и различных госинсталляций Gitlab'а
Структура метаданных чем-то похожа на стандарты описания датасетов и цифровых документов.
Хорошая идея, но пока не популярная, тем не менее постепенно развивающаяся как минимум в Италии и Германии.
Ссылки:
[1] https://yml.publiccode.tools/
[2] https://github.com/publiccodeyml/publiccode.yml
#opensource #government #standards
Полезные ссылки про данные, технологии и не только:
AI & Science
- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.
Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.
Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).
Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/
#opendata #opensource #openaccess #ai #science #government #data
AI & Science
- AI Scientist [1] фреймворки и примеры научных статей созданных полностью с помощью больших языковых моделей. Создано в японской AI лаборатории Sakana, у них же в блоге подробности [2]
- Accelerating scientific breakthroughs with an AI co-scientist [3] в блоге Google о мультиагентной системе на базе Gemini 2.0 для помощи исследователям в формировании гипотез и предложений исследователям. С акцентом на биомедицину, ожидаемо. Кстати, я до сих пор не видел ни одного исследования о потенциальном влиянии ИИ на разные научные дисциплины, а ведь потребность в таком анализе есть.
- ScienceOS [4] коммерческий сервис помощи исследователям с помощью ИИ. Как я понимаю пока там три основных сервиса: поговорить о науке в чате, поговорить вокруг PDF документа и управление ссылками.
- Awesome MCP Servers [5] большая коллекция серверов с Model Context Protocol в самых разных областях, в том числе с интеграцией с СУБД: Clickhouse, Elastic, BigQuery, Postgres и др.
Open Source
- Make Ubuntu packages 90% faster by rebuilding them [6] автор рассказывает как пересобирать пакеты для Linux ускоряя их приложения на примере утилиты jq. Почему это важно? jq используется во многих системах преобразования данных (ELT/ETL/скрейпинг) и сами советы дают некоторое понимание того как оптимизировать приложения с открытым кодом не меняя сам код
- Plane [7] аналог системы управления проектами Asana/Monday с открытым кодом. У открытой версии лицензия AGPL-3.0, так что использовать локально можно, а вот перепродавать свой сервис на их основе не получится.
Government & Data
- Government data is disappearing before our eyes [8] в целом ничего нового, но много ссылок на старое и происходящее сейчас с исчезновением открытых госданных в США.
- The State of Open Humanitarian Data 2025 [9] обзор состояния данных в сфере гуманитарной помощи от United Nations Office for the Coordination of Humanitarian Affairs (OCHA).
Ссылки:
[1] https://github.com/SakanaAI/AI-Scientist
[2] https://sakana.ai/ai-scientist-first-publication/
[3] https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
[4] https://www.scienceos.ai/
[5] https://github.com/punkpeye/awesome-mcp-servers
[6] https://gist.github.com/jwbee/7e8b27e298de8bbbf8abfa4c232db097
[7] https://github.com/makeplane/plane
[8] https://thehill.com/opinion/technology/5201889-government-data-is-disappearing-before-our-eyes/
#opendata #opensource #openaccess #ai #science #government #data
GitHub
GitHub - SakanaAI/AI-Scientist: The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬
The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery 🧑🔬 - SakanaAI/AI-Scientist
По поводу новости о Национальной базе генетической информации [1] и о том как она будет устроена. Я вот ещё на первых новостях о её появлении пытался найти хотя бы страницу с описанием этого проекта и хотя бы один документ, но ничего кроме постановления Пр-ва не нашёл, на сайте Курчатовского института тоже ничего не находится или ну очень глубоко спрятано, хотя казалось бы...
Поэтому вместо рассуждений о несделанном напомню про Китайский национальный центр по биоинформатики в котором хранится национальный банк генетических данных Китая. Чуть менее чем год назад там было геномных данных на 53 петабайта [2], сейчас на 68.7 петабайт [3].
Ссылки:
[1] https://www.rbc.ru/technology_and_media/24/03/2025/67dda55f9a79470f47baa7f0
[2] https://yangx.top/begtin/5954
[3] https://www.cncb.ac.cn/
#opendata #russia #china #genomics #bioinformatics
Поэтому вместо рассуждений о несделанном напомню про Китайский национальный центр по биоинформатики в котором хранится национальный банк генетических данных Китая. Чуть менее чем год назад там было геномных данных на 53 петабайта [2], сейчас на 68.7 петабайт [3].
Ссылки:
[1] https://www.rbc.ru/technology_and_media/24/03/2025/67dda55f9a79470f47baa7f0
[2] https://yangx.top/begtin/5954
[3] https://www.cncb.ac.cn/
#opendata #russia #china #genomics #bioinformatics
Forwarded from Национальный цифровой архив
Вот уже какое-то время недоступен портал Исторические материалы (istmat.org), последняя его сохранённая версия есть в Интернет Архиве на февраль 2025 года [1] и видно что ничего нового не публиковалось с ноября 2024 года.
ИстМат - это важный проект для всех историков исследователей, сообщество и библиотека с большим числом исторических документов размещённых под лицензией CC BY-SA.
Если кто-то знает что с ним случилось, временно ли он исчез или совсем, напишите нам в @ruarxivechat или @ibegtin или на почту [email protected]). Если проект закрылся, нам бы хотелось успеть его сохранить и оставить доступным хотя бы в виде архива сайта/документов.
P.S. Но хочется надеяться что он не закрыт, а это лишь временный сбой.
Ссылки:
[1] https://web.archive.org/web/20250214084718/https://istmat.org/
#digitalpreservation #archives #history
ИстМат - это важный проект для всех историков исследователей, сообщество и библиотека с большим числом исторических документов размещённых под лицензией CC BY-SA.
Если кто-то знает что с ним случилось, временно ли он исчез или совсем, напишите нам в @ruarxivechat или @ibegtin или на почту [email protected]). Если проект закрылся, нам бы хотелось успеть его сохранить и оставить доступным хотя бы в виде архива сайта/документов.
P.S. Но хочется надеяться что он не закрыт, а это лишь временный сбой.
Ссылки:
[1] https://web.archive.org/web/20250214084718/https://istmat.org/
#digitalpreservation #archives #history
Победители конкурса Open Data Armenia рассказывают о своём проекте [1]. Мне как организатору приятно что хорошие проекты подаются к нам на конкурс и побеждают и приятно что историей Армении интересуются не только армяне 🇦🇲
Я лично всё время ощущаю себя одновременно армянином, но с чувством что я недостаточно много делаю для своей второй родины.
Ощущаю свой вклад через такие конкурсы и то что создали и развиваем Open Data Armenia (@opendataam).
Ссылки:
[1] https://www.linkedin.com/posts/karasu_armenia-during-tigranes-the-great-activity-7302251419477168129-Zf2K/
#opendata #armenia #digitalhumanities
Я лично всё время ощущаю себя одновременно армянином, но с чувством что я недостаточно много делаю для своей второй родины.
Ощущаю свой вклад через такие конкурсы и то что создали и развиваем Open Data Armenia (@opendataam).
Ссылки:
[1] https://www.linkedin.com/posts/karasu_armenia-during-tigranes-the-great-activity-7302251419477168129-Zf2K/
#opendata #armenia #digitalhumanities
Please open Telegram to view this post
VIEW IN TELEGRAM
Marimo [1] альтернатива Jupyter Notebook по созданию аналитических и научных тетрадок. Среди многих альтернатив отличается наличием открытого кода под лицензией Apache 2.0. Даёт некоторое число фич которых нет у Jupyter, например, встраивание UI элементов, ячейки с SQL, визуализации и ряд других фич.
Конечно, объективно, сравнивать надо не только с Jupyter, но и с Deepnote, Hex, Google Collab, но те врядли будут доступны с исходным кодом.
Ссылки:
[1] https://marimo.io
#opensource #datascience #data #datatools
Конечно, объективно, сравнивать надо не только с Jupyter, но и с Deepnote, Hex, Google Collab, но те врядли будут доступны с исходным кодом.
Ссылки:
[1] https://marimo.io
#opensource #datascience #data #datatools
В 404media статья [1] за пэйволом и подскаст [2] о том что иммиграционная служба США наняла подрядчика ShadowDragon который занимается OSINT по паре сотен сайтов социальных сетей, шоппинга и тд. для идентификации активности мигрантов. В фонде Mozilla уже объявили кампанию [3] сбора подписей против такой слежки и приводят список из этих 200+ сайтов [4].
Про ShadowDragon [5] мне лично мало что известно, на их сайте есть краткое, нетехническое описание их продуктов которые, в основном, про кибербезопасность и OSINT в глобальных расследованиях.
В целом же новость такая что сложно быть безучастным. В том что правоохранительные органы имеют возможность формировать профили пользователей давно нет сомнений, в том что массовая слежка присутствует тоже общеизвестно, но привлечение OSINT компании и сбор данных из коммерческих сервисов - это не то чтобы новое, но нечасто выплывает наружу.
Ссылки:
[1] https://www.404media.co/the-200-sites-an-ice-surveillance-contractor-is-monitoring/
[2] https://www.404media.co/podcast-the-websites-an-ice-contractor-is-monitoring/
[3] https://foundation.mozilla.org/en/campaigns/no-data-for-surveillance-tech/
[4] https://docs.google.com/spreadsheets/d/1VyAaJaWCutyJyMiTXuDH4D_HHefoYxnbGL9l02kyCus/edit?ref=404media.co&gid=0#gid=0
[5] https://shadowdragon.io/
#privacy #osint #usa #immigration #masssurveillance
Про ShadowDragon [5] мне лично мало что известно, на их сайте есть краткое, нетехническое описание их продуктов которые, в основном, про кибербезопасность и OSINT в глобальных расследованиях.
В целом же новость такая что сложно быть безучастным. В том что правоохранительные органы имеют возможность формировать профили пользователей давно нет сомнений, в том что массовая слежка присутствует тоже общеизвестно, но привлечение OSINT компании и сбор данных из коммерческих сервисов - это не то чтобы новое, но нечасто выплывает наружу.
Ссылки:
[1] https://www.404media.co/the-200-sites-an-ice-surveillance-contractor-is-monitoring/
[2] https://www.404media.co/podcast-the-websites-an-ice-contractor-is-monitoring/
[3] https://foundation.mozilla.org/en/campaigns/no-data-for-surveillance-tech/
[4] https://docs.google.com/spreadsheets/d/1VyAaJaWCutyJyMiTXuDH4D_HHefoYxnbGL9l02kyCus/edit?ref=404media.co&gid=0#gid=0
[5] https://shadowdragon.io/
#privacy #osint #usa #immigration #masssurveillance
404 Media
The 200+ Sites an ICE Surveillance Contractor is Monitoring
404 Media has obtained the list of sites and services that ICE contractor ShadowDragon pulls data from. ShadowDragon sources data from all over the web and lets government analysts easily search it and draw connections between people.
У Benn Stancil очередная замечательная заметка Most graduate degrees in analytics are scams [1] на более чем актуальную тему - многочисленных магистерских программ по аналитике (применительно к данным) в колледжах и университетах. Он сам и ему в комментариях там набрасывают немало инсайтов почему эти магистерские дипломы никак не влияют на привлекательность человека на рынке или влияют в обратную сторону и являются "красным флажком".
Ключевое в его посыле в том что академические программы по дата аналитике учат тому как работать сложными методами с очень простыми и лёгкими данными в том время как в реальной жизни всё наоборот, ты работаешь очень простыми методами с очень сложными данными. Сложными во всех смыслах: собрать, связать, очистить, ощутить неполноту не поддающуюся исправлениям и тд. Причём сложная математика, за очень и очень редким исключением, возникает только в data science, а сложные методы почти вообще никогда.
И там же у него о том почему стартапы ищут тех кто поступил в Гарвард или Стенфорд, но их не волнует учился ли там человек далее, потому что экзамен в эти университеты - это как IQ тест, говорит о человеке больше чем готовность учиться далее.
И наконец, как правильно пишет один из комментаторов, слишком часто люди отучившиеся по магистерским программам по аналитике теряют профессиональное любопытство. Это нормально для некоторых профессий, но не в IT, и не в аналитике в частности где всё довольно быстро меняется.
У Benn'а много хороших текстов и это один из них, стоит почитать хотя бы чтобы просто подумать над этой темой.
Что я могу добавить так это то что хуже чем магистерские программы - это многочисленные курсы по аналитике продаваемые под соусом "увеличь свою зарплату в 4 раза". В них есть худшее от обоих миров, это про обучение как работать с очень простыми данными очень простыми методами. Чем более массовыми такие курсы являются, тем больше они являются красными флажками для любого профессионального работодателя.
Потому что их прохождение говорит следующее:
1. Вас можно обмануть заманухой о быстром повышении зарплаты через явный скам.
2. Вы готовы потратить много времени на курс по которому можно было бы учиться самостоятельно, открытых материалов множество
У Benn'а есть совет в том что важнее взять данные которые реально вам интересны и сделать самостоятельную аналитику на их основе, копаясь в них до тех пока пока не найдётся нечто реально интересное.
Я к этому совету готов присоединится и усилить. Индустриальный опыт и любопытство в работе с данными в резюме и собеседовании значительно превосходят почти любое образование и курсы.
Ссылки:
[1] https://benn.substack.com/p/most-graduate-degrees-in-analytics
#it #dataanalytics #data #thoughts
Ключевое в его посыле в том что академические программы по дата аналитике учат тому как работать сложными методами с очень простыми и лёгкими данными в том время как в реальной жизни всё наоборот, ты работаешь очень простыми методами с очень сложными данными. Сложными во всех смыслах: собрать, связать, очистить, ощутить неполноту не поддающуюся исправлениям и тд. Причём сложная математика, за очень и очень редким исключением, возникает только в data science, а сложные методы почти вообще никогда.
И там же у него о том почему стартапы ищут тех кто поступил в Гарвард или Стенфорд, но их не волнует учился ли там человек далее, потому что экзамен в эти университеты - это как IQ тест, говорит о человеке больше чем готовность учиться далее.
И наконец, как правильно пишет один из комментаторов, слишком часто люди отучившиеся по магистерским программам по аналитике теряют профессиональное любопытство. Это нормально для некоторых профессий, но не в IT, и не в аналитике в частности где всё довольно быстро меняется.
У Benn'а много хороших текстов и это один из них, стоит почитать хотя бы чтобы просто подумать над этой темой.
Что я могу добавить так это то что хуже чем магистерские программы - это многочисленные курсы по аналитике продаваемые под соусом "увеличь свою зарплату в 4 раза". В них есть худшее от обоих миров, это про обучение как работать с очень простыми данными очень простыми методами. Чем более массовыми такие курсы являются, тем больше они являются красными флажками для любого профессионального работодателя.
Потому что их прохождение говорит следующее:
1. Вас можно обмануть заманухой о быстром повышении зарплаты через явный скам.
2. Вы готовы потратить много времени на курс по которому можно было бы учиться самостоятельно, открытых материалов множество
У Benn'а есть совет в том что важнее взять данные которые реально вам интересны и сделать самостоятельную аналитику на их основе, копаясь в них до тех пока пока не найдётся нечто реально интересное.
Я к этому совету готов присоединится и усилить. Индустриальный опыт и любопытство в работе с данными в резюме и собеседовании значительно превосходят почти любое образование и курсы.
Ссылки:
[1] https://benn.substack.com/p/most-graduate-degrees-in-analytics
#it #dataanalytics #data #thoughts
Substack
Most graduate degrees in analytics are scams
A true American hustle. Plus, more White Lotus Power Rankings.
Имеет ли значение образование и оконченные курсы в резюме дата аналитика? (один вариант ответа)
Anonymous Poll
31%
Да, это полезно
9%
Магистратура важна, курсы нет
2%
Курсы важны, магистратура нет
10%
Нет, не имеет значение
2%
Все они отрицательное значение имеют, красный флажок в резюме
4%
Курсы - это красный флажок
0%
Магистратура - это красный флажок
2%
Приходите к нам учиться у нас отличный курс... напишу в комментарии
40%
Ничего в этом не понимаю, хочу ответы посмотреть
В США была расформирована команда 18F [1] [2] - это была уникальная по функциям ИТ команда, работавшая в Госдепартаменте в режиме инсорсинга, а то есть они не были сотрудниками господрядчиков и имели прямые многолетние контракты. Особенность 18F была в функциях пожарной команды. Когда у них были и постоянные задачи помощи отдельным агентствам и срочные задачи когда они спасали конкретные федеральные департаменты от ИТ провалов. Например, история с 3-х дневным проектом которая спасла $500 миллионный проект Департамента обороны [2].
Вообще только очень крупные компании или гос-ва могут себе позволить такие "пожарные команды", то что Элон Маск и DOGE инициировали их роспуск было поскольку их считали слишком либеральными из-за больших усилий по комфортности работы для меньшинств и инклюзивности в работе.
В любом случае теперь этой команды нет, остался их открытый код [3], который, возможно, стоило бы заархивировать.
Ссылки:
[1] https://donmoynihan.substack.com/p/skilled-technologists-are-being-forced
[2] https://substack.com/home/post/p-158259375
[3] https://github.com/18F
#opensource #usa #18F
Вообще только очень крупные компании или гос-ва могут себе позволить такие "пожарные команды", то что Элон Маск и DOGE инициировали их роспуск было поскольку их считали слишком либеральными из-за больших усилий по комфортности работы для меньшинств и инклюзивности в работе.
В любом случае теперь этой команды нет, остался их открытый код [3], который, возможно, стоило бы заархивировать.
Ссылки:
[1] https://donmoynihan.substack.com/p/skilled-technologists-are-being-forced
[2] https://substack.com/home/post/p-158259375
[3] https://github.com/18F
#opensource #usa #18F
Substack
Skilled technologists are being forced out of government
18F and USDS are gutted by DOGE
This media is not supported in your browser
VIEW IN TELEGRAM
Прекрасная визуализация When You Will Die на Flowing Data шанса прожить следующий год [1] в зависимости от возраста и пола.
Тут надо оговорится что это данные для мирного времени и для США, а для других стран и в другом состоянии статистика может быть совершенно иной.
Тем не менее, и по смыслу, и по форме хорошая подача. Там же в заметки источники данных
Ссылки:
[1] https://flowingdata.com/projects/2025/when-die/
#dataviz #lifeanddeath
Тут надо оговорится что это данные для мирного времени и для США, а для других стран и в другом состоянии статистика может быть совершенно иной.
Тем не менее, и по смыслу, и по форме хорошая подача. Там же в заметки источники данных
Ссылки:
[1] https://flowingdata.com/projects/2025/when-die/
#dataviz #lifeanddeath
Для тех кто пользуется или планирует пользоваться DuckDB я закинул в рассылку подборку ограничений и особенностей применения из личного опыта.
На удивление их не так много, но знать их важно. Важно помнить что DuckDB это не только и столько инструмент хранения данных, сколько инструмент обработки данных и запросов к условно любым данным.
#duckdb #rdbms #datatools
На удивление их не так много, но знать их важно. Важно помнить что DuckDB это не только и столько инструмент хранения данных, сколько инструмент обработки данных и запросов к условно любым данным.
#duckdb #rdbms #datatools
Substack
DuckDB на практике. Ограничения о которых важно знать
Я много пишу о DuckDB, особенно у себя в телеграм канале и не просто так, ведь DuckDB - это реально удобный и инструмент значительно упрощающий работу с большими базами данных на десктопах.
Для тех кто работает с CSV файлами, неплохой и даже немного смешной текст A love letter to the CSV format [1] где автор рассуждает и расхваливает преимущества CSV формата для данных и аргументы его неплохи, но... лично мне недостатки не перевешивают. На его 9 пунктов я могу пару десятков пунктов написать о недостатках CSV, но плюсы тоже есть, чего уж тут скрывать. И, правильнее сказать что не один автор, а авторы, создатели утилиты xan, the CSV magician [2] для обработки CSV файлов.
Утилита эта является переписанной и переработой утилиты xsv [3] и позволяет вытворять самое разное с CSV файлами, включая визуализации, параллельную обработку, просмотр с командной строки и ещё многое другое.
Хороший инструмент, у него только один недостаток, он работает только с CSV файлами😂
Для тех кто любит командную строку и CSV формат - незаменимая штука.
Ссылки:
[1] https://github.com/medialab/xan/blob/master/docs/LOVE_LETTER.md
[2] https://github.com/medialab/xan
[3] https://github.com/BurntSushi/xsv
#opensource #data #datatools
Утилита эта является переписанной и переработой утилиты xsv [3] и позволяет вытворять самое разное с CSV файлами, включая визуализации, параллельную обработку, просмотр с командной строки и ещё многое другое.
Хороший инструмент, у него только один недостаток, он работает только с CSV файлами😂
Для тех кто любит командную строку и CSV формат - незаменимая штука.
Ссылки:
[1] https://github.com/medialab/xan/blob/master/docs/LOVE_LETTER.md
[2] https://github.com/medialab/xan
[3] https://github.com/BurntSushi/xsv
#opensource #data #datatools
Полезные ссылки про данные, технологии и не только:
- DuckDB Roadmap [1] команда DuckDB опубликовала дорожную карту. Много любопытного, обещают шифрование базы данных в будущем, поддержку парсинга XML
- FastOpenAPI [2] библиотека для Python для быстрого создания документации и схемы API по стандарту OpenAPI. Поддерживает Flask, Falcon, Starlette, Sanic и Tornado. Полезно для очень быстрого развертывания API с помощью Python.
- CSVConf [3] пройдёт в сентябре 2025 года в Болонье, Италия. Это конференция больше про сообщество чем про индустрию, там про применение данных в исследованиях и гражданском обществе. Ещё есть время подать заявку на выступление [4]
- Streamlining access to tabular datasets stored in Amazon S3 Tables with DuckDB [5] в блоге Amazon о том как настраивать хранилище файлов для прямого доступа к S3 таблицам через DuckDB.
- Unstructuted [6] open source и SaaS сервис для обработки данных через извлечение их из PDF, HTML, Word и других документов. Интересная бизнес модель, открытый код доступен, а через его же библиотеку и утилиту командной строки можно подключить аккаунт их облачного продукта и преобразовывать данные быстрее с его помощью. Такая бизнес модель аллергии не вызывает, похоже на хороший, годный продукт.
Ссылки:
[1] https://duckdb.org/docs/stable/dev/roadmap.html
[2] https://github.com/mr-fatalyst/fastopenapi
[3] https://csvconf.com/
[4] https://docs.google.com/forms/d/e/1FAIpQLSdoCI37INVkMMI3tcRLJ5dr2Lfrd86TqH_NjvhT02xoSUMYmw/viewform
[5] https://aws.amazon.com/ru/blogs/storage/streamlining-access-to-tabular-datasets-stored-in-amazon-s3-tables-with-duckdb/
[6] https://github.com/Unstructured-IO/unstructured
#opensource #data #datatools
- DuckDB Roadmap [1] команда DuckDB опубликовала дорожную карту. Много любопытного, обещают шифрование базы данных в будущем, поддержку парсинга XML
- FastOpenAPI [2] библиотека для Python для быстрого создания документации и схемы API по стандарту OpenAPI. Поддерживает Flask, Falcon, Starlette, Sanic и Tornado. Полезно для очень быстрого развертывания API с помощью Python.
- CSVConf [3] пройдёт в сентябре 2025 года в Болонье, Италия. Это конференция больше про сообщество чем про индустрию, там про применение данных в исследованиях и гражданском обществе. Ещё есть время подать заявку на выступление [4]
- Streamlining access to tabular datasets stored in Amazon S3 Tables with DuckDB [5] в блоге Amazon о том как настраивать хранилище файлов для прямого доступа к S3 таблицам через DuckDB.
- Unstructuted [6] open source и SaaS сервис для обработки данных через извлечение их из PDF, HTML, Word и других документов. Интересная бизнес модель, открытый код доступен, а через его же библиотеку и утилиту командной строки можно подключить аккаунт их облачного продукта и преобразовывать данные быстрее с его помощью. Такая бизнес модель аллергии не вызывает, похоже на хороший, годный продукт.
Ссылки:
[1] https://duckdb.org/docs/stable/dev/roadmap.html
[2] https://github.com/mr-fatalyst/fastopenapi
[3] https://csvconf.com/
[4] https://docs.google.com/forms/d/e/1FAIpQLSdoCI37INVkMMI3tcRLJ5dr2Lfrd86TqH_NjvhT02xoSUMYmw/viewform
[5] https://aws.amazon.com/ru/blogs/storage/streamlining-access-to-tabular-datasets-stored-in-amazon-s3-tables-with-duckdb/
[6] https://github.com/Unstructured-IO/unstructured
#opensource #data #datatools
DuckDB
Development Roadmap
Overview The DuckDB project is governed by the non-profit DuckDB Foundation. The Foundation and DuckDB Labs are not funded by external investors (e.g., venture capital). Instead, the Foundation is funded by contributions from its members, while DuckDB Labs'…
В ответ на список любви к CSV формату, я напишу свои 5 пунктов в пользу формата данных Parquet:
1. Parquet гораздо компактнее CSV и других форматов которые в него преобразуют, даже если они сжаты. Колоночное сжатие в Parquet работает гораздо эффективнее и это особенно ярко ощущается на денормализованных данных, например, статпоказателях в формате плоских файлов в режиме "1 строка=1 значение".
2. Parquet позволяет работать с данными как с базами данных позволяя на недорогих устройствах работать с данными большого объёма и быстро выполнять аналитические запросы.
3. Parquet имеет строгую схему описания и хорошую типизацию полей, а большая часть инструментов по работе с ним умеют определять типы данных динамически при создании Parquet файлов.
4. Parquet может иметь вложенные объекты в отличие от CSV файлов в Parquet есть возможность хранить структурированные вложенные объекты и Parquet файлы могут создаваться на базе JSON / NDJSON / JSON lines файлов
5. Все современные аналитические инструменты работы с данными умеют работать с этим форматом это Pandas, Polars, Clickhouse, DuckDB и многие другие. Новые инструменты появляются ежегодно и работают всё более производительно.
#data #dataformats #csv #parquet
1. Parquet гораздо компактнее CSV и других форматов которые в него преобразуют, даже если они сжаты. Колоночное сжатие в Parquet работает гораздо эффективнее и это особенно ярко ощущается на денормализованных данных, например, статпоказателях в формате плоских файлов в режиме "1 строка=1 значение".
2. Parquet позволяет работать с данными как с базами данных позволяя на недорогих устройствах работать с данными большого объёма и быстро выполнять аналитические запросы.
3. Parquet имеет строгую схему описания и хорошую типизацию полей, а большая часть инструментов по работе с ним умеют определять типы данных динамически при создании Parquet файлов.
4. Parquet может иметь вложенные объекты в отличие от CSV файлов в Parquet есть возможность хранить структурированные вложенные объекты и Parquet файлы могут создаваться на базе JSON / NDJSON / JSON lines файлов
5. Все современные аналитические инструменты работы с данными умеют работать с этим форматом это Pandas, Polars, Clickhouse, DuckDB и многие другие. Новые инструменты появляются ежегодно и работают всё более производительно.
#data #dataformats #csv #parquet
Сижу читаю резюме что нам присылают на вакансию дата инженера в Инфокультуре, и схожая потребность с акцентом на AI есть у нас в Dateno, читаю посты разных близких и дальних знакомых про поиск работы для тех кто overqualified (не могу по русски подобрать точный перевод) и волей-не волей задумываюсь о том как поменялся рынок труда за эти годы.
Меня это всё наводит на следующие мысли:
1. Люди без навыков научились писать резюме и себя продавать, а люди с навыками чаще нет чем да. Но, на самом деле, рецепт хорошего резюме очень просто. Это 1 страница, последний работодатель, навыки, хобби. В работах на последнего работодателя кратко пунктами самые сложные задачи которые приходилось решать. И всё. По опыту чтения резюме скажу что такая форма не остаётся незамеченной. Больше 2-х страниц имеет смысл только если у 10+ лет опыта, претендуете на серьёзные позиции, скорее руководящие.
2. По ощущением многие кто жалуются что их не берут из-за того что они overqualified пропустили тот момент когда надо было уходить в открытие своего дела, консалтинг и тд. Вообще же когда квалифицированный человек ищет работу ниже своей квалификации, конечно, это вызывает резонные вопросы, "как так получилось?".
3. В ИТ сфере, могу сказать как работодатель, все вот эти курсы типа SkillBox, SkillFactory, это даже не флажок, а как красная тряпка. Разного рода развлекательных курсов стало дофига и цели большинства - выжать денег из тех кто сомневается в себе. Эксплуатация неуверенности в себе, без итоговой пользы. Если Вы их проходили чисто для себя, не забывайте что это не плюс в резюме для серьёзных работодателей.
4. Если разработчик ищет работу без профиля на Github/Gitlab с хотя бы несколькими хорошо оформленными репозиториями, то он не ищет работу, а симулирует ну или чем-то другим не очень приличным занимается. Потому что даже если твои последние 5+ лет работы были насекретных проектах по разработке AI вирусов для анальных зондов инопланетных захватчиков/ законспирированных разведчиков в непубличных проектах, не требуется много времени чтобы сделать личный пэт-проект и показать владение инструментами и понимание основ оформления кода.
И, наконец, именно в ИТ профильное образование критично и важно только от ограниченного числа ведущих универов. В остальных случаях при наличии индустриального опыта образование очень вторично.
#thoughts #it #jobs
Меня это всё наводит на следующие мысли:
1. Люди без навыков научились писать резюме и себя продавать, а люди с навыками чаще нет чем да. Но, на самом деле, рецепт хорошего резюме очень просто. Это 1 страница, последний работодатель, навыки, хобби. В работах на последнего работодателя кратко пунктами самые сложные задачи которые приходилось решать. И всё. По опыту чтения резюме скажу что такая форма не остаётся незамеченной. Больше 2-х страниц имеет смысл только если у 10+ лет опыта, претендуете на серьёзные позиции, скорее руководящие.
2. По ощущением многие кто жалуются что их не берут из-за того что они overqualified пропустили тот момент когда надо было уходить в открытие своего дела, консалтинг и тд. Вообще же когда квалифицированный человек ищет работу ниже своей квалификации, конечно, это вызывает резонные вопросы, "как так получилось?".
3. В ИТ сфере, могу сказать как работодатель, все вот эти курсы типа SkillBox, SkillFactory, это даже не флажок, а как красная тряпка. Разного рода развлекательных курсов стало дофига и цели большинства - выжать денег из тех кто сомневается в себе. Эксплуатация неуверенности в себе, без итоговой пользы. Если Вы их проходили чисто для себя, не забывайте что это не плюс в резюме для серьёзных работодателей.
4. Если разработчик ищет работу без профиля на Github/Gitlab с хотя бы несколькими хорошо оформленными репозиториями, то он не ищет работу, а симулирует ну или чем-то другим не очень приличным занимается. Потому что даже если твои последние 5+ лет работы были на
И, наконец, именно в ИТ профильное образование критично и важно только от ограниченного числа ведущих универов. В остальных случаях при наличии индустриального опыта образование очень вторично.
#thoughts #it #jobs