Проект OpenRefine, бесплатный инструмент с открытым кодом по обработке и очистке данных некогда выделенный Google как Google Refine, а далее перешедший в свободное плавание теперь получил грант на 200 тысяч долларов США от фонда Чан-Цукерберг [1]. Много это или мало? Для небольшого некоммерческого проекта - много, для стартапа - очень мало.
Грант предоставляется на две цели:
- развитие сообщества вокруг OpenRefine, для привлечения разработчиков контрибьюторов кода
- переделка ядра продукта и архитектуры инструмента для поддержки датасетов большего объёма и улучшения потоков данных.
Подробнее в их заявке на грант [2]
Этот и многие другие проекты поддержаны в рамках грантового конкурса Essential Open Source Software for Science [3] где более чем 32 проекта ориентированных на решение научных задач и все они обязательно с открытым кодом.
Оборотная сторона, позитивная сторона, ИТ гигантов и дата корпораций в том что почти весь мир использует, например, код Apache Foundation [4] или Numfocus [5] финансируемыеза счёт их поддержкии многие другие фонды открытого кода существуют на схожих принципах.
Ссылки:
[1] http://openrefine.org/blog/2019/11/14/czi-eoss.html
[2] http://openrefine.org/images/czi-eoss-proposal.pdf
[3] https://chanzuckerberg.com/eoss/proposals/
[4] https://www.apache.org/foundation/thanks
[5] https://numfocus.org/
#opensource #data #openrefine
Грант предоставляется на две цели:
- развитие сообщества вокруг OpenRefine, для привлечения разработчиков контрибьюторов кода
- переделка ядра продукта и архитектуры инструмента для поддержки датасетов большего объёма и улучшения потоков данных.
Подробнее в их заявке на грант [2]
Этот и многие другие проекты поддержаны в рамках грантового конкурса Essential Open Source Software for Science [3] где более чем 32 проекта ориентированных на решение научных задач и все они обязательно с открытым кодом.
Оборотная сторона, позитивная сторона, ИТ гигантов и дата корпораций в том что почти весь мир использует, например, код Apache Foundation [4] или Numfocus [5] финансируемыеза счёт их поддержкии многие другие фонды открытого кода существуют на схожих принципах.
Ссылки:
[1] http://openrefine.org/blog/2019/11/14/czi-eoss.html
[2] http://openrefine.org/images/czi-eoss-proposal.pdf
[3] https://chanzuckerberg.com/eoss/proposals/
[4] https://www.apache.org/foundation/thanks
[5] https://numfocus.org/
#opensource #data #openrefine
Для тех кто хочет сделать полезное в открытых данных, имеет свободное время и свободный английский - проект OpenRefine ищет специалиста/команду/компанию тех кто создаст им документацию по продукту [1]
В общей сложности они хотят сделать эту работу за 6 месяцев и 25 000 USD (примерно 1,86 миллиона рублей). Финансируется проект полностью из грантовых источников нескольких фондов Кремниевой долины. В частности из фонда Чан-Цукерберг по поддержке науки.
OpenRefine хороший проект, важная часть многих академических проектов по созданию инфраструктуры данных. Например, они активно используются в австралийском Data61 CSIRO. Однако у команды которая им занималась с самого начала не задалась коммерциализация и попытки создать онлайн сервис для Data wrangling (Манипулирования данными) не увенчались успехом. Сейчас они все ещё предлагают услуги в виде компании RefinePro [2], но не то чтобы заметны на рынке.
Сам проект происходит из когда-то выложенного в виде открытого кода проекта Google Refine [3]. Ранее он был разработан в Metaweb , компании занимавшейся проектом Freebase, пожалуй, одним из наиболее успешных стартапов занимавшихся связанными данными и выкупленной Google в 2010 году.
Ссылки:
[1] http://openrefine.org/blog/2020/04/23/documentation-hire.html
[2] https://refinepro.com
[3] https://en.wikipedia.org/wiki/OpenRefine
#opendata #openrefine #datajobs
В общей сложности они хотят сделать эту работу за 6 месяцев и 25 000 USD (примерно 1,86 миллиона рублей). Финансируется проект полностью из грантовых источников нескольких фондов Кремниевой долины. В частности из фонда Чан-Цукерберг по поддержке науки.
OpenRefine хороший проект, важная часть многих академических проектов по созданию инфраструктуры данных. Например, они активно используются в австралийском Data61 CSIRO. Однако у команды которая им занималась с самого начала не задалась коммерциализация и попытки создать онлайн сервис для Data wrangling (Манипулирования данными) не увенчались успехом. Сейчас они все ещё предлагают услуги в виде компании RefinePro [2], но не то чтобы заметны на рынке.
Сам проект происходит из когда-то выложенного в виде открытого кода проекта Google Refine [3]. Ранее он был разработан в Metaweb , компании занимавшейся проектом Freebase, пожалуй, одним из наиболее успешных стартапов занимавшихся связанными данными и выкупленной Google в 2010 году.
Ссылки:
[1] http://openrefine.org/blog/2020/04/23/documentation-hire.html
[2] https://refinepro.com
[3] https://en.wikipedia.org/wiki/OpenRefine
#opendata #openrefine #datajobs
RefinePro
At RefinePro, we help organization to automate processes and create new products, services, and insights.
К вопросу о том почему я лично пишу про Polars, DuckDb, а теперь ещё и присматриваюсь к chDb, потому что в моей работе есть частые задачи с очисткой и обработкой данных. В принципе, чем бы я в жизни не занимался, читал лекции, делал презентации, программировал и тд., всегда есть задача чистки данных.
Есть много способов чистить данные с помощью кода, есть хороший инструмент OpenRefine [1] известный многим кто с открытыми данными работает. Но, честно скажу, в плане скорости, но не удобства, к примеру, DuckDB бьёт все рекорды. Главный недостаток - отсутствие удобного UI аналогичного OpenRefine или то что в OpenRefine нельзя, к примеру, заменить его движок на DuckDb.
В остальном это реально очень быстро. И работать с локально с многогигабайтными датасетами и в миллионы и десятки миллионов записей - вполне реально. Для сравнения, OpenRefine у меня едва-едва тянет базу в 100 тысяч записей в 680 MB.
Использовать это можно много где. К примеру, датасет от мусорных записей, найти и удалить персональные данные, обогатить дополнительными данными на основе текущий значений столбцов, исправить ошибки в данных и многое другое.
В общем-то на базе DuckDB и, скорее всего, chDb можно построить полноценную дата-студию по приведению данных в порядок перед загрузкой в хранилище. Опять же, если иметь полноценный веб интерфейс поверх.
Такие инструменты хорошо встраиваются как ядро более прикладных дата-продуктов.
Ссылки:
[1] https://openrefine.org
#data #datatools #thoughts #duckdb #openrefine
Есть много способов чистить данные с помощью кода, есть хороший инструмент OpenRefine [1] известный многим кто с открытыми данными работает. Но, честно скажу, в плане скорости, но не удобства, к примеру, DuckDB бьёт все рекорды. Главный недостаток - отсутствие удобного UI аналогичного OpenRefine или то что в OpenRefine нельзя, к примеру, заменить его движок на DuckDb.
В остальном это реально очень быстро. И работать с локально с многогигабайтными датасетами и в миллионы и десятки миллионов записей - вполне реально. Для сравнения, OpenRefine у меня едва-едва тянет базу в 100 тысяч записей в 680 MB.
Использовать это можно много где. К примеру, датасет от мусорных записей, найти и удалить персональные данные, обогатить дополнительными данными на основе текущий значений столбцов, исправить ошибки в данных и многое другое.
В общем-то на базе DuckDB и, скорее всего, chDb можно построить полноценную дата-студию по приведению данных в порядок перед загрузкой в хранилище. Опять же, если иметь полноценный веб интерфейс поверх.
Такие инструменты хорошо встраиваются как ядро более прикладных дата-продуктов.
Ссылки:
[1] https://openrefine.org
#data #datatools #thoughts #duckdb #openrefine
👍10❤1
Наверняка многие слышали про компанию Sweet Baby Inc. консультирующую компании из игровой индустрии и благодаря которой многие персонажи в играх и многие сюжеты перерабатывались для соответствия общественной повестке, DEI (Diversity, Equity, Inclusion) и избегания стереотипов. Про скандалы вокруг Sweet Baby Inc. можно почитать в большом количестве в массовой прессе.
Честно говоря я думал что софтверную индустрию "общественная повестка", пока что, обходила стороной, но недавно увидел у проекта OpenRefine [1] (open-source инструмент для очистки данных) обновлённый документ с видением, миссией и ценностями [2] в котором первым пунктом ценностей идёт Respectful of Diverse Backgrounds & Expertise который дословно звучит как:
Честно говоря немало удивившись я поискал откуда это взялось и нашёл что этот документ готовили им консультанты из Bocoup [3], консалтеров по инклюзивности.
Особенность в том что OpenRefine - это узкоспециализированный продукт для дата аналитиков, что тут можно придумать для "инклюзивности" и тд. я с трудом себе представляю.
Начало ли это конца для OpenRefine или, наоборот, больше ПО должны следовать "общественной повестке" ?
Что хорошо так то что программные продукты, в отличие от игр, не так просто испортить нарративом. Что плохо, это если тренд этот продолжится, то это будет всё большая не-нейтральность ИТ индустрии и ИТ продуктов.
А что вы думаете?
Ссылки:
[1] https://openrefine.org
[2] https://docs.google.com/document/d/18Jfrrx4dFLM6_1iHwCwJovFKyPESEZhGHekfcJxrVN8/edit?tab=t.0#heading=h.nz2tqzg16y22
[3] https://www.bocoup.com
#openrefine #agenda #opensource
Честно говоря я думал что софтверную индустрию "общественная повестка", пока что, обходила стороной, но недавно увидел у проекта OpenRefine [1] (open-source инструмент для очистки данных) обновлённый документ с видением, миссией и ценностями [2] в котором первым пунктом ценностей идёт Respectful of Diverse Backgrounds & Expertise который дословно звучит как:
We celebrate that people come to the OpenRefine tool and community from varying backgrounds, identities, technical abilities, privileges, industries, linguistic backgrounds, and more. We honor the diverse experiences and expertise of our users and contributors and aim to develop features and training that encourage and nourish diverse engagement with the tool, prioritizing accessibility and usability to broaden reach and impact.
Честно говоря немало удивившись я поискал откуда это взялось и нашёл что этот документ готовили им консультанты из Bocoup [3], консалтеров по инклюзивности.
Особенность в том что OpenRefine - это узкоспециализированный продукт для дата аналитиков, что тут можно придумать для "инклюзивности" и тд. я с трудом себе представляю.
Начало ли это конца для OpenRefine или, наоборот, больше ПО должны следовать "общественной повестке" ?
Что хорошо так то что программные продукты, в отличие от игр, не так просто испортить нарративом. Что плохо, это если тренд этот продолжится, то это будет всё большая не-нейтральность ИТ индустрии и ИТ продуктов.
А что вы думаете?
Ссылки:
[1] https://openrefine.org
[2] https://docs.google.com/document/d/18Jfrrx4dFLM6_1iHwCwJovFKyPESEZhGHekfcJxrVN8/edit?tab=t.0#heading=h.nz2tqzg16y22
[3] https://www.bocoup.com
#openrefine #agenda #opensource
👍4🔥2💊1