Ivan Begtin
8.01K subscribers
1.94K photos
3 videos
101 files
4.64K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
加入频道
Андрей Анненков на D-Russia хорошо пишет [1] про ФГИС для удовлетворения... культурно-языковых потребностей. Почитайте, там много разумного и всё по делу. Лично я стараюсь всё меньше комментировать российскую внутреннюю автоматизацию без контекста того что происходит в других странах.

Так что я добавлю следующее:
1. В мире много инициатив по сохранению лингистических и культурных-языковых материалов, включая онлайн словари и не исключая сервисы проверки языка на простоту, понятность и так далее.
2. Из наиболее заметных я бы выделил PlainLanguage.gov госпроект в США с инструкциями и материалами о том как чиновникам писать тексты просто, ясно, понятно и грамотно. Ничего сверхвеликого в нём нёт, но всё разумно.
3. Другой пример - это европейский проект CLARIN, вернее множество проектов с более чем 900 тысячами языковых ресурсов для работы профессиональных лингвистов. Их аудитория не массовая, но профессиональная, зато вовлеченная в создание текстовых ресурсов для обучения ИИ, к примеру.
4. Практически всё что создаётся в рамках этой ФГИС можно заменить на создание наборов данных. Там нет ничего, я ещё раз подчеркну, ничего ценного кроме этого. Если бы датасеты словарей были доступны и обновлялись бы не раз в 5 лет, а раз в месяц, то поверьте нашлись бы команды которые бы интегрировали эти данные и сделали бы удобные интерфейсы в некоммерческих и коммерческих продуктах.
5. Давайте опишу альтернативный сценарий. Выложить данные датасетами на портале data.gov.ru, на сайте правительства, да где угодно и через Фонд Президентских грантов раздать гранты для исследователей.
6. В целом все что там описано модулями - это не модули, а открытые исследовательские или открытые образовательные ресурсы. Вернее это то как это должно быть
7. Не могу не напомнить о том о чём я писал 2.5 года назад, о новой языковой экономике в Испании [2]. Если кратко, то испанское правительство вкладывает реально огромные деньги в открытые языковые ресурсы, датасеты, модели, исследования. Примеры результатов? Языковые корпусы выложенные в Hugging Face
8. И, немаловажно, что в России языковые ресурсы созданные за деньги государства все являются закрытыми. Национальный корпус русского языка [3] вынесен в отдельное НКО, хотя и разрабатывался преимущественно за бюджетные средства, на нём нет открытых данных, нет открытого API, нет свободного использования, а если он уже окончательно стал коммерческим, то нет инвестиций государства в создание открытых альтернатив.

Даже не знаю что добавить, выводы можно сделать самостоятельно.

Ссылки:
[1] https://d-russia.ru/fgis-dlja-udovletvorenija-kulturno-jazykovyh-potrebnostej.html
[2] https://yangx.top/begtin/4157
[3] https://ruscorpora.ru

#opendata #russia #spending #language #russianlanguage