Forwarded from Ivan Begtin (Ivan Begtin)
Observable [1], проект красивых интерактивных записных книжек (notebooks) по визуализации данных открыли код их библиотеки кода для Javascript, Observable Plot [2] используемой ими в их проекте. Библиотека выглядит очень привлекательно, а открытый код позволяет использовать те же визуализации что в коммерческом продукте Observable.
Ссылки:
[1] https://observablehq.com/
[2] https://observablehq.com/@observablehq/plot
#opensource #datavis
Ссылки:
[1] https://observablehq.com/
[2] https://observablehq.com/@observablehq/plot
#opensource #datavis
Forwarded from Типичный программист
Авторы выложили исходники инструментария для подбора паролей по хешам L0phtCrack 7.2.0 в открытый доступ
L0phtCrack — знаменитый инструмент для аудита и взлома паролей. До 1 июля 2021 года он был доступен лишь по платной подписке, которую отменили из-за неудавшейся сделки с компанией Terahash. После возвращения прав на код авторам, они решили поделиться им с сообществом. Подготовка open source версии велась до 17 октября:
https://tprg.ru/6g4I
Интересно, что код проекта разместили не на GitHub, а на GitLab из-за неприязни разработчиков к Microsoft.
#opensource #безопаность
L0phtCrack — знаменитый инструмент для аудита и взлома паролей. До 1 июля 2021 года он был доступен лишь по платной подписке, которую отменили из-за неудавшейся сделки с компанией Terahash. После возвращения прав на код авторам, они решили поделиться им с сообществом. Подготовка open source версии велась до 17 октября:
https://tprg.ru/6g4I
Интересно, что код проекта разместили не на GitHub, а на GitLab из-за неприязни разработчиков к Microsoft.
#opensource #безопаность
Forwarded from Ivan Begtin (Ivan Begtin)
Многие разработчики возмущены появлением Github Copilot [1] и использованием их кода ИИ для написания нового кода. А, тем временем, Brendan Dolan-Gavitt из NYU Tandon School of Engineering создал его аналог с открытым кодом и который можно использовать локально. Встречаем FauxPilot [2] в основе которого модели Salesforce CodeGet [3] и NVIDIA Triton Inference Server [4].
Для работы требуется процессор NVIDIA с объёмом видеопамяти от 2ГБ и где-то до 32ГБ для самых больших языковых моделей, выбор из нескольких моделей предусмотрен.
Для тех кто хочет поработать продуктами по кодогенерации локально и сделать что-то своё и уникальное, это хороший пример того с чего можно начать и что доступно с открытым кодом.
Ссылки:
[1] https://yangx.top/begtin/4020
[2] https://github.com/moyix/fauxpilot
[3] https://github.com/salesforce/CodeGen
[4] https://developer.nvidia.com/nvidia-triton-inference-server
#opensource #github #copilot #datatools #programming #fauxpilot
Для работы требуется процессор NVIDIA с объёмом видеопамяти от 2ГБ и где-то до 32ГБ для самых больших языковых моделей, выбор из нескольких моделей предусмотрен.
Для тех кто хочет поработать продуктами по кодогенерации локально и сделать что-то своё и уникальное, это хороший пример того с чего можно начать и что доступно с открытым кодом.
Ссылки:
[1] https://yangx.top/begtin/4020
[2] https://github.com/moyix/fauxpilot
[3] https://github.com/salesforce/CodeGen
[4] https://developer.nvidia.com/nvidia-triton-inference-server
#opensource #github #copilot #datatools #programming #fauxpilot
Telegram
Ivan Begtin
Вокруг ИИ помощника по написанию кода Github Copilot разгораются нешуточные баталии [1], НКО Software Freedom Conservancy призывают всех разработчиков покинуть Github [2].
Причём корень проблемы в том что открытый код не делает ограничений на его использование…
Причём корень проблемы в том что открытый код не делает ограничений на его использование…
👍4
Forwarded from DataGym Channel [Power of data]
#opensource : RuLeanALBERT от Yandex Research
2.9B трансформер для русского, которая влезет в домашнюю ПеКарню ресерчера
Мало того, что это самая большая БЕРТ-подобная модель для русского языка, которая показывает крутые результаты в бенчмарках, так еще и с кодом для fine-tuning-а
GitHub
А в статье можете узнать, как обучалась эта модель (а-ля коллаборативное глубокое обучение) на фреймворке по децентрализованному обучению Hivemind
2.9B трансформер для русского, которая влезет в домашнюю ПеКарню ресерчера
Мало того, что это самая большая БЕРТ-подобная модель для русского языка, которая показывает крутые результаты в бенчмарках, так еще и с кодом для fine-tuning-а
GitHub
А в статье можете узнать, как обучалась эта модель (а-ля коллаборативное глубокое обучение) на фреймворке по децентрализованному обучению Hivemind
GitHub
GitHub - yandex-research/RuLeanALBERT: RuLeanALBERT is a pretrained masked language model for the Russian language that uses a…
RuLeanALBERT is a pretrained masked language model for the Russian language that uses a memory-efficient architecture. - yandex-research/RuLeanALBERT
👍3
Forwarded from Ivan Begtin (Ivan Begtin)
Полезный текст на Хабре о том что A-GPS подверглось "эмбарго" и почему смартфоны в России перестали точно определять местонахождение [1]. Главный вывод из текста можно сделать в том что это вопрос открытости даже не данных, а протоколов. Все проприетарные риски и зависимости которые были и остаются решать можно только открытостью кода, данных, интерфейсов и тд.
Но решить оно может не всё, крупнейшие естественные и неестественные монополии всё равно контролируют большую часть экосистем и технологических сервисов. История с GPS показательна, в случае сложных продуктов вводить национальные санкции необязательно, достаточно чтобы санкции соблюдали отдельные компании владеющие инфраструктурой. Примерно как история с VISA и MasterCard для финансовой инфраструктуры и похожая ситуация с Qualcomm.
Ссылки:
[1] https://habr.com/ru/post/694984/
#opensource #openprotocols #gps
Но решить оно может не всё, крупнейшие естественные и неестественные монополии всё равно контролируют большую часть экосистем и технологических сервисов. История с GPS показательна, в случае сложных продуктов вводить национальные санкции необязательно, достаточно чтобы санкции соблюдали отдельные компании владеющие инфраструктурой. Примерно как история с VISA и MasterCard для финансовой инфраструктуры и похожая ситуация с Qualcomm.
Ссылки:
[1] https://habr.com/ru/post/694984/
#opensource #openprotocols #gps
Хабр
Эмбарго на A-GPS или почему смартфоны стали плохо определять местоположение
Ориентировочно с мая 2022 года в разных темах на форуме 4PDA и других интернет-площадках начали появляться сообщения вида "Что-то смартфон стал плохо ловить спутники GPS и показывать точное...
Forwarded from Ivan Begtin (Ivan Begtin)
Полезное для тех кто постоянно работает с Pandas в наборе заметок Modern Polars [1] написанных по мотивам Modern Pandas [2]. Основная идея в том что Polars существенно быстрее и более однозначно позволяет работать с теми же данными и миграция на Polars с Pandas не является чем-то реально очень сложным. Наоборот, это довольно просто.
А также несколько полезных обзоров Polars в Towards Data Science:
- Pandas vs. Polars: A Syntax and Speed Comparison [3]
- Tips and Tricks for Working with Strings in Polars [4]
- Polars: Pandas DataFrame but Much Faster [5]
Про Polars именно сейчас особенно много пишут и как продукт он полностью подпадает под категорию
давайте сделаем продукт совместимый с продуктом лидером, но значительно быстрее.
Кроме Polars, конечно, есть ещё modin, PandaPy, datatable, Dask, PySpark, Vaex и другие. Надеюсь однажды увидеть обзор со сравнением их всех.
Ссылки։
[1] https://kevinheavey.github.io/modern-polars/
[2] https://tomaugspurger.github.io/posts/modern-8-scaling/
[3] https://towardsdatascience.com/pandas-vs-polars-a-syntax-and-speed-comparison-5aa54e27497e
[4] https://towardsdatascience.com/tips-and-tricks-for-working-with-strings-in-polars-ec6bb74aeec2
[5] https://towardsdatascience.com/pandas-dataframe-but-much-faster-f475d6be4cd4
#opensource #datatools
А также несколько полезных обзоров Polars в Towards Data Science:
- Pandas vs. Polars: A Syntax and Speed Comparison [3]
- Tips and Tricks for Working with Strings in Polars [4]
- Polars: Pandas DataFrame but Much Faster [5]
Про Polars именно сейчас особенно много пишут и как продукт он полностью подпадает под категорию
давайте сделаем продукт совместимый с продуктом лидером, но значительно быстрее.
Кроме Polars, конечно, есть ещё modin, PandaPy, datatable, Dask, PySpark, Vaex и другие. Надеюсь однажды увидеть обзор со сравнением их всех.
Ссылки։
[1] https://kevinheavey.github.io/modern-polars/
[2] https://tomaugspurger.github.io/posts/modern-8-scaling/
[3] https://towardsdatascience.com/pandas-vs-polars-a-syntax-and-speed-comparison-5aa54e27497e
[4] https://towardsdatascience.com/tips-and-tricks-for-working-with-strings-in-polars-ec6bb74aeec2
[5] https://towardsdatascience.com/pandas-dataframe-but-much-faster-f475d6be4cd4
#opensource #datatools
Modern Polars
A side-by-side comparison of the Polars and Pandas libraries.
🔥1
Forwarded from Ivan Begtin (Ivan Begtin)
По поводу того что в Минцифре анонсировали создание "российского Pornhub (простите - Github)" и то что на это будет направлено 1,3 млрд. рублей, это примерно 16 миллионов долларов США) [1] все уже по десять раз обсудили. А я вот, честно говоря, не считаю её глупой или бессмысленной, я выражу сомнения иначе. С момента запуска Github привлёк $350 миллионов долларов США [2], а его ближайший конкурент Gitlab и того больше, $413.5 миллионов долларов США [3].
Поэтому, скажу так, сравнивать национальные страновые репозитории для раскрытия кода связанного с госпроектами и компании формирующие глобальную цифровую инфраструктуру - некорректно. Корректнее сравнивать с некоторыми национальными инициативами по раскрытию государственного кода с такими как Чешский портал code.gov.cz [4], хотя в большинстве стран репозитории кода разворачиваются на базе Gitlab отдельными органами власти и синхронизуются с открытыми репозиториями на Github.
Как бы то ни было, раскрытие кода созданного по госзаказу и в рамках создания госпроектов на централизованном репозитории - это идея скорее здравая, главное чтобы тут политической воли хватило это реализовать.
Поэтому если кратко то я готов поверить что можно сделать систему раскрытия кода, но у меня есть сомнения что вот так просто получится создать сообщества разработчиков которыми являются Github и Gitlab, для этого и среда не та, и ресурсы не те.
Но я обращу внимание на другое, ведь важно не только то о чём пишут, а то что не упоминают. В истории с национальным репозиторием кода не упоминается что? Правильно, Гостех.
Хотя, казалось бы, национальный репозиторий кода - это как раз базовая государственная цифровая инфраструктура, но Гостеха тут нет, что лично для меня в очередной раз означает что Гостех сейчас, либо сливают, либо "локализуют в отдельную зону чтобы не мешал"․
Ссылки։
[1] https://www.forbes.ru/tekhnologii/486349-zamglavy-mincifry-maksim-parsin-ne-hotim-izolacii-no-nam-nuzen-svoj-repozitorij
[2] https://www.crunchbase.com/organization/github/company_financials
[3] https://www.crunchbase.com/organization/gitlab-com/company_financials
[4] https://code.gov.cz
#opensource #russia #regulation #government #code
Поэтому, скажу так, сравнивать национальные страновые репозитории для раскрытия кода связанного с госпроектами и компании формирующие глобальную цифровую инфраструктуру - некорректно. Корректнее сравнивать с некоторыми национальными инициативами по раскрытию государственного кода с такими как Чешский портал code.gov.cz [4], хотя в большинстве стран репозитории кода разворачиваются на базе Gitlab отдельными органами власти и синхронизуются с открытыми репозиториями на Github.
Как бы то ни было, раскрытие кода созданного по госзаказу и в рамках создания госпроектов на централизованном репозитории - это идея скорее здравая, главное чтобы тут политической воли хватило это реализовать.
Поэтому если кратко то я готов поверить что можно сделать систему раскрытия кода, но у меня есть сомнения что вот так просто получится создать сообщества разработчиков которыми являются Github и Gitlab, для этого и среда не та, и ресурсы не те.
Но я обращу внимание на другое, ведь важно не только то о чём пишут, а то что не упоминают. В истории с национальным репозиторием кода не упоминается что? Правильно, Гостех.
Хотя, казалось бы, национальный репозиторий кода - это как раз базовая государственная цифровая инфраструктура, но Гостеха тут нет, что лично для меня в очередной раз означает что Гостех сейчас, либо сливают, либо "локализуют в отдельную зону чтобы не мешал"․
Ссылки։
[1] https://www.forbes.ru/tekhnologii/486349-zamglavy-mincifry-maksim-parsin-ne-hotim-izolacii-no-nam-nuzen-svoj-repozitorij
[2] https://www.crunchbase.com/organization/github/company_financials
[3] https://www.crunchbase.com/organization/gitlab-com/company_financials
[4] https://code.gov.cz
#opensource #russia #regulation #government #code
Forbes.ru
Замглавы Минцифры Максим Паршин: «Не хотим изоляции, но нам нужен свой репозиторий»
21 марта стартует прием заявок на участие в эксперименте по созданию национального репозитория — хранилища открытого кода. На работу репозитория будут направлены 1,3 млрд рублей, лежащие на счетах «Росинфокоминвеста» с 2007 года. Forbes поговорил с з
👍2🔥1
Forwarded from Ivan Begtin (Ivan Begtin)
This media is not supported in your browser
VIEW IN TELEGRAM
Наглядная визуализация с открытым кодом того что происходит внутри LLM моделей [1]. Исходный код доступен [2] как и научная статья от авторов Transformer Explainer: Interactive Learning of Text-Generative Models [3]
Ссылки:
[1] https://poloclub.github.io/transformer-explainer/
[2] https://github.com/poloclub/transformer-explainer
[3] https://arxiv.org/abs/2408.04619
#opensource #llm #ai #datatools
Ссылки:
[1] https://poloclub.github.io/transformer-explainer/
[2] https://github.com/poloclub/transformer-explainer
[3] https://arxiv.org/abs/2408.04619
#opensource #llm #ai #datatools
👀1
Forwarded from Ivan Begtin (Ivan Begtin)
AI и политика
Dario Amodei, CEO стартапа Anthropic, создателей LLM моделей Claude, написал в блоге [1] призыв к ужесточению экспортного контроля США за чипами для обучения ИИ. Дословно это звучит как Export controls serve a vital purpose: keeping democratic nations at the forefront of AI development. У него под постом в твиттере развернулась большая полемика с теми кто против ограничений на развитие ИИ [2]. Большая часть комментариев звучит как при всём уважении к Вашей команде, но DeepSeek молодцы и развивать ИИ модели с открытым кодом важно.
Разработка ИИ стремительно политизируется вместе с демократизацией ИИ инструментов.
Ссылки:
[1] https://darioamodei.com/on-deepseek-and-export-controls
[2] https://x.com/DarioAmodei/status/1884636410839535967
#ai #opensource #deepseek #llm
Dario Amodei, CEO стартапа Anthropic, создателей LLM моделей Claude, написал в блоге [1] призыв к ужесточению экспортного контроля США за чипами для обучения ИИ. Дословно это звучит как Export controls serve a vital purpose: keeping democratic nations at the forefront of AI development. У него под постом в твиттере развернулась большая полемика с теми кто против ограничений на развитие ИИ [2]. Большая часть комментариев звучит как при всём уважении к Вашей команде, но DeepSeek молодцы и развивать ИИ модели с открытым кодом важно.
Разработка ИИ стремительно политизируется вместе с демократизацией ИИ инструментов.
Ссылки:
[1] https://darioamodei.com/on-deepseek-and-export-controls
[2] https://x.com/DarioAmodei/status/1884636410839535967
#ai #opensource #deepseek #llm
Darioamodei
Dario Amodei — On DeepSeek and Export Controls