Github
2.37K subscribers
185 photos
22 videos
6 files
266 links
@workakkk - по всем вопросам

@itchannels_telegram - 🔥лучшие ит-каналы

@data_analysis_ml - работа с данными

@ai_machinelearning_big_data - машинное обучение

@english_forprogrammers - английский для программистов
加入频道
Forwarded from Machinelearning
🌟 ARP: авторегрессионное обучение последовательности действий для задач роботизированного манипулирования.

ARP - архитектура авторегрессионной политики, разработанная в Рутгерском университете, которая учится генерировать последовательности действий, используя Chunking Causal Transformer (CCT), предлагая универсальный подход, превосходящий специализированные решения для задач манипулирования.

Политика предсказывает только будущую последовательность действий на основе текущего состояния (или наблюдения), не пытаясь предсказать всю траекторию. Этот метод обучения последовательности действий более достижим в приложениях робототехники и позволяет лучше использовать причинно-следственные связи.

ARP состоит из трех основных компонентов:

🟢Chunking Causal Transformer: CCT лежит в основе АРП и отвечает за авторегрессивную генерацию последовательности действий. Он принимает на вход текущее наблюдение и последовательность прошлых действий и предсказывает следующий фрагмент (chunk) действий.

🟢Модуль эмбединга действий: преобразует действия (дискретные, непрерывные или координаты пикселей) в непрерывные векторные представления (эмбединги), которые могут быть обработаны CCT.

🟢Модуль декодирования действий: преобразует инференс от CCT обратно в соответствующие действия в формате, подходящем для управления роботом.

ARP оценивался в 3 средах (Push-T, ALOHA, RLBench) и сравнивался с современными методами для каждой среды. Во всех случаях ARP продемонстрировал высокую производительность, достигая SOTA-показателей при меньших вычислительных затратах.

ARP был протестирован в реальном эксперименте с роботом, где он успешно выполнил сложную задачу по затягиванию гаек.

В репозитории проекта доступен код для обучения, тестирования в средах Push-T, ALOHA, RLBench и подробные инструкции по настройке окружения под каждую из этих задач.


⚠️ В зависимости от задачи (Push-T, ALOHA или RLBench) необходимо выбрать соответствующий файл конфигурации. Примеры конфигурационных файлов приведены в файле Experiments.md

⚠️ Форматы данных для каждой задачи разные:

🟠Push-T: RGB-изображения 96x96 px;
🟠ALOHA - RGB-изображения 480x640 px;
🟠RLBench - RGBD (RGB+канал Depth) 128 × 128px.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Robotics #ARP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Полезная шпаргалка по консольным командам Git

В Git есть много команд, и если ты часто их забываешь, эта шпаргалка специально для тебя.

В этом репозитории можно быстро ознакомиться с основными командами и концепциями, а затем одним лёгким нажатием на Ctrl+C скопировать их.

Дополнительный плюс — всё написано на русском. Так что сохраняем!

🔗 Шпаргалка

#git #шпаргалка
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ GitHub представил Spark: создание веб-приложений с помощью естественного языка.

Spark, продукт лаборатории GitHub Next, позволяет создавать прототипы приложений с помощью чат-подобного интерфейса. В основе Spark лежат репозиторий GitHub, GitHub Actions и база данных Microsoft Azure CosmosDB.

Spark может использовать любые веб-API, а пользователи могут выбирать между моделями Anthropic’s Claude Sonnet и OpenAI’s GPT. Также заявлена функция шэринга Spark-проектов с настраиваемыми правами доступа.

Открыта запись в waitlist. Подать заявку можно по ссылке.
githubnext.com

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Git Notes

Здесь рассказано о том, как можно использовать малозаметную, но полезную функцию Git — Git Notes — для добавления дополнительной информации к коммитам после их создания. В отличие от стандартных коммитов, которые создают новые объекты при изменении данных (например, при изменении сообщения коммита), Git Notes позволяют прикрепить к существующему коммиту дополнительную информацию, не меняя его.

Git Notes позволяют добавить различные заметки к коммиту с помощью команды git notes add. Эти заметки хранятся в отдельной ветке notes/commits и могут быть сгруппированы по категориям через флаг --ref. Например, можно создать разные типы заметок для одного и того же коммита — заметки, связанные с проверкой качества или тестированием кода.

Функционал Git Notes особенно полезен в таких случаях, как хранение обсуждений и комментариев к pull request'ам (PR). В проекте Symfony используют специальный инструмент для объединения веток, который автоматически сохраняет комментарии из GitHub в виде заметок Git Notes. Эти комментарии прикрепляются к коммитам, что позволяет отслеживать обсуждения даже после смены платформы или удаления исходного PR. Таким образом, при необходимости можно получить доступ к обсуждению, сохранив его вместе с кодом.

Для того чтобы просмотреть или извлечь эти заметки, можно использовать команду git log --notes или настраивать git fetch, чтобы автоматически загружать заметки с сервера.
Реально

#ithumor
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Vizard.ai — это инструмент на основе искусственного интеллекта, предназначенный для автоматизированного редактирования видео!

🌟 Его основная функция заключается в преобразовании длинных видеозаписей в короткие, оптимизированные для социальных сетей клипы. Этот сервис особенно полезен для контент-маркетологов, создателей видео, подкастеров, преподавателей и других пользователей, желающих сэкономить время на создании engaging контента для TikTok, Instagram Reels, YouTube Shorts и других платформ.

🌟 Vizard автоматически анализирует загруженные видеозаписи, выделяет ключевые моменты, добавляет субтитры, визуальные эффекты и создает короткие ролики, которые можно публиковать прямо из платформы. Также доступен текстовый редактор для ручной настройки клипов. Сервис поддерживает многоканальные аудио (например, для интервью) и позволяет переводить субтитры на несколько языков.

🔗 Ссылка: *клик*
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 PuppyGit — это клиент Git для Android, предоставляющий полный функционал для работы с репозиториями, включая fetch, pull, push, merge, управление ветками, тегами, сабмодулями и историю коммитов!

🌟 Приложение является бесплатным, без рекламы и с открытым исходным кодом. PuppyGit также поддерживает функции редактирования файлов, разрешения конфликтов, squash-коммитов и работу с персональными токенами для двухфакторной аутентификации.

🔐 Лицензия: GPL-3.0

🖥 Github
Please open Telegram to view this post
VIEW IN TELEGRAM
⭐️ Спустя миллионы лет эволюции мы получили ванную комнату от Github.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Rust
RustOwl – это инструмент для визуализации времени жизни переменных в Rust, который помогает быстро обнаруживать ошибки и оптимизировать код. Основное:

Интуитивное отображение:
При наведении на переменную или вызов функции, инструмент подчеркивает:

- Зелёным: фактическое время жизни переменной
- Синим и пурпурным: неизменное и изменяемое заимствование
- Оранжевым: перемещение значения или вызов функции
- Красным: ошибки времени жизни

Широкая поддержка редакторов:
RustOwl доступен как расширение для VSCode, плагин для Neovim и пакет для Emacs. Благодаря встроенному LSP-серверу (cargo owlsp) интеграция с другими редакторами также возможна.

Преимущества:
Инструмент помогает визуально отслеживать сложные аспекты владения и заимствования, что делает отладку и оптимизацию Rust-кода более удобной и эффективной по сравнению с традиционными методами.

Github

@rust_code
Forwarded from Machinelearning
🌟 Oumi: опенсорс-фреймворк полного цикла для LLM.

Oumi - открытая платформа для разработки, файнтюна, оценки и экспериментов с языковыми и мультимодальными моделями, созданная совместными усилиями исследователей из 13 ведущих университетов.

Oumi предоставляет инструменты и рабочие процессы для разработки и запуска масштабных экспериментов на кластере, развертывания моделей в рабочей среде и поддерживает методы распределенного обучения (FSDP, DDP):

🟢обучение и файнтюн моделей от 10M до 405B параметров методами SFT, LoRA, QLoRA и DPO;
🟢поддержку популярных семейств моделей: Llama, DeepSeek, Qwen и Phi;
🟢синтез и курирование обучающих данных с использованием LLM-judge;
🟢быстрое развертывание моделей в средах vLLM и SGLang;
🟢проведение комплексного бенчмаркинга моделей по стандартным тестам;
🟢возможность подключения по API OpenAI, Anthropic и Vertex AI;
🟢интеграция с библиотекой Transformers.

В репозитории проекта собраны готовые ноутбуки и скрипты для каждого из этапов жизненного цикла моделей, а подробная документация по использованию поможет легко освоить эту платформу.

📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Документация
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Oumi #Framework
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Podcastfy — это open-source инструмент, который преобразует текстовый контент в аудио подкасты с использованием синтеза речи.

Он позволяет легко создавать аудиоверсии статей или блогов, упрощая процесс создания подкастов для контент-мейкеров, блогеров или в целях обучения.

🌟 Поддерживает интеграцию с ElevenLabs, OpenAI и Edge TTS, для преобразования текста в речь.

💡 Примеры можно посмотреть здесь.

💨 Поддерживает продвинутые настройки для работы с голосами, стилем речи и другими параметрами. с генеративным контентом.

Установка:
$ pip install podcastfy

Podcastfy — удобный и простой в использовании инструмент для быстрого прототипирования решений по автоматическому созданию аудиоконтента и интеграции в более крупные ML-проекты.

🔐 Лицензия: Apache-2.0

Github
Paper
Colab


@ai_machinelearning_big_data


#podcast #gemini #openai #elevenlabs #genai #notebooklm
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 Step-Audio: платформа интеллектуального речевого взаимодействия.

Step-Audio – платформа с открытым исходным кодом, объединяющая понимание и генерацию речи для поддержки мультиязычных диалогов (китайский, английский и японский).

Step-Audio способна передавать эмоциональные оттенки, региональные диалекты, различные стили речи и вокала.

Основой Step-Audio является 130B мультимодальная модель, которая объединяет в себе функции распознавания и генерации речи, семантического понимания, ведения диалога, клонирования голоса и синтеза речи. Важным компонентом является собственный токенизатор, позволяющий создавать высококачественный звук без традиционного сбора данных вручную.

▶️ Состав релиза:

Step-Audio-Tokenizer - токенизатор речи. Для лингвистической токенизации используется кодер Paraformer, который квантуется в дискретные представления с частотой 16,7 Гц. Для семантической токенизации - токенизатор CosyVoice, специально разработанный для эффективного кодирования характеристик, необходимых для создания естественных и выразительных речевых результатов, работающий на частоте 25 Гц.

Step-Audio-Chat - мультимодальная LLM с 130 млрд. параметров, которая отвечает за понимание и генерацию человеческой речи.

Step-Audio-TTS-3B - TTS-модель, обученная на крупном синтетическом наборе данных с использованием парадигмы LLM-Chat. Модель поддерживает несколько языков, множество эмоциональных выражений и различные элементы управления стилем голоса. Step-Audio-TTS-3B является первой открытой TTS-моделью, способной генерировать певческий вокал.

StepEval-Audio-360 - датасет, собранный при участии профессиональных аннотаторов и содержит весь спектр возможностей: пение, творчество, ролевые игры, логические рассуждения, понимание голоса, следование голосовым инструкциям, игры, управление речевыми эмоциями и языковые способности на китайском, английском и японском языках.

⚠️ Для локального использования понадобится (41.6Гц): Step-Audio-Tokenizer - 1.5 GB VRAM, Step-Audio-Chat - 256 GB VRAM, Step-Audio-TTS-3B - 8GB VRAM.

⚠️ Наиболее качественный инференс, по словам разработчиков, достигается на 4xA800/H800 GPU с 80GB или больше.


▶️Локальная установка и инференс на примере TTS:

# Clone the repository
git clone https://github.com/stepfun-ai/Step-Audio.git

# Create a Conda venv
conda create -n stepaudio python=3.10
conda activate stepaudio

# Install dependencies
cd Step-Audio
pip install -r requirements.txt

git lfs install
git clone https://huggingface.co/stepfun-ai/Step-Audio-TTS-3B

# TTS inference
python tts_inference.py --model-path --output-path --synthesis-type use_tts_or_clone


📌Лицензирование: Apache 2.0 License.


🟡Коллекция на HF
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ASR #TTS #StepAudio
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ GitHub Copilot для Xcode запущен для публичного тестирования.

GitHub Copilot для Xcode Chat стал доступен для публичного превью. Для начала работы достаточно учетной записи GitHub.

GitHub Copilot – это ИИ-ассистент, который помогает разработчикам писать код быстрее и точнее. Теперь, помимо дописывания кода, GitHub Copilot для Xcode предлагает интеллектуальные предложения для конкретных задач через интерактивный чат.

Для доступа к GitHub Copilot для Xcode потребуется лицензия Copilot. Есть бесплатный доступ, включающий 2000 итераций автозавершения кода и 50 чат-запросов в месяц.
devblogs.microsoft.com

✔️ OpenAI опубликовала SWE-Lancer: бенчмарк для LLM в кодинге.

SWE-Lancer позиционируется как инструмент оценки производительности языковых моделей в задачах программирования для фрилансеров. Он основан на 1400 фриланс-задачах, собранных из Upwork и репозитория Expensify. Задания варьируются от исправления незначительных ошибок до внедрения крупных функций.

SWE-Lancer предназначен для оценки как отдельных исправлений кода, так и управленческих решений, где модели должны выбирать лучшее предложение из нескольких вариантов. Одной из сильных сторон SWE-Lancer является использование сквозных тестов вместо изолированных модульных операций. Репозиторий бенчмарка ожидается в ближайшее время.
arxiv.org

✔️ X повышает цены на Premium+ после выпуска Grok 3.

X (ех-Twitter) значительно повысила цену на план подписки Premium+, дающий доступ к Grok 3 от xAI. Она подорожала почти до 50 долларов в месяц.

Теперь, чтобы пользоваться "deep search" и "reasoning", надо оформить отдельный план SuperGrok через приложение Grok.

Согласно сайту поддержки X, месячная подписка на Premium+ в США теперь стоит 50 долларов, а годовая – 350 долларов. Это уже второе повышение цен на план Premium+ за последние пару месяцев. В декабре компания подняла цену с 16 до 22 долларов в месяц. Таким образом, новая цена более чем вдвое превышает текущую стоимость подписки.
techcrunch.com

✔️ Native Sparse Attention - революция в механизмах внимания от Deepseek.

NSA (Natively Sparse Attention) — новый механизм внимания, предложенный на заменуFull Attention, который значительно ускоряет обработку длинных последовательностей текста без потери качества модели.
NSA использует динамическую иерархическую стратегию, которая сочетает сжатие токенов на грубом уровне с точным отбором ключевых токенов. Это позволяет сохранить глобальное понимание контекста и локальную точность. NSA поддерживает сквозное обучение, совместим с GQA и MQA, что делает его пригодным не только для инференса, но и для обучения.
Модели, обученные с использованием NSA показали 9х ускорение при прямом распространении и 6х при обратном для последовательностей длиной 64к токенов относительно Full Attention. В декодировании - 11х.
arxiv.org

✔️ Мира Мурати готова рассказать миру, над чем она работает.

Мира Мурати, ex-CTO OpenAI, покинула свой пост в сентябре 2024, заявив о желании "создать время и пространство для собственных исследований". И вот стало известно, что она – CEO компании Thinking Machines Lab. Ее миссия – разработка первоклассного AI, полезного и доступного для всех.

В команду Thinking Machines Lab вошли известные исследователи и ученые, в основном из OpenAI. Среди них – экс-вице-президент по исследованиям Баррет Зоф, руководитель по мультимодальным исследованиям Александр Кириллов, руководитель специальных проектов Джон Лакман и ведущий исследователь Люк Мец. Главным научным сотрудником станет Джон Шульман, один из ключевых создателей ChatGPT, ранее работавший в OpenAI и Anthropic. Есть специалисты из Google и Mistral AI.

Команда уже работает над рядом проектов в офисе в Сан-Франциско. Хотя конкретные продукты пока неясны, Thinking Machines Lab не планирует создавать копии ChatGPT или Claude. Цель – AI-модели, оптимизирующие сотрудничество между человеком и AI, что Мурати считает главным препятствием в развитии отрасли.
wired.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Это — подробное руководство по использованию GitHub Actions для автоматизации процессов разработки, таких как сборка, тестирование и деплой приложений!

🔗 Ссылка: *клик*
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀Software Engineer C/C++ (LTE/GSM) в YADRO: получите оффер за 3 дня!

Хотите создавать технологии, без которых не работают мобильные сети?📡

В YADRO открыта вакансия Software Engineer C/C++, где вы будете разрабатывать протокольный стек LTE/GSM для базовых станций.

Что предстоит делать?

✔️ Разрабатывать решения совместно с командой от этапа исследования и прототипирования до вывода в коммерческое использование
✔️ Разрабатывать ПО для базовых станций LTE
✔️ Реализовывать полный стек протокола 3GPP для станций

Как получить оффер?

1️⃣ Оставить заявку до 9 марта
2️⃣ Пройти скрининг и техническое интервью
3️⃣ Получить оффер за 3 дня

📍 Формат работы: офис, гибрид или удалёнка (Москва, СПб, Нижний Новгород, Екатеринбург, Минск).

💡 В команде — инженеры с глубокой экспертизой и опытом 10+ лет в телеком-разработке.

Присоединяйтесь к проекту, где сможете создавать системы, которыми будут пользоваться сотни тысяч людей!

Подавайте заявку прямо сейчас — по ссылке.
Forwarded from Python/ django
⚡️FastAPI-Guard — удобный инструмент для защиты защиты ваших FastAPI-приложения

Контроль IP-адресов: отслеживание активности пользователей
Логирование запросов: подробная запись всех обращений
Обнаружение атак: своевременное выявление попыток взлома

Очень простая интеграция, хорошее годное решение для защиты от различных атак.

Github
Документация

@pythonl