Математика Дата саентиста

🌟 OpenMathInstruct-2: математический датасет и набор моделей от NVIDIA.

OpenMathInstruct-2 состоит из 14 млн. пар "вопрос-решение" (примерно 600 тысяч уникальных вопросов) и является одним из крупнейших общедоступных наборов данных для обучения LLM в математике.

Набор данных создан на основе Llama-3.1-405B-Instruct путем синтеза решений для существующих вопросов из наборов данных MATH и GSM8K и генерации новых задач и решений.

Результаты абляционных экспериментов, которые проводились для поиска оптимальных параметров синтеза, показали, что:

🟢формат решения имеет значение, причем чрезмерно подробные решения негативно сказываются на производительности модели;

🟢данные, сгенерированные сильной моделью-учителем, превосходят по качеству данные, полученные от более слабой модели;

🟢процесс обучения устойчив к наличию до 20% решений низкого качества;

🟢разнообразие вопросов имеет решающее значение для масштабирования данных.

Итоговые данные, включенные в датасет прошли тщательную деконтаминацию с использованием конвейера lm-sys и ручной проверки на поиск дубликатов с тестовыми наборами данных.

OpenMathInstruct-2 показал высокую эффективность при обучении LLM.

Модель Llama3.1-8B-Base, обученная на OpenMathInstruct-2, превзошла Llama3.1-8B-Instruct на 15,9% по точности на наборе данных MATH, а OpenMath2-Llama3.1-70B обошла Llama3.1-70B-Instruct на 3,9%.

Датасет выпущен в 3-х размерностях: полный набор (примерно 7.5 GB) и уменьшенные версии train_1M (640 Mb), train_2M (1.3 Gb) и train_5M (3.1 Gb).

▶️ Модели, дообученные на этом датасете:

🟠

OpenMath2-Llama3.1-70B, в формате Nemo, квантованные версии GGUF (от 3-bit до 8-bit);

🟠

OpenMath2-Llama3.1-8B, в формате Nemo, квантованные версии GGUF (от 2-bit до 8-bit).

📌Лицензирование датасета : CC-BY-4.0 License.

📌Лицензирование моделей: Llama 3.1 Community License.

🟡

Набор моделей

🟡

Arxiv

🟡

Датасет

@ai_machinelearning_big_data

#AI #ML #LLM #MATH #NVIDIA #Dataset

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6🔥3

5.37K views14:37

Математика Дата саентиста

Forwarded from Machinelearning

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

0:03

This media is not supported in your browser

VIEW IN TELEGRAM

📌Как линейная алгебра может помочь при разработке web-приложения.

Интересная и познавательная статья разработчика Ивана Шубина о том, как он использовал матрицы для создания интерактивного редактора диаграмм Schemio.

Изначально, редактор позволял создавать простые фигуры и манипулировать ими, но с введением иерархии объектов возникла необходимость в сложных преобразованиях координат. Матрицы стали ключом к решению этой проблемы, позволяя эффективно управлять перемещением, вращением и масштабированием объектов.

Для преобразования глобальных и локальных координат между собой использовались матричные преобразования. Умножение матриц дало возможность комбинировать преобразования, а инверсия матрицы помогает переводить координаты из глобальных в локальные.

Иван подробно описывает, как матрицы помогают управлять поворотом и масштабированием объектов относительно опорной точки и как они используются при монтировании и демонтировании объектов, чтобы избежать нежелательных коллизий.

Таким образом, матричная математика стала решением для расширения возможностей редакторе Schemio.

🔜

Читать полную версию статьи

#Math #LinearAlgebra #Webdev

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤2🔥2

3.29K views11:08

Математика Дата саентиста

Кодирование сигналов

1. Код Грея
2. Применение битов четности
3. Код Хемминга
4. Синхронизация с помощью избыточного кода
5. Скремблирование
6. Кодирование битов при последовательной передаче
7. Битстаффинг
8. Передатчик Манчестер II
9. Приемник кода Манчестер II
10. Двунаправленная передача импульсов по одной линии

#video #math

https://www.youtube.com/watch?v=C4cU4gldP5c&list=PL1VvMJF0dnhrcJZBhrAr8OWZKkCtbIBGQ&ab_channel=%D0%AD%D0%BB%D0%B5%D0%BA%D1%82%D1%80%D0%BE%D1%82%D0%B5%D1%85%D0%BD%D0%B8%D0%BA%D0%B0%D0%B8%D1%8D%D0%BB%D0%B5%D0%BA%D1%82%D1%80%D0%BE%D0%BD%D0%B8%D0%BA%D0%B0%D0%B4%D0%BB%D1%8F%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%81%D1%82%D0%BE%D0%B2

@data_math

❤10👍7👀1

3.42K viewsedited 12:01

Математика Дата саентиста

21:00

Media is too big

VIEW IN TELEGRAM

🎲 Вероятностные модели и функции потерь. Машинное обучение полный курс. Урок 8

- Видео
- Урок 1 / Урок2 / Урок3 / Урок4 / Урок5 /
- Урок6/ Урок7
- Colab
-Полный курс

#ml #math #mlmath #probability #машинноеобучение

🔥7👍3❤2

4.44K views08:59

Математика Дата саентиста

14:17

Media is too big

VIEW IN TELEGRAM

🔥 Обобщение и переобучение в машинном обучении.

- Видео
- Урок 1 / Урок2 / Урок3 / Урок4 / Урок5 /
- Урок6/ Урок7/ Урок 8
- Colab
-Полный курс

#ml #math #mlmath #probability #машинноеобучение

@data_math

👍5🥰2❤1🌭1

4.23K viewsedited 06:28

Математика Дата саентиста

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

🎯 Одна из самых красивых идей в математике — вычисление площади фигуры с помощью случайных точек

Не верится, что такое возможно?
Смотри на анимацию ниже: мы бросаем случайные точки в квадрат и считаем, сколько из них попали в круг.
Так можно приближённо вычислить площадь круга — а значит и значение π!

🔍 Как это работает:
1. Берём квадрат, в который вписан круг (например, единичный)
2. Бросаем N случайных точек в квадрат
3. Считаем, сколько из них попало внутрь круга
4. Отношение количества «внутренних» точек к общему числу даёт приближение площади круга

👉 Это называется метод Монте‑Карло — простой, но мощный инструмент для численных приближений.

@data_math

#math #geometry #π #montecarlo #visualmath

❤29👍13🔥5👎1

3.56K viewsedited 09:14

About

Blog

Apps

Platform