Вот, кстати, некоторые из них:
— добавить файл
sample.txt
к архиву .tar.gz
:
import tarfile
with tarfile.open('sample.tar.gz', 'w:gz') as tar:
tar.add('sample.txt')
— понятный вывод различий между строками
import difflib
diff = difflib.ndiff('one\ntwo\nthree\n'.splitlines(keepends=True),
'ore\ntree\nemu\n'.splitlines(keepends=True))
print(''.join(diff))
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Сравниваем DBSCAN и OPTICS
Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!
https://habr.com/ru/articles/818889/
@pythonl
Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!
https://habr.com/ru/articles/818889/
@pythonl
—
pip install marker-pdf
Процесс преобразования PDF при помощи Marker состоит из таких шагов:
— извлечение текста, при необходимости использование OCR (эвристические методы, Surya, Tesseract)
— определение макета страницы и порядка чтения (Surya)
— подготовка и форматирование каждого блока (эвристика, Texify)
— объединение блоков и постобработка полного текста (Heuristics, Pdf_postprocessor)
Marker использует ML-модели только там, где это необходимо, что повышает скорость и точность
Пример использования:
marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10 --langs English
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install distilabel --upgrade
Помимо создания синтетических данных, Distilabel помогает организовать сложные конвейеры обработки данных;
эти конвейеры могут содержать любое количество разных шагов.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install -U instructor
Instructor позволяет легко получать структурированные данные (например, в формате JSON) от таких LLM, как GPT-3.5, GPT-4, GPT-4-Vision, и моделей с открытым исходным кодом, включая Mistral/Mixtral, Anyscale, Ollama и llama-cpp-python.
Instructor отличается простотой и ориентированным на пользователя дизайном, построенным на базе Pydantic.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Если нужны кластеры нужной формы (например, хочется сравнить разные алгоритмы кластеризации) — не проблема, для этого есть библиотека
drawdata
и функция draw_scatter()
# ячейка 1
import pandas as pd
import seaborn as sns
from drawdata import draw_scatter
draw_scatter()
# ячейка 2
df = pd.read_clipboard(sep=',')
sns.scatterplot(data=df, x='x', y='y', hue='z')
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install tinygrad
tinygrad имеет встроенную библиотеку для работы с нейросетями, используя разные классы, оптимизаторы и инструменты для управления состоянием нейросетей.
В tinygrad есть JIT, чтобы всё работало быстро.
Также tinygrad имеет отличную поддержку нескольких GPU, что позволяет удобно параллелить операции над тензорами с помощью
Tensor.shard
.@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM