Repo2txt может пригодиться для интеллектуального анализа текстов или обучения LLM.
При написании Repo2txt автор не использовал сторонние зависимости и уместил всё в один файл. Для лучшей производительности применяется многопоточность. Кроме того, Repo2txt учитывает файлы в
.gitignore
, чтобы исключать их из вывода, поддерживается вывод двоичных файлов (аудио, изображений). Сам исходный файл понятен человеку и может легко токенизироваться для обучения моделей.Кроме возможности обучать на полученных данных нейросети, разработчик приводит и другие сценарии использования Repo2txt:
— анализ данных;
— резервное копирование;
— локальное версирование.
Сперва утилиту необходимо скачать, локально клонировав исходный репозиторий. После этого для копирования репозиториев надо выполнить файл main.py с указанием пути к репозиторию и флагами:
—
-d
, --directory
— путь к каталогу (обязательно).—
-t
, --tree
— вывод дерева репозитория (без содержимого файлов, отключен по умолчанию).—
-e
, --embed
— включить дерево в начале вывода.—
-b
, --binary
— ключить двоичные файлы (отключен по умолчанию).—
-g
, --gitignore
— использовать .gitignore для исключения файлов.—
-i
, --ignore
— можно через запятую указать дополнительный шаблон для исключения файлов.—
-o
, --output
— имя файла на выходе.@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
—
curl -sSL https://pdm-project.org/install-pdm.py | python3 -
PDM — это инструмент управления зависимостями и пакетами Python нового поколения.
Если вам не хватает чего-то в Pipenv или Poetry, вероятно, вам подойдёт PDM.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install deepchem
DeepChem предоставляет отличный набор open-source инструментов, который демократизирует использование Deep Learning для открытия лекарств, материаловедения, квантовой химии и биологии.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.youtube.com/watch?v=j0BrMPgrCuo
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install geemap
Библиотека geemap Python создана на базе ipyleaflet и ipywidgets и позволяет пользователям анализировать и визуализировать наборы данных Earth Engine в интерактивном режиме в среде, основанной на Jupyter.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вот, кстати, некоторые из них:
— добавить файл
sample.txt
к архиву .tar.gz
:
import tarfile
with tarfile.open('sample.tar.gz', 'w:gz') as tar:
tar.add('sample.txt')
— понятный вывод различий между строками
import difflib
diff = difflib.ndiff('one\ntwo\nthree\n'.splitlines(keepends=True),
'ore\ntree\nemu\n'.splitlines(keepends=True))
print(''.join(diff))
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Сравниваем DBSCAN и OPTICS
Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!
https://habr.com/ru/articles/818889/
@pythonl
Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!
https://habr.com/ru/articles/818889/
@pythonl
—
pip install marker-pdf
Процесс преобразования PDF при помощи Marker состоит из таких шагов:
— извлечение текста, при необходимости использование OCR (эвристические методы, Surya, Tesseract)
— определение макета страницы и порядка чтения (Surya)
— подготовка и форматирование каждого блока (эвристика, Texify)
— объединение блоков и постобработка полного текста (Heuristics, Pdf_postprocessor)
Marker использует ML-модели только там, где это необходимо, что повышает скорость и точность
Пример использования:
marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10 --langs English
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install distilabel --upgrade
Помимо создания синтетических данных, Distilabel помогает организовать сложные конвейеры обработки данных;
эти конвейеры могут содержать любое количество разных шагов.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install -U instructor
Instructor позволяет легко получать структурированные данные (например, в формате JSON) от таких LLM, как GPT-3.5, GPT-4, GPT-4-Vision, и моделей с открытым исходным кодом, включая Mistral/Mixtral, Anyscale, Ollama и llama-cpp-python.
Instructor отличается простотой и ориентированным на пользователя дизайном, построенным на базе Pydantic.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM