—
pip install deepchem
DeepChem предоставляет отличный набор open-source инструментов, который демократизирует использование Deep Learning для открытия лекарств, материаловедения, квантовой химии и биологии.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.youtube.com/watch?v=j0BrMPgrCuo
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install geemap
Библиотека geemap Python создана на базе ipyleaflet и ipywidgets и позволяет пользователям анализировать и визуализировать наборы данных Earth Engine в интерактивном режиме в среде, основанной на Jupyter.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вот, кстати, некоторые из них:
— добавить файл
sample.txt
к архиву .tar.gz
:
import tarfile
with tarfile.open('sample.tar.gz', 'w:gz') as tar:
tar.add('sample.txt')
— понятный вывод различий между строками
import difflib
diff = difflib.ndiff('one\ntwo\nthree\n'.splitlines(keepends=True),
'ore\ntree\nemu\n'.splitlines(keepends=True))
print(''.join(diff))
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Сравниваем DBSCAN и OPTICS
Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!
https://habr.com/ru/articles/818889/
@pythonl
Поговорим сегодня о 2 популярных алгоритмах кластеризации — DBSCAN и OPTICS, посмотрим их особенности и сравним
Поехали!
https://habr.com/ru/articles/818889/
@pythonl
—
pip install marker-pdf
Процесс преобразования PDF при помощи Marker состоит из таких шагов:
— извлечение текста, при необходимости использование OCR (эвристические методы, Surya, Tesseract)
— определение макета страницы и порядка чтения (Surya)
— подготовка и форматирование каждого блока (эвристика, Texify)
— объединение блоков и постобработка полного текста (Heuristics, Pdf_postprocessor)
Marker использует ML-модели только там, где это необходимо, что повышает скорость и точность
Пример использования:
marker_single /path/to/file.pdf /path/to/output/folder --batch_multiplier 2 --max_pages 10 --langs English
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install distilabel --upgrade
Помимо создания синтетических данных, Distilabel помогает организовать сложные конвейеры обработки данных;
эти конвейеры могут содержать любое количество разных шагов.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install -U instructor
Instructor позволяет легко получать структурированные данные (например, в формате JSON) от таких LLM, как GPT-3.5, GPT-4, GPT-4-Vision, и моделей с открытым исходным кодом, включая Mistral/Mixtral, Anyscale, Ollama и llama-cpp-python.
Instructor отличается простотой и ориентированным на пользователя дизайном, построенным на базе Pydantic.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Если нужны кластеры нужной формы (например, хочется сравнить разные алгоритмы кластеризации) — не проблема, для этого есть библиотека
drawdata
и функция draw_scatter()
# ячейка 1
import pandas as pd
import seaborn as sns
from drawdata import draw_scatter
draw_scatter()
# ячейка 2
df = pd.read_clipboard(sep=',')
sns.scatterplot(data=df, x='x', y='y', hue='z')
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM