Crawlee-Python — это мощная библиотека, разработанная для выполнения задач веб-скрапинга. Она предоставляет пользователям набор инструментов и функциональности для эффективного извлечения данных из веб-страниц.
Преимущества Crawlee-Python:
- Легкость использования: Crawlee-Python разработан с акцентом на простоту и удобство использования, что позволяет даже начинающим разработчикам быстро освоить основные принципы веб-скрапинга и кроулинга.
- Поддержка современных технологий: Библиотека поддерживает работу с современными веб-технологиями, что позволяет ей эффективно справляться с динамическими веб-страницами, используя инструменты для работы с JavaScript, такие как Puppeteer и Playwright.
- Асинхронное выполнение задач: Crawlee-Python поддерживает асинхронное выполнение задач, что значительно ускоряет процесс скрапинга и позволяет одновременно обрабатывать множество запросов.
- Расширяемость: Библиотека легко расширяется благодаря модульной архитектуре, что позволяет пользователям добавлять и настраивать функциональность под свои специфические нужды.
- Управление сессиями и прокси: Crawlee-Python предоставляет встроенные инструменты для управления сессиями и прокси-серверами, что помогает обходить блокировки и ограничения, накладываемые веб-сайтами.
- Автоматическое управление очередями: Библиотека автоматизирует процесс управления очередями задач, что упрощает организацию большого количества запросов и их выполнение.
- Гибкость конфигурации: Пользователи могут гибко настраивать параметры скрапинга, такие как частота запросов, задержки между запросами, обработка ошибок и многое другое.
Примеры использования:
- Извлечение данных для анализа: С помощью Crawlee-Python можно автоматически собирать данные с различных веб-сайтов для последующего анализа и визуализации.
- Мониторинг изменений на веб-страницах: Библиотека позволяет отслеживать изменения на веб-страницах и уведомлять пользователей о важных обновлениях.
- Сбор данных для обучения моделей машинного обучения: Crawlee-Python может быть использован для сбора большого объема данных, необходимых для обучения и тестирования моделей машинного обучения.
Crawlee-Python представляет собой мощный инструмент для веб-скрапинга и кроулинга, предоставляющий множество возможностей для автоматизации процесса извлечения данных из интернета.
Crawlee-Python предлагает два основных типа краулеров: BeautifulSoupCrawler и PlaywrightCrawler.
BeautifulSoupCrawler отлично подходит для проектов, которые требуют эффективного извлечения данных из HTML-контента без необходимости выполнения JavaScript на стороне клиента. С другой стороны,
PlaywrightCrawler использует безголовый браузер для обработки веб-страниц, которые зависят от клиентского JavaScript или требуют взаимодействия с JavaScript-контентом.
pipx run crawlee create my-crawler
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🐍 Библиотека для управления очередями сообщений
PGMQ - новая библиотека для облегченной обработки очереди сообщений для PostgreSQL в Python. Она отличается простотой и гибкостью системы очередей одновременно с надежностью и масштабируемостью баз данных.
Основные особенности:
- Гибкость. Поддержка различных конфигураций и расширений для индивидуальной настройки
- Надежность. Гарантированная единоразовая доставка сообщений в течении тайм-аута видимости
- Компактность. Только функции Postgres упакованные в расширение, никаких фоновых процессов или внешних зависимостей
- API-паритет с AWS SQS и RSMQ
Установка:
Самый легкий способ - запустить Tembo Docker, где PGMQ предустановлен в Postgres
▪ GitHub
#python #PostgreSQL #pgmq #MessageQueues
@pythonl
PGMQ - новая библиотека для облегченной обработки очереди сообщений для PostgreSQL в Python. Она отличается простотой и гибкостью системы очередей одновременно с надежностью и масштабируемостью баз данных.
Основные особенности:
- Гибкость. Поддержка различных конфигураций и расширений для индивидуальной настройки
- Надежность. Гарантированная единоразовая доставка сообщений в течении тайм-аута видимости
- Компактность. Только функции Postgres упакованные в расширение, никаких фоновых процессов или внешних зависимостей
- API-паритет с AWS SQS и RSMQ
Установка:
Самый легкий способ - запустить Tembo Docker, где PGMQ предустановлен в Postgres
docker run -d --name postgres -e POSTGRES_PASSWORD=postgres -p 5432:5432 quay.io/tembo/pg16-pgmq:latest
▪ GitHub
#python #PostgreSQL #pgmq #MessageQueues
@pythonl
pip install django-unfold
poetry add django-unfold
Unfold — это тема для админки Django, которая позволяет добавить удобные для администратора функции.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Kapitan — это не самый хайповый инструмент, но в некоторых ситуациях он очень полезен, и для кого-то будет удобнее, чем Helm
С технической точки зрения Kapitan очень прост и включает в себя такие компоненты:
— иерархическая коллекция значений в yaml-формате, которые подставляются в шаблоны
— шаблонизаторы: Jinja2, Jsonnet, Kadet; они берут значения и создают файлы (yaml, json или bash-скрипты).
— компонент для управления секретами
Быстрый старт с Docker:
docker run -t --rm -v $(pwd):/src:delegated kapicorp/kapitan -h
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install logfire
Logfire — это платформа для мониторинга и observability.
Особенности Logfire:
— предоставляет простой дашборд, который легко использовать
— позволяет отображать объекты Python, профилировать код, визуализировать запросы к БД
— Logfire отдаёт собранные данные по обычным SQL-запросам, не нужно учить новый диалект
А также Logfire отлично интегрируется с OpenTelemetry и с Pydantic
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
ExVideo позволяет модели генерировать в 5 раз больше кадров, при этом требуется всего 1.5 тыс. часов обучения на GPU на датасете из 40 тыс. видео.
В частности при помощи ExVideo была улучшена модель Stable Video Diffusion, для генерации длинных видеороликов до 128 кадров.
Код, статья и модель — по ссылкам ниже.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 Exo: Расширяем горизонты разработчиков
Exo – это мощный инструмент, помогающий разработчикам изучать и анализировать экзопланеты. Этот репозиторий включает инструменты для обработки данных, визуализации и моделирования экзопланетарных систем. Основные функции Exo включают:
- Анализ астрономических данных
- Визуализация орбит и траекторий
- Моделирование атмосферных условий
Exo предназначен для использования в научных исследованиях и образовательных проектах, облегчая доступ к сложным астрономическим данным и инструментам.
📚 GitHub
#python #github #astronomy
@pythonl
Exo – это мощный инструмент, помогающий разработчикам изучать и анализировать экзопланеты. Этот репозиторий включает инструменты для обработки данных, визуализации и моделирования экзопланетарных систем. Основные функции Exo включают:
- Анализ астрономических данных
- Визуализация орбит и траекторий
- Моделирование атмосферных условий
Exo предназначен для использования в научных исследованиях и образовательных проектах, облегчая доступ к сложным астрономическим данным и инструментам.
📚 GitHub
#python #github #astronomy
@pythonl
—
pip install bytewax
Bytewax объединяет возможности Flink, Spark и Kafka Streams по обработке потоков и событий.
Bytewax позволяет подключать источники данных, выполнять преобразования с учетом состояния и записывать данные в различные системы с помощью встроенных коннекторов или существующих библиотек Python.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
—
pip install lets-plot
Lets-Plot — библиотека от JetBrains, созданная на основе принципов Grammar of Graphics, как и знаменитая ggplot2 для R.
Особенности и преимущества:
- Мультиплатформенность: Lets-Plot работает как в блокнотах Python (Jupyter, Datalore, Kaggle и др.), так и в IDE PyCharm и IntelliJ IDEA.
- Интерактивные возможности: Поддержка интерактивных карт с возможностью увеличения и перемещения, а также кастомизация подсказок и аннотаций.
- Геопространственная визуализация: Простая интеграция с GeoDataFrame и мощный модуль геокодирования.
- Экспорт графиков: Сохранение графиков в формате SVG, HTML, PNG и PDF с помощью функций
ggsave()
, to_svg()
, to_html()
, to_png()
и to_pdf()
.- Поддержка режима без JavaScript и оффлайн-режима: Lets-Plot генерирует графики как простые SVG-изображения, что обеспечивает работу без Интернет-соединения.
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM