Python/ django

🖥

PDF Craft — библиотека на Python для конвертации PDF (в первую очередь сканированных книг) в Markdown и EPUB с использованием локальных AI-моделей и LLM для структурирования содержимого
GitHub

🌟

Основные возможности

- Извлечение текста и макета
Использует сочетание DocLayout-YOLO и собственных алгоритмов для детектирования и фильтрации заголовков, колонтитулов, сносок и номеров страниц

- Локальный OCR
Распознаёт текст на странице через OnnxOCR, поддерживает ускорение на GPU (CUDA)

- Определение порядка чтения
С помощью layoutreader строит поток текста в том порядке, в котором его воспринимает человек

- Конвертация в Markdown
Генерирует .md с относительными ссылками на изображения (иллюстрации, таблицы, формулы) в папке assets

- Конвертация в EPUB
На основе промежуточных результатов OCR передаёт данные в LLM (рекомендуется DeepSeek) для построения оглавления, глав, корректировки ошибок и включения аннотаций

Установка и требования
Python ≥ 3.10 (рекомендуется 3.10.16).

pip install pdf-craft и pip install onnxruntime==1.21.0 (или onnxruntime-gpu==1.21.0 для CUDA).

Для EPUB-конвейера нужен доступ к LLM-сервису (например, DeepSeek).

🟡

Github

@pythonl

Please open Telegram to view this post

VIEW IN TELEGRAM

4.2K views14:10

Python/ django

Твой Senior зарабатывает 800к не потому, что он умнее тебя!

Если ты:
– мучаешься от синдрома самозванца
– устал от токсичности в IT
– не понимаешь, как пройти собеседование в топовые компании
– думаешь «я не дорос/туповат/не готов» (спойлер: это не так!)

…тебе нужно на островок поддержки в мире IT.

Это канал Глеба Михайлова, который прошел путь от тупящего на собесах аналитика до дата саентиста, который поддерживает, вдохновляет и помогает другим процветать в суровой и токсичной IT-индустрии.

Здесь ты найдешь:

– разбор реальных задач с технических собесов (без занудства)
– рабочие советы по подготовке от человека, который работал в Сбере, Альфа-Банке и Яндексе
– инсайты про то, как пройти собеседования в топовых компаниях
– занимательные истории из корпоративной жизни, после которых ты поймешь, что везде работают обычные люди.

Подписывайся на канал, если хочешь расти в IT без токсичности, занудства и пафоса.

Реклама

3.9K views09:00

Python/ django

👾 FlexGet — инструмент, превращающий рутинные задачи в автоматизированные workflows: от скачивания сериалов по RSS до организации медиатеки.

Особенно удобна модульная архитектура проекта. Базовый функционал составляет 150+ плагинов для интеграции с qBittorrent, Plex и другими сервисами. При этом вся логика описывается с помощью декларирования.

🤖 GitHub

@pythonl

3.8K views11:00

Python/ django

🔹 1000 гайдов для разработчиков в одном репозитории!

Разработчик из Твиттера собирал этот настоящий кладезь знаний целых 10 лет.

Внутри — буквально всё:
от шпаргалок по горячим клавишам для ускорения работы до фундаментальных руководств по языкам программирования, веб-разработке, созданию ПО, сетям, безопасности и многому другому.

Что там есть:

📚 Инструменты для работы с CLI, GUI, вебом и локальными сетями.

📦 Списки всех актуальных фреймворков и библиотек 2025 года.

🛡 Гайды по тестированию и взлому приложений.

🔥 Шпаргалки по командной строке.

📰 Огромная подборка блогов, YouTube-каналов, онлайн-СМИ и журналов, чтобы быть в курсе и не терять хватку.

Фолиант знаний ждёт тебя!

📌 Github

@pythonl

3.3K viewsedited 10:16

Python/ django

🖥

Задача: "Кэширование и ленивые вычисления в многопоточном окружении"

🔜 Условие:

Вам нужно реализовать декоратор @thread_safe_cached, который:

- Кэширует результат вызова функции по её аргументам (аналог functools.lru_cache, но свой).
- Если несколько потоков одновременно вызывают функцию с одинаковыми аргументами:
- Только один поток реально выполняет функцию,
- Остальные ждут, пока результат будет вычислен, и получают готовый результат.
- Кэш никогда не удаляется (неограниченный размер).

Ограничения:

- Решение должно работать для произвольных функций и аргументов (hashable).
- Нельзя использовать готовый functools.lru_cache или другие библиотеки кэширования.
- Нужно обеспечить корректную работу в многопоточной среде без гонок данных.

---

▪️ Подсказки:

- Для кэширования подойдёт dict с ключами по аргументам (`*args`, `**kwargs`).
- Для защиты доступа к кэшу понадобится threading.Lock.
- Для ожидания завершения вычисления другими потоками можно использовать threading.Event.
- Продумайте carefully: как отличить "результат уже посчитан" от "результат в процессе вычисления".

---

▪️ Что оценивается:

- Умение работать с многопоточностью в Python.
- Правильная организация кэширования.
- Чистота и лаконичность кода.
- Умение обрабатывать тонкие случаи, например: одновременные вызовы.

---

▪️ Разбор возможного решения:

Основная идея:

- Создать кэш cache: Dict[Key, Result].
- Одновременно создать словарь "ожиданий" in_progress: Dict[Key, threading.Event].
- Если кто-то начал считать значение:
- Остальные ждут Event, пока оно не будет установлено.

Пример реализации:


import threading
import functools

def thread_safe_cached(func):
    cache = {}
    in_progress = {}
    lock = threading.Lock()

    @functools.wraps(func)
    def wrapper(*args, **kwargs):
        key = (args, frozenset(kwargs.items()))
        with lock:
            if key in cache:
                return cache[key]
            if key not in in_progress:
                in_progress[key] = threading.Event()
                in_progress[key].clear()
                creator = True
            else:
                creator = False

        if creator:
            try:
                result = func(*args, **kwargs)
                with lock:
                    cache[key] = result
            finally:
                in_progress[key].set()
                with lock:
                    del in_progress[key]
            return result
        else:
            in_progress[key].wait()
            with lock:
                return cache[key]

    return wrapper

---

▪️ Пояснения к коду:

- При первом вызове для новых аргументов поток создаёт Event и начинает считать результат.
- Остальные потоки видят Event и вызывают wait(), пока первый поток не установит set().
- Как только результат посчитан, Event сигнализирует всем ждущим потокам, что данные готовы.
- Доступ к cache и in_progress защищён через lock для избежания гонок.

---

▪️ Возможные подводные камни:

- ❗ Если не удалять Event из in_progress, кэш постепенно раздуется мусором.
- ❗ Если ошибка случится внутри func, необходимо всё равно освободить Event, иначе потоки будут вечно ждать.
- ❗ Нельзя держать lock во время выполнения тяжёлой функции func, иначе все потоки будут блокироваться.

---

▪️ Вопросы на собеседовании по этой задаче:

- Как изменить реализацию, чтобы кэш имел ограничение по размеру (например, максимум 1000 элементов)?
- Как адаптировать декоратор под асинхронные функции (`async def`)?
- Что будет, если func иногда бросает исключения? Как кэшировать ошибки или не кэшировать их?
- Как изменить реализацию так, чтобы кэш удалял устаревшие данные через TTL (Time-To-Live)?

---

@pythonl

Please open Telegram to view this post

VIEW IN TELEGRAM

1.0K views15:01

About

Blog

Apps

Platform