Whisper Timestamped - це вражаючий інструмент для розпізнавання мови прямо у вашому браузері! 🎙️💬
Основні особливості:
• Розпізнавання мови з точністю до слова
• Підтримка 100 різних мов
• Працює локально у браузері без потреби в API
• Використовує модель whisper-base (73 млн параметрів)
• Базується на 🤗 Transformers.js та ONNX Runtime Web
Просто завантажте аудіо чи відео, і отримайте транскрипцію з часовими мітками для кожного слова. Ідеально підходить для створення субтитрів, аналізу мови та багато іншого!
#AI, #SpeechRecognition, #JavaScript
@sourcefuture
Основні особливості:
• Розпізнавання мови з точністю до слова
• Підтримка 100 різних мов
• Працює локально у браузері без потреби в API
• Використовує модель whisper-base (73 млн параметрів)
• Базується на 🤗 Transformers.js та ONNX Runtime Web
Просто завантажте аудіо чи відео, і отримайте транскрипцію з часовими мітками для кожного слова. Ідеально підходить для створення субтитрів, аналізу мови та багато іншого!
#AI, #SpeechRecognition, #JavaScript
@sourcefuture
👍13🔥1
🚀 outlines - потужна бібліотека для структурованої генерації тексту! Вона дозволяє контролювати вивід мовних моделей, роблячи його більш передбачуваним. Основні можливості:
• Інтеграція з різними моделями (OpenAI, transformers, llama.cpp та ін.)
• Примітиви для промптів на основі Jinja
• Множинний вибір, обмеження типів, динамічна зупинка
• Швидка генерація за регулярними виразами
• Генерація JSON за схемою або Pydantic моделлю
• Генерація за контекстно-вільними граматиками
• Кешування, пакетне виведення, різні алгоритми семплінгу
Використання структурованої генерації дозволяє покращити продуктивність моделей та прискорити виведення. Спробуйте Outlines для надійнішої роботи з LLM!
#Python, #AI
@sourcefuture
• Інтеграція з різними моделями (OpenAI, transformers, llama.cpp та ін.)
• Примітиви для промптів на основі Jinja
• Множинний вибір, обмеження типів, динамічна зупинка
• Швидка генерація за регулярними виразами
• Генерація JSON за схемою або Pydantic моделлю
• Генерація за контекстно-вільними граматиками
• Кешування, пакетне виведення, різні алгоритми семплінгу
Використання структурованої генерації дозволяє покращити продуктивність моделей та прискорити виведення. Спробуйте Outlines для надійнішої роботи з LLM!
#Python, #AI
@sourcefuture
GitHub
GitHub - dottxt-ai/outlines: Structured Outputs
Structured Outputs. Contribute to dottxt-ai/outlines development by creating an account on GitHub.
🐳2
PromptFix - новий інструмент для обробки зображень на основі інструкцій. Він підтримує широкий спектр завдань, включаючи колоризацію, видалення об'єктів, усунення туману, розмиття, видалення водяних знаків, снігу та покращення зображень при слабкому освітленні. PromptFix використовує дифузійну модель і 20-кроковий процес шумозаглушення для виправлення дефектів зображення, зберігаючи при цьому оригінальну структуру. Проект включає попередньо навчені ваги, код для навчання та виведення, а також набір даних для навчання з понад 1 мільйоном зразків.
#Python, #AI
@sourcefuture
#Python, #AI
@sourcefuture
👍4🔥1
Claude-Vision-Object-Detection - Потужний Python-інструмент для виявлення та візуалізації об'єктів на зображеннях за допомогою API Claude 3.5 Sonnet Vision. Скрипт автоматично малює обмежувальні рамки навколо виявлених об'єктів, підписує їх та відображає оцінки впевненості. Основні можливості:
• Обробка окремих зображень або цілих каталогів
• Автоматичне виявлення об'єктів з обмежувальними рамками
• Високоточні оцінки впевненості
• Яскраві, різні кольори для кожного виявленого об'єкта
• Збереження анотованих зображень з результатами виявлення
Проект використовує API Claude Vision та бібліотеку PIL для обробки зображень. Підтримує формати JPEG, PNG, GIF та WebP.
#Python, #AI
@sourcefuture
• Обробка окремих зображень або цілих каталогів
• Автоматичне виявлення об'єктів з обмежувальними рамками
• Високоточні оцінки впевненості
• Яскраві, різні кольори для кожного виявленого об'єкта
• Збереження анотованих зображень з результатами виявлення
Проект використовує API Claude Vision та бібліотеку PIL для обробки зображень. Підтримує формати JPEG, PNG, GIF та WebP.
#Python, #AI
@sourcefuture
👍7
askrepo - це інструмент для читання вихідного коду з використанням LLM (Large Language Model). Програма зчитує вміст текстових файлів, керованих Git у вказаному каталозі, надсилає його до Google Gemini API та надає відповіді на запитання на основі заданого запиту. Ключові особливості:
• Використовує Google Gemini API для аналізу коду
• Підтримує різні моделі AI (за замовчуванням gemini-1.5-flash)
• Дозволяє задавати власні запити для аналізу коду
• Працює з Git-репозиторіями
• Написаний на Rust
Цей інструмент може бути корисним для швидкого розуміння структури та призначення коду в незнайомих проектах.
#Rust, #AI
@sourcefuture
• Використовує Google Gemini API для аналізу коду
• Підтримує різні моделі AI (за замовчуванням gemini-1.5-flash)
• Дозволяє задавати власні запити для аналізу коду
• Працює з Git-репозиторіями
• Написаний на Rust
Цей інструмент може бути корисним для швидкого розуміння структури та призначення коду в незнайомих проектах.
#Rust, #AI
@sourcefuture
👨💻2😱1
Bark - інноваційна модель генерації аудіо від Suno AI! Ця модель здатна створювати реалістичне багатомовне мовлення, музику, фонові шуми та звукові ефекти. Bark також відтворює невербальну комунікацію, як сміх чи плач. Підтримується понад 100 голосових пресетів різними мовами. Як повністю генеративна модель, Bark може неочікувано відхилятися від заданого сценарію.
#Python, #AI
@sourcefuture
#Python, #AI
@sourcefuture
🔥4
awesome-llm-apps - Чудова колекція додатків на основі великих мовних моделей (LLM) з використанням RAG (Retrieval Augmented Generation) та AI-агентів. Репозиторій містить проекти, що використовують моделі OpenAI, Anthropic, Google та навіть відкриті моделі, які можна запускати локально. Тут ви знайдете AI-агентів для підтримки клієнтів, інвестицій, журналістики, фінансів, подорожей та інших сфер. Також представлені туторіали з RAG, LLM з пам'яттю, чат-боти для роботи з різними джерелами даних та багато іншого. Це чудовий ресурс для вивчення практичного застосування LLM у різних доменах.
#Python, #LLM, #AI
@sourcefuture
#Python, #LLM, #AI
@sourcefuture
👍6
Weaviate - відкрита векторна база даних, яка зберігає як об'єкти, так і вектори, дозволяючи поєднувати векторний пошук зі структурованою фільтрацією. Weaviate забезпечує відмовостійкість та масштабованість хмарної бази даних. Основні переваги:
• Швидкість - пошук найближчих сусідів серед мільйонів об'єктів за мілісекунди
• Гнучкість - можливість векторизації даних при імпорті або завантаження власних векторів
• Готовність до промислового використання - підтримка масштабування, реплікації та безпеки
• Розширені можливості - рекомендації, узагальнення, інтеграція з нейронними пошуковими системами
Weaviate підтримує роботу з текстом, зображеннями та їх комбінаціями, що дозволяє створювати чат-боти, рекомендаційні системи, класифікатори та інші AI-додатки.
#Go, #AI
@sourcefuture
• Швидкість - пошук найближчих сусідів серед мільйонів об'єктів за мілісекунди
• Гнучкість - можливість векторизації даних при імпорті або завантаження власних векторів
• Готовність до промислового використання - підтримка масштабування, реплікації та безпеки
• Розширені можливості - рекомендації, узагальнення, інтеграція з нейронними пошуковими системами
Weaviate підтримує роботу з текстом, зображеннями та їх комбінаціями, що дозволяє створювати чат-боти, рекомендаційні системи, класифікатори та інші AI-додатки.
#Go, #AI
@sourcefuture
🐳2
img2img-turbo - Новий проект для однокрокового перетворення зображень за допомогою Stable Diffusion turbo. Підтримує різноманітні завдання, такі як перетворення ескізу в зображення, зміна дня на ніч та багато іншого. Проект пропонує ефективний метод адаптації однокрокової дифузійної моделі до нових завдань через змагальне навчання. Це дозволяє використовувати внутрішні знання попередньо навчених дифузійних моделей при збереженні швидкого виведення (наприклад, 0,29 секунд на A6000 для зображень 512x512).
#Python, #AI
@sourcefuture
#Python, #AI
@sourcefuture
🔥3👍2
docling - потужний інструмент для підготовки документів до роботи з генеративним ШІ. Бібліотека дозволяє легко парсити документи популярних форматів (PDF, DOCX, PPTX, XLSX, зображення, HTML, AsciiDoc, Markdown) та експортувати їх у Markdown і JSON. Docling має розширене розуміння структури PDF-документів, включаючи макет сторінки, порядок читання і структуру таблиць. Він надає уніфікований формат представлення DoclingDocument та легко інтегрується з LlamaIndex і LangChain для створення потужних RAG/QA застосунків. Бібліотека також підтримує OCR для сканованих PDF та має зручний CLI-інтерфейс.
#Python, #AI
@sourcefuture
#Python, #AI
@sourcefuture
👍2