Выясним, насколько высокопроизводительна написанная на Rust pypolars. Сравним её с pandas на алгоритме сортировке и при конкатенации данных с 25 миллионами записей, а также объединении двух CSV-файлов.
https://nuancesprog.ru/p/11219
#статьи #Python #Pandas #DataScience
@pro_python_code
https://nuancesprog.ru/p/11219
#статьи #Python #Pandas #DataScience
@pro_python_code
🗺 Набор функций Python для рисования красивых карт из данных OpenStreetMap. Основан на библиотеках osmnx, matplotlib и shapely.
Github
Docs
Colab
@pro_python_code
Github
Docs
Colab
@pro_python_code
3 пакета Python для генерации синтетических данных
В процессе решения задачи при работе с данными нередко возникает ситуация, когда получение реальных данных сложно, к примеру, если речь идет о конфиденциальной информации, либо сбор данных занимает большое количество времени, либо просто необходимо протестировать проект с данными, которые соответствуют определенным критериям. Для решения ситуации мы можем искусственно сгенерировать данные с помощью языка программирования.
Существует множество пакетов для генерации данных, таких как DataSynthesizer, pydbgen, Mimesis, SDV, plaitpy, TimeSeriesGenerator, Gretel Synthetics, Scikit-learn, Mesa и др. Рассмотрим три самых интересных, в плане функциональности и простоты использования, способа генерации синтетических данных с помощью пакетов Python.
Читать дальше
@pro_python_code
В процессе решения задачи при работе с данными нередко возникает ситуация, когда получение реальных данных сложно, к примеру, если речь идет о конфиденциальной информации, либо сбор данных занимает большое количество времени, либо просто необходимо протестировать проект с данными, которые соответствуют определенным критериям. Для решения ситуации мы можем искусственно сгенерировать данные с помощью языка программирования.
Существует множество пакетов для генерации данных, таких как DataSynthesizer, pydbgen, Mimesis, SDV, plaitpy, TimeSeriesGenerator, Gretel Synthetics, Scikit-learn, Mesa и др. Рассмотрим три самых интересных, в плане функциональности и простоты использования, способа генерации синтетических данных с помощью пакетов Python.
Читать дальше
@pro_python_code
Что такое хэш-функция, как работает алгоритм хэширования в Python, и как это применяется в повседневной жизни.
Известно, что хэш-функция создает уникальный цифровой отпечаток из исходной информации. Итоговое хэширования информации называют хэш-суммой или просто хэшам.
Как же это работает? Хэш-функция берет определенную информацию, например, часть текста или пароль от вашего аккаунта, это может быть даже отдельный файл и преобразует эту информацию в строку определенной длины. Эта строка всегда будет иметь одинаковую длину вне зависимости от того, какого размера была входная информация. Существует достаточно много различных хеш- алгоритмов. Например, слово bitcoin, пропущенное через хэш алгоритм sha-256 будет выглядеть вот так.
Читать Дальше
@pro_python_code
Известно, что хэш-функция создает уникальный цифровой отпечаток из исходной информации. Итоговое хэширования информации называют хэш-суммой или просто хэшам.
Как же это работает? Хэш-функция берет определенную информацию, например, часть текста или пароль от вашего аккаунта, это может быть даже отдельный файл и преобразует эту информацию в строку определенной длины. Эта строка всегда будет иметь одинаковую длину вне зависимости от того, какого размера была входная информация. Существует достаточно много различных хеш- алгоритмов. Например, слово bitcoin, пропущенное через хэш алгоритм sha-256 будет выглядеть вот так.
Читать Дальше
@pro_python_code
Forwarded from Анализ данных (Data analysis)
📏 Как измерить опоссумов линейной регрессией
А что если использовать свои навыки регрессии, чтобы предсказать длину головы опоссума по остальным метриками его тела?
Для тех, кто подзабыл: линейная регрессия— это регрессионная модель, которая позволяет описать зависимость одной переменной от одной или нескольких других переменных с линейной функцией зависимости.
В открытом доступе есть датасет про опоссумов. Для расчёта нужно взять csv-файл, который содержит информацию из девяти метрик каждого из 104 горных кистехвостых опоссумов, отловленных в семи местах от Южной Виктории до центрального Квинсленда.
➡️ Читать
🎯Датасет
🔗Код
@data_analysis_ml
А что если использовать свои навыки регрессии, чтобы предсказать длину головы опоссума по остальным метриками его тела?
Для тех, кто подзабыл: линейная регрессия— это регрессионная модель, которая позволяет описать зависимость одной переменной от одной или нескольких других переменных с линейной функцией зависимости.
В открытом доступе есть датасет про опоссумов. Для расчёта нужно взять csv-файл, который содержит информацию из девяти метрик каждого из 104 горных кистехвостых опоссумов, отловленных в семи местах от Южной Виктории до центрального Квинсленда.
➡️ Читать
🎯Датасет
🔗Код
@data_analysis_ml
Как быстро создать и развернуть веб-приложение на Python
В этой статье речь пойдет о разработке и развертывании простейшего дашборда по COVID-19 с помощью Streamlit. Streamlit — фреймворк, предназначенный для быстрого создания приложений по обработке данных путем развертывания организованного на Python пользовательского интерфейса. Streamlit не требует от разработчика предшествующего опыта (хотя практические навыки, конечно, не помешают).
Начнем с создания виртуальной среды для проекта. Затем напишем код на Python, который будет служить движком приложения. Потом воспользуемся библиотекой Streamlit, чтобы создать пользовательский интерфейс для кода на Python, и, наконец, развернем приложение. Надеюсь, это пошаговое руководство даст вам полное представление о процессе веб-разработки на Python.
Читать дальше
@pro_python_code
В этой статье речь пойдет о разработке и развертывании простейшего дашборда по COVID-19 с помощью Streamlit. Streamlit — фреймворк, предназначенный для быстрого создания приложений по обработке данных путем развертывания организованного на Python пользовательского интерфейса. Streamlit не требует от разработчика предшествующего опыта (хотя практические навыки, конечно, не помешают).
Начнем с создания виртуальной среды для проекта. Затем напишем код на Python, который будет служить движком приложения. Потом воспользуемся библиотекой Streamlit, чтобы создать пользовательский интерфейс для кода на Python, и, наконец, развернем приложение. Надеюсь, это пошаговое руководство даст вам полное представление о процессе веб-разработки на Python.
Читать дальше
@pro_python_code
🚀 @machinelearning_interview - в Канале собраны все возможные вопросы и ответы с собеседований по Аналитике данных и Машинному обучению на Pyhon. Для всех уровней разработчиков от авторов популярного канала Machine learning.
Материалы канала реально помогут подготовиться к data science собеседованию.
👉Перейти
Материалы канала реально помогут подготовиться к data science собеседованию.
👉Перейти
🕸 Репозиторий открытого проекта парсинга веб-страниц предназначен для обмена знаниями и опытом о парсинге веб-страниц с помощью Python.
Github
@pro_python_code
Github
@pro_python_code
diagrams – инструмент, который позволяет нарисовать архитектуру облачной системы в коде Python
Целью проекта является прототипирования новой системной архитектуры без каких-либо инструментов проектирования
Вы также можете описать или визуализировать существующую архитектуру
Github
Примеры
@pro_python_code
Целью проекта является прототипирования новой системной архитектуры без каких-либо инструментов проектирования
Вы также можете описать или визуализировать существующую архитектуру
Github
Примеры
@pro_python_code
FastPhotoStyle – утилита на основе нейронной сети позволяющая объединять изображения в нечто новое
Детали алгоритма, лежащего в основе кода, задокументированы в статье arxiv
↪️ Ссылка на проект
📖 Инструкция
@pro_python_code | #Python #Photo
Детали алгоритма, лежащего в основе кода, задокументированы в статье arxiv
↪️ Ссылка на проект
📖 Инструкция
@pro_python_code | #Python #Photo
🔔 Создай уведомления с помощью Python
Бывают ситуации, когда при работе с кодом вас срочно отвлекли на другуюзадачу, либо время выполнения программы длится несколько часов, а может и дней. Как же в таком случае не пропустить окончание выполнения программы?
Точно, уведомления! Хм, а звуковые или текстовые? Разберемся, что лучше и рассмотрим 3 способа отправки уведомлении на языке Python.
➡️ Читать
@pro_python_code
Бывают ситуации, когда при работе с кодом вас срочно отвлекли на другуюзадачу, либо время выполнения программы длится несколько часов, а может и дней. Как же в таком случае не пропустить окончание выполнения программы?
Точно, уведомления! Хм, а звуковые или текстовые? Разберемся, что лучше и рассмотрим 3 способа отправки уведомлении на языке Python.
➡️ Читать
@pro_python_code
🐍 Terality — злой брат близнец Pandas
Сегодня существует огромное количество инструментов для работы с данными, например, Dask, Vaex, cuDF и, конечно, всеми любимый Pandas. Давайте немного расширим этот арсенал таким инструментом, как Terality.
Если вы спросите, является ли Terality инструментом, который может заменить медленный Pandas – однозначного ответа на этот вопрос дать нельзя. Скорее это тот инструмент, который является братом близнецом, но с куда более хорошими показателями работы с большими данными. Он имеет идентичный синтаксис с Pandas, но работает быстрее и не зависит от железа на вашем ПК.
Звучит заманчиво? — Давайте разбираться.
Terality — инструмент обработки данных, который работает на больших кластерах. С его помощью вы сможете быстро работать с наборами данных любых размеров.
Отсюда следует:
1. У Terality нет ограничений на ОЗУ, а значит и на размер обрабатываемых данных.
2. Все что от вас требуется для обработки сотен ГБ данных — это исключительно высокая скорость интернета.
Простота использования Terality является его главным преимуществом, так как он имеет аналогичный синтаксис с Pandas, переключение между ними займет у вас всего одну строчку кода.
➡️ Читать дальше
🏎 Terality
@pro_python_code
Сегодня существует огромное количество инструментов для работы с данными, например, Dask, Vaex, cuDF и, конечно, всеми любимый Pandas. Давайте немного расширим этот арсенал таким инструментом, как Terality.
Если вы спросите, является ли Terality инструментом, который может заменить медленный Pandas – однозначного ответа на этот вопрос дать нельзя. Скорее это тот инструмент, который является братом близнецом, но с куда более хорошими показателями работы с большими данными. Он имеет идентичный синтаксис с Pandas, но работает быстрее и не зависит от железа на вашем ПК.
Звучит заманчиво? — Давайте разбираться.
Terality — инструмент обработки данных, который работает на больших кластерах. С его помощью вы сможете быстро работать с наборами данных любых размеров.
Отсюда следует:
1. У Terality нет ограничений на ОЗУ, а значит и на размер обрабатываемых данных.
2. Все что от вас требуется для обработки сотен ГБ данных — это исключительно высокая скорость интернета.
Простота использования Terality является его главным преимуществом, так как он имеет аналогичный синтаксис с Pandas, переключение между ними займет у вас всего одну строчку кода.
➡️ Читать дальше
🏎 Terality
@pro_python_code
Python, Tkinter и SQL: разрабатываем приложение для создания словаря и запоминания иностранных слов.
Изучаем Tkinter и основные SQL-команды в ходе разработки программы WordMatch с графическим интерфейсом и CRUD-модулем для удобного создания и редактирования пользовательских словарей.
Приложение WordMatch включает в себя три модуля, которые могут работать и вместе, и по отдельности:
Скрипт для создания пользовательского словаря.
GUI интерфейс и набор CRUD операций для добавления, редактирования и удаления записей в словаре.
GUI интерфейс и скрипт для проверки правильности сопоставления иностранных слов и значений, выведенных в случайном порядке.
Читать дальше
Код
@pro_python_code
Изучаем Tkinter и основные SQL-команды в ходе разработки программы WordMatch с графическим интерфейсом и CRUD-модулем для удобного создания и редактирования пользовательских словарей.
Приложение WordMatch включает в себя три модуля, которые могут работать и вместе, и по отдельности:
Скрипт для создания пользовательского словаря.
GUI интерфейс и набор CRUD операций для добавления, редактирования и удаления записей в словаре.
GUI интерфейс и скрипт для проверки правильности сопоставления иностранных слов и значений, выведенных в случайном порядке.
Читать дальше
Код
@pro_python_code
🧊 Пишем универсальный скрипт с графическим интерфейсом на Python
Многим приходилось сталкиваться с необходимостью анализа большого количества данных при помощи Python по запросам начальства или коллег. Однотипные запросы поступают с определенной периодичностью, и не составляет труда подставить новые данные в свой код и провести анализ. Но иногда из-за определенной нагрузки не всегда хочется заниматься таким анализом. Намного проще сделать скрипт с графическим интерфейсом, чтобы сам заказчик для анализа данных мог нажать пару кнопок и получить желаемый результат. Тем более, можно изначально вложить в интерфейс столько «хотелок» заказчика для анализа, сколько будет душе угодно.
Покажу вам, как достичь желаемого на примере библиотеки для Python PySimpleGUI.
➡️ Читать дальше
⚙️ Pysimplegui
@pro_python_code
Многим приходилось сталкиваться с необходимостью анализа большого количества данных при помощи Python по запросам начальства или коллег. Однотипные запросы поступают с определенной периодичностью, и не составляет труда подставить новые данные в свой код и провести анализ. Но иногда из-за определенной нагрузки не всегда хочется заниматься таким анализом. Намного проще сделать скрипт с графическим интерфейсом, чтобы сам заказчик для анализа данных мог нажать пару кнопок и получить желаемый результат. Тем более, можно изначально вложить в интерфейс столько «хотелок» заказчика для анализа, сколько будет душе угодно.
Покажу вам, как достичь желаемого на примере библиотеки для Python PySimpleGUI.
➡️ Читать дальше
⚙️ Pysimplegui
@pro_python_code
pickle_—_Сериализация_Python_объекта_Python_3.pdf
1.1 MB
🔥 Типизированный Python для профессиональной разработки
Автор: Алексей Голобурдин
Год: 2022
Читать книгу
#books #python
Автор: Алексей Голобурдин
Год: 2022
Читать книгу
#books #python
📃 Анализируем текст. Text Mining на Python
Всем добрый день! Хочу поделиться опытом анализа текста. Возьму рабочий пример документов в отношении граждан, проходящих процедуру банкротства. Задача заключается в автоматизированном сборе информации из текста 300 тыс. документов такой как: номер счета, с которого можно снять средства, разрешенная сумма, период действия. Пример интересующей меня части документа:
➡️ Читать дальше
@pro_python_code
Всем добрый день! Хочу поделиться опытом анализа текста. Возьму рабочий пример документов в отношении граждан, проходящих процедуру банкротства. Задача заключается в автоматизированном сборе информации из текста 300 тыс. документов такой как: номер счета, с которого можно снять средства, разрешенная сумма, период действия. Пример интересующей меня части документа:
➡️ Читать дальше
@pro_python_code