Learn With Mehdi
1.32K subscribers
8 photos
1 file
95 links
Learn Python for Economics and Finance

کانال یوتوب:
https://youtube.com/channel/UCF3v_GwH3Jg2c-V3hRwmcbg

توییتر:
https://twitter.com/mghodsizadeh

وبسایت:
https://learnwithmehdi.ir
加入频道
سلام به همه امیدوارم خوب باشید.
برای یک پروژه یک اسکریپت با کمک لایبرری docling پیاده‌سازی کردم و با کمی تغییر و بهینه‌سازی ابزار pdf2csv درست کردم که می‌تونید باهاش از فایل‌های pdf که جدول دارند خروجی csv یا xlsx بگیرید.

https://github.com/ghodsizadeh/pdf2csv


برای استفاده ازش کافیه اون رو نصب کنید.

pip install pdf2csv

و با دستور زیر در ترمینال
‍‍‍
pdf2csv convert-cli example.pdf --output-dir ./output --output-format xlsx --rtl --verbose


یا با استفاده مستقیم در پایتون که در گیتهاب راهنماش هست ازش استفاده کنید.


چند ویژگی این ابزار
- پشتیبانی از زبان فارسی و اصلاح متن (مثلا تبدیل روشک به کشور) که در فایل‌های فارسی اتفاق رایجی هست
- تبدیل اعداد به تایپ صحیح در دیتافریم

ممنون میشم که این ابزار رو تست کنید، اگر جایی مشکلی داشت اینجا یا در گیتهاب به من اطلاع بدید و اگر در گیتهاب اکانت دارید با یک ستاره از این پروژه حمایت کنید.

https://github.com/ghodsizadeh/pdf2csv
👍17🔥84👎1
Please open Telegram to view this post
VIEW IN TELEGRAM