021-71053903 [email protected] پشتیبانی از شنبه تا چهارشنبه ساعت 9 الی 16

استخراج متن از عکس با پایتون ( فارسی )

استخراج متن از عکس با پایتون (فارسی)

سلام خدمت تمامی شما کاربران خوب وبسایت پایتونی ها با یک پست آموزشی دیگه در خدمت شما عزیزان هستیم از جمله آموزش های هوش مصنوعی در قسمت OCR یا پردازش نوری کاراکتر ها خوب خیلی سریع و بدون مقدمه میریم سراغ اصل مطلب یعنی کار با نرم افزار OCR.

 

اگر نمی دانید OCR چیست از این مقاله استفاده کنید.

 

پایتون یک زبان بسیار قدرتمند هستش برای پردازش های پیچیده و سیستم های مبتنی بر هوش مصنوعی امروز که در بیشتر اوقات برای اسناد از سیستم OCR استفاده می کنند دیگر نظارت انسانی بر سیستم های اتوماسیون دیگر معنایی نداشته و بیشتر سیستم ها بر اساس یادگیری های بدون نظارت سعی بر استفاده از OCR دارند زبان برنامه نویسی پایتون یکی از قدرتمند ترین زبان های برنامه نویسی در ضمینه استفاده از هوش مصنوعی در سیستم OCR است یکی از کتابخانه هایی که در این زبان وجود دارد کتابخانه :

tesseract

در پایتون می باید.

 

tesseract چیست ؟

Tesseract یک پلت فرم تشخیص کاراکتر نوری منبع باز (OCR) است. OCR متن را از تصاویر و اسناد متن دستی یا چاپی استخراج می کند و سند را به یک فایل متنی قابل جستجو، PDF یا اکثر فرمت های رایج دیگر که ماشین ها(کامپیوتر ) خروجی می دهد تا از آن استفاده کنند.

Python-tesseract یک نوع کتابخانه فرعی برای موتور Tesseract-OCR گوگل است. همچنین به‌عنوان یک اسکریپت فراخوانی مستقل برای تسراکت مفید است، زیرا می‌تواند همه انواع تصاویر را که توسط کتابخانه‌های تصویربرداری Pillow و Leptonica پشتیبانی می‌شوند، از جمله jpeg، png، gif، bmp، tiff و غیره را خوانده. علاوه بر این، اگر به عنوان یک اسکریپت استفاده شود، Python-tesseract متن شناسایی شده را به جای نوشتن آن در یک فایل چاپ می کند.

 

 

tesseract پشتیبانی

tesseract  در زمان نگارش این مقاله بیشتر از 100 زبان را پشتیبانی می کند که در زیر لیستی از آن زبان ها برای شما آماده کرده ایم:

  1. Afrikaans
  2. AmharicArabic
  3. Assamese
  4. Azerbaijani
  5. Azerbaijani – Cyrillic
  6. Belarusian
  7. Bengali
  8. Tibetan
  9. Bosnian
  10. Bulgarian
  11. Catalan; Valencian
  12. Cebuano
  13. Czech
  14. Chinese – Simplified
  15. Chinese – Traditional
  16. Cherokee
  17. Welsh
  18. Danish
  19. German
  20. Dzongkha
  21. Greek, Modern (1453-)
  22. English
  23. English, Middle (1100-1500)
  24. Esperanto
  25. Estonian
  26. Basque
  27. Persian
  28. Finnish
  29. French
  30. German Fraktur
  31. French, Middle (ca. 1400-1600)
  32. Irish
  33. Galician
  34. Greek, Ancient (-1453)
  35. Gujarati
  36. Haitian; Haitian Creole
  37. Hebrew
  38. Hindi
  39. Croatian
  40. Hungarian
  41. Inuktitut
  42. Indonesian
  43. Icelandic
  44. Italian
  45. Italian – Old
  46. Javanese
  47. Japanese
  48. Kannada
  49. Georgian
  50. Georgian – Old
  51. Kazakh
  52. Central Khmer
  53. Kirghiz; Kyrgyz
  54. Korean
  55. Kurdish
  56. Lao
  57. Latin
  58. Latvian
  59. Lithuanian
  60. Malayalam
  61. Marathi
  62. Macedonian
  63. Maltese
  64. Malay
  65. Burmese
  66. Nepali
  67. Dutch; Flemish
  68. Norwegian
  69. Oriya
  70. Panjabi; Punjabi
  71. Polish
  72. Portuguese
  73. Pushto; Pashto
  74. Romanian; Moldavian; Moldovan
  75. Russian
  76. Sanskrit
  77. Sinhala; Sinhalese
  78. Slovak
  79. Slovenian
  80. Spanish; Castilian
  81. Spanish; Castilian – Old
  82. Albanian
  83. Serbian
  84. Serbian – Latin
  85. Swahili
  86. Swedish
  87. Syriac
  88. Tamil
  89. Telugu
  90. Tajik
  91. Tagalog
  92. Thai
  93. Tigrinya
  94. Turkish
  95. Uighur; Uyghur
  96. Ukrainian
  97. Urdu
  98. Uzbek
  99. Uzbek – Cyrillic
  100. Vietnamese
  101. Yiddish

 

نحوه نصب نرم افزار

ابتدا برای اینکه شما بتوانید از قابلیت استخراج متون فارسی از عکس ها و یا فایل های PDF استفاده کنید باید موتور اصلی این کتابخانه را بر روی سیستم عامل خود نصب کنید که با استفاده از قسمت دانلود باکس همین مقاله می توانید اقدام به نصب ورژن مورد نظر بر اساس سیستم عامل خود شوید.

پس از انتخاب نسخه مناسب آن نسخه در سیستم عامل خود نصب کنید:

آموزش OCR

آموزش OCR

پس از نصب موتور tesseract باید فایل دیتا فارسی مناسب را نیز دانلود کرده و در پوشه زیر قراردهید:

C:\Program Files\Tesseract-OCR\tessdata

 

پس از انجام مراحل بالا حال وقت آن را رسیده که کتابخانه tesseract را با دستور زیر نصب کنید:

pip install pytesseract

اگر می خواهید در محیط ژوپیتر نوت بوک اقدام به نصب کتابخانه tesseract باید از دستور زیر استفاده نمایید:

!pip install pytesseract

اگر می خواهید از طریق پکیج منجر Anaconda اقدام به نصب نرم افزار بفرمایید باید دستور زیر استفاده کنید:

conda install -c conda-forge pytesseract
conda install -c conda-forge/label/cf202003 pytesseract

 

 

ساخت نرم افزار استخراج متن از عکس

پس از انجام بالا مراحل مقدماتی ساخت نرم افزار برای شما محیا است خوب حالا باید در محیط کد نویسی خود ابتدا کتابخانه tesseract وارد کرده تا بتوانید از آن استفاده کنید شما می توانید با استفاده از دستور زیر این کار را به راحتی انجام دهید:

import pytesseract

 

پس از انجام مراحل بالا ما نیاز به عکس مورد نظر داریم ما به صورت فارسی یک عکس با یکسری از محتویات ساختگی را آماده کرده و می خواهیم با استفاده از نرم افزار که ساخته ایم اقدام به استخراج این داده برای کار های ماشینی کنیم برای استفاده از این عکس کافی است آن را دانلود کرده و در فضای مورد استفاده نرم افزار ذخیره کنید:

آموزش OCR

آموزش OCR

پس از دانلود تصویر بالا به سراغ نرم افزار خودمان باز میگردیم. ما در وحله اول احتیاج به پردازش عکسی که می خواهیم از استخراج متون را انجام دهیم داریم پس یا باید از کتابخانه های OpenCv و یا Pillow و یا PIL استفاده کنیم اما ما مسیر ساده تری را برای استخراج متون در نظر گرفته ایم به کد زیر دقت کنید:

#صدا کردن کتابخانه مورد نظر
import pytesseract

# ثبت محل اصلی کتابخانه
pytesseract.pytesseract.tesseract_cmd ='C:/Program Files/Tesseract-OCR/tesseract.exe'

# عملیات استخراج به زبان فارسی
result = pytesseract.image_to_string(r'C:/Users/TPS/Desktop/tarsiv-test.jpg', lang='fas')

# نمایش متون استخراج شده
print(result)

به تکه کد بالا دقت کند:

در مرحله اول اقدام به وارد کردن کتابخانه مورد نظر کردیم سپس در محله بعد:

با استفاده از کدخط 4 در بالا یعنی :

pytesseract.pytesseract.tesseract_cmd ='C:/Program Files/Tesseract-OCR/tesseract.exe'

آدرس دقیق موتور که در مرحله قبل آموزش دانلود آن را قرار دادیم به نرم افزار خود می دهیم، سپس با استفاده از دستوز زیر اقدام به استخراج تصویری که برای نمونه برای شما قراردادیم کردیم:

result = pytesseract.image_to_string(r'C:/Users/TPS/Desktop/tarsiv-test.jpg', lang='fas')

دقت داشته باشید در کد بالا هم باید ادرس عکس به درستی به نرم افزار داده شود تا نرم افزار بتواند پردازش روی متون را به راحتی انجام دهد و هم باید زبان مورد نظر انتخاب شود که در اینجا ما با تکه کد :

lang='fas'

زبان مورد نظر خود را بر روی زبان فارسی انتخاب کرده ایم سپس با اجرای نرم افزار باید خروجی زیر را دریافت کنیم:

خروجی:

آموزش OCR

آموزش OCR

 

جمع بندی نهایی:

حالا با استفاده از خروجی بالا می توانید فایل های دیگری را نیز تست کرده و قدرت نرم افزار نوشته شده را نیز بسنجید.با تشکر از وقتی که برای خواندن این مقاله صرف کردید اگر این مقاله برای شما مفید با نشر کردن این مقاله ما را نیز همراهی کنید.

 

منبع:

گروه تولید محتوای پایتونی ها

دانلود باکس

محمدرضا حسنی

224 مطلب منتشر شده

دانش آموخته رشته فناوری اطلاعات / موسس پایتونی ها

درباره این مطلب نظر دهید !

مطالب پرمخاطب پایتونی ها

آموزش OCR

OCR چیست ؟

3
دقیـقه مطالعه
ادامه ...

محصولات فروش پایتونی ها

%60
تخفیف

آموزش فیگما (Figma)

30,000 تومان
3
%69
تخفیف

آموزش برنامه نویسی پایتون

35,000 تومان
2