021-71053903 [email protected] پشتیبانی از شنبه تا چهارشنبه ساعت 9 الی 16

دانلود دیتاست FAspell

اشتباهات املایی فارسی

 

توضیح مختصر :

مجموعه داده FASpell برای ارزیابی الگوریتم های بررسی املا توسعه یافته است. این شامل مجموعه ای از جفت کلمات فارسی (فارسی) غلط املایی و اشکال تصحیح شده مربوط به آنها شبیه به مجموعه داده ASpell است که برای زبان انگلیسی استفاده می شود.

 

 

ویژگی های دیتاست :

  • faspell_main: لیستی از 5050 جفت که از اشتباهات دانش آموزان دبستانی و تایپیست های حرفه ای جمع آوری شده است.
  • faspell_ocr: لیست 800 جفت جمع آوری شده از خروجی یک سیستم OCR فارسی.

 

دست اندکاران جمع آوری این دیتاست :

  • Barari, L., & QasemiZadeh, B. (2005). CloniZER spell checker adaptive language independent spell checker. In AIML 2005 Conference CICC, Cairo, Egypt (pp. 65-71).
  • QasemiZadeh, B., Ilkhani, A., & Ganjeii, A. (2006, June). Adaptive language independent spell checking using intelligent traverse on a tree. In Cybernetics and Intelligent Systems, 2006 IEEE Conference on (pp. 1-6). IEEE.

 

مجوز ها :FASpell توسط بهرنگ قاسمی زاده ساخته شده و دارای مجوز بین المللی Creative Commons Attribution 4.0 است.

 

یافتن راه حل مشکلات :

  • کدام نوع غلط املایی بیشتر رخ می دهد؟
  • آیا احتمال غلط نویسی برخی از شخصیت ها بیشتر است؟ کلمات خاص؟
  • آیا می توانید بر اساس این داده ها یک املای خودکار حالت محدود برای فارسی بسازید؟

مقالات مرتبط‌:

دانلود باکس

محمدرضا حسنی

224 مطلب منتشر شده

دانش آموخته رشته فناوری اطلاعات / موسس پایتونی ها

درباره این مطلب نظر دهید !

محصولات فروش پایتونی ها

%60
تخفیف

آموزش فیگما (Figma)

30,000 تومان
3
%69
تخفیف

آموزش برنامه نویسی پایتون

35,000 تومان
2