
ارائه روشی متفاوت در بخش بندی بدنه زیرکلمات فارسی
Presenting a different method in segmenting the body of Persian sub words
نویسندگان :
زهرا بهمنی ( دانشگاه صنعتی خاتم الانبیاء بهبهان )
چکیده
در سیستم های بازشناسی و بازیابی اسناد فارسی یکی از مهمترین چالش ها، بخش بندی بدنه کلمات است. در ساختار نوشتار فارسی با توجه به ساختار بهم پیوسته کلمات نیاز به یافتن محل دقیق اتصال حروف در روش های مبتنی بر جداسازی است. در این پژوهش نگاهی متفاوت به ساختار نوشتار زبان فارسی ارائه شده است. در این روش نیازی به یافتن محل دقیق اتصال حروف نیست. برای این کار به جای بخش بندی بدنه زیرکلمات به حروف، بدنه به زیرحروف شکسته شده اند. برای این کار ابتدا بخش-هایی که صرفا نقش اتصال دهنده زیرحروف را داشته و تاثیری در ماهیت حرف نداشته اند مشخص و از بدنه حذف شده اند. بر این اساس شیوه متفاوتی در بخش بندی بدنه کلمات فارسی معرفی شده است. در این روش با توجه به عدم نیاز به تخمین نقطه انفصال، خطای ناشی از تشخیص غلط آن حذف شده است. با توجه به تعداد محدود دیکشنری تعریف شده برای زیرحروف نهایی، فرآیند تشخیص زیرحروف با خطای کمتر از 1% انجام شده است.کليدواژه ها
بخش بندی، بازشناسی اسناد، بازیابی اسناد، شبکه عصبی RBFکد مقاله / لینک ثابت به این مقاله
برای لینک دهی به این مقاله، می توانید از لینک زیر استفاده نمایید. این لینک همیشه ثابت است :نحوه استناد به مقاله
در صورتی که می خواهید در اثر پژوهشی خود به این مقاله ارجاع دهید، به سادگی می توانید از عبارت زیر در بخش منابع و مراجع استفاده نمایید:زهرا بهمنی , 1400 , ارائه روشی متفاوت در بخش بندی بدنه زیرکلمات فارسی , بیستمین کنفرانس ملی دانشجویی مهندسی برق ایران
دیگر مقالات این رویداد
© کلیه حقوق متعلق به دانشگاه رازی کرمانشاه میباشد.