پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی


عنوان :استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی

 

برای رعایت حریم خصوصی نام نگارنده درج نمی شود

استاد راهنما:

آقای دکتر مروی

 

استاد مشاور:

آقای دکتر احمدی فرد

 

پایان نامه ارشد جهت اخذ درجه کارشناسی ارشد

تکه هایی از متن به عنوان نمونه :

چکیده

در این پایان­نامه روشی برای شناسایی مصوت­های فارسی در کلمات تک سیلابی ارائه می­شود. برای این منظور پس از جداسازی فریم­های تصویر و انتخاب فریم­هایی که مربوط به تلفظ مصوت موجود در کلمه تک سیلابی بودند و نیز استخراج ناحیه­ای پیرامون لب­ها، ویژگی­های مختلفی همچون ضرایب کسینوسی و ضرایب موجک و ضرایب MFCC برای تشخیص مصوت­ها در کلمات تک سیلابی استخراج گردید. پس از آن توسط روش کاهش ویژگی LSDA، ویژگی­ها را کاهش داده و سایز ویژگی­ها را به 25 تغییر دادیم. در نهایت موثرترین ویژگی­ها برای شناسایی مشخص گردید. در این تحقیق از پایگاه داده­ای شامل کلمات تک سیلابی، که توسط گویندگان مختلفی ادا شده بود و شامل 580 ویدیو بود استفاده گردید. از 381 ویدیو برای آموزش و از 199 ویدیو برای آزمایش استفاده نمودیم. ویژگی­های استخراجی به عنوان ورودی به شبکه عصبی دو لایه با 20 نرون در لایه میانی و یک نرون در خروجی اعمال شدند. از تابع فعالسازی تانژانت سیگموید در لایه میانی و تابع خطی در خروجی استفاده کردیم و برای آموزش شبکه از روش گرادیان نزولی با نرخ آموزش متغیر استفاده نمودیم. بهترین نرخ شناسایی 95.75 بود که از محاسبه ضرایب MFCC از 4/1 بردار ضرایب DCT بعد از اسکن زیگزاگ ماتریس ضرایب کسینوسی به دست آمد.

کلمات کلیدی:

لب خوانی، شناسایی مصوت، ویژگی های زمانی- فرکانسی، کاهش ابعاد ویژگی، شبکه های عصبی

 

 

1 مقدمه

از دیر باز بشر، با این واقعیت آشنا بوده است که برای درک بهتر گفتار می­تواند به حرکات لب و دهان گوینده در حین گفتار و هنگام ادای کلمات توجه کند. احتمالاً همه ما به طور ناخودآگاه تا حدی از این جنبه غیر صوتی گفتار استفاده کرده و هنگامی که محیط شنوایی، دچار همهمه و سر و صدا و آغشته به نویز صوتی می‌شود، به حرکات لب گوینده توجه بیشتری می‌کنیم. این امر در مورد مخاطبینی که دارای نقص در سیستم شنوایی خود هستند از اهمیت بالاتری برخوردار می­باشد. ضمناً حرکات لب یا سیگنال تصویری گفتار می­تواند به طور قابل ملاحظه­ای دقت سیستم­های تشخیص گفتار صوتی را خصوصاً در محیط­های نویزی بهبود بخشد. همزمان کردن حرکات لب و صدای گفتار، برطرف کردن خطای تأخیر بین صوت و تصویر و دوبله اتوماتیک تصویری از دیگر کاربردهای این مقوله می­باشد.

افرادی زیادی هستند که دچار آسیب در سیستم صوتی بوده و به دلیل عدم برخورداری از صدای مناسب، قادر به برقراری ارتباط با دیگران نیستند این افراد معمولاً توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم است را داشته و در حالت ایده­آل می­توان با انجام لب­خوانی به مقصود آن­ها پی برد. گفتار بشری به دفعات به صورت صوتی و تصویری در طبیعت تکرار شده است. گفتار صوتی به شکل موج تولید شده توسط گوینده و گفتار دیداری به حرکات لب و زبان و ماهیچه­هایی که در صورت است اشاره دارد. در گفتار صوتی واحد اصلی واج[1] نامیده می­شود. در حوزه تصویری واحد اصلی از حرکات دهان ویزم[2] نامیده می­شود که کوچک‌ترین جزء دیداری صحبت است. بسیاری از صداهای صوتی هستند که از نظر دیداری مبهم هستند این صداها به کلاس مشابه­ای گروه­بندی شده که یک ویزم را نشان می­دهد. یک نگاشت چند به یک بین واج­ها و ویزم­ها هست یعنی می­توان مجموعه­ای از واج­ها را در نظر گرفت که تأثیر مشابه­ای بر روی شکل دهان دارند. در جدول­های زیر گروه­بندی ویزم­ها در زبان انگلیسی و فارسی آورده شده است [1] , [2].

جدول 1- 1 گروه­بندی ویزم­ها در انگلیسی

n,l8p,b,m1
R9f,v2
A10th,dh3
E11t,d4
I12k,g5
O13sh,zh6
U14s,z7

جدول 1- 2 گروه­بندی ویزم­ها در زبان فارسی

1. ف، و5. ر9. آ
2. ث، س، ص، ز، ذ، ظ، ض6.ج، چ، گ، ک، ن، ت، د، ی، ط10. ٳ
3. ژ، ش7. ای11. ٱ
4. ب، پ، م8. ٲ12. او

به طور کلی سه روش برای شناسایی صحبت وجود دارد شامل شناسایی صوتی صحبت[3]، شناسایی تصویری صحبت[4]، شناسایی صوتی و تصویری صحبت[5]، که در این­ تحقیق به شناسایی تصویری صحبت پرداخته می­­شود.

این پایان نامه از روی سایت اینجا کلیک کنید