پایان نامه رشته کامپیوتر: طراحي سيستمهاي مدرن اطلاعاتي و بازشناسي خودكار الگوها

در این پست می توانید متن کامل این پایان نامه را  با فرمت ورد word دانلود نمائید:

 فصل اول- مقدمه

 پيدايش علوم و فنون جديد، جوامع بشري را با شكلهاي مختلفي از اطلاعات روبرو نموده است. سطح توسعة يك جامعه را مي توان با مقدار اطلاعات و دانش توليد شده در آن ارزيابي كرد. توليد فزايندة اطلاعات به شكلهاي مختلف صورت مي گيرد و با درجات متفاوتي از پيچيدگي همراه ميباشد. در نتيجه نياز به سيستمهاي پردازش اطلاعات بصورت روزافزون افزايش مي يابد. يكي از مسائل مهم در طراحي سيستمهاي مدرن اطلاعاتي، بازشناسي خودكار الگوها است.

 1-1- شناسايي الگو

شناسايي الگو، شاخه اي از هوش مصنوعي است كه با طبقه بندي و توصيف مشاهدات سروكار دارد.شناسايي الگو به ما كمك ميكند داده ها (الگوها) را با تكيه بر دانش قبلي يا اطلاعات آماري استخراج شده از الگوها، طبقه بندي نماييم. الگوهايي كه مي بايست طبقه بندي شوند، معمولاً گروهي از سنجش ها يامشاهدات هستند كه مجموعه نقاطي را در يك فضاي چند بعدي مناسب تعريف مي نمايند.يك سيستم شناسايي الگوي كامل متشكل است از يك حسگر ،كه مشاهداتي را كه مي بايست توصيف يا طبقه بندي شوند جمع آوري مي نمايد، يك سازوكار براي استخراج ويژگي ها كه اطلاعات عددي يا نمادين را از مشاهدات، محاسبه مي كند، (اين اطلاعات عددي را با يك بردار بنام بردار ويژگيها نمايش مي دهند)؛ ويك نظام طبقه بندي يا توصيف كه وظيفه اصلي طبقه بندي يا توصيف الگوها را با تكيه بر ويژگي هاي استخراج شده عهده داراست.

 

 

 

 

 

 

 

 

 

شکل 1-1 نمودار بلوكي يك سيستم شناسايي الگو را نشان مي دهد. همانطوري كه از پيكان هاي برگشتي مشخص است، اين بلوك ها لزوماً مستقل نيستند و بسته به نتايج حاصله گاهي لازم است كه بلوك هاي اوليه مجدداً طراحي گردند تا راندمان كلي سيستم بهبود يابد.

نظام كلاسه بندي يا توصيف معمولا مبتني بر وجود يك مجموعه از الگوهايي است كه قبلا كلاسه بندي يا توصيف شده اند. اين مجموعة الگوها را مجموعة آموزشي و قانون يادگيري منتج شده را قانون يادگيري باسرپرستي(با نظارت) مي نامند همچنين يادگيري ميتواند بصورت بدون نظارت باشد و اين در حالي است كه الگوهايي از قبل به سيستم داده نشده اند و در مقابل، سيستم خود براساس قواعد آماري الگوها، كلاسها را پايه گذاري ميكند.

1-2- كاربردهاي بازشناسي الگو

بازشناسي الگو در بسياري از زمينه ها نقش كاربردي دارد . بازشناسي حروف، بازشناسي نويسنده، تصديق امضاء ، طبقه بندي اثر انگشت و بازشناسي گفتار نمونه هايي از اين كاربردها هستند. شناسايي الگو براي تحليل داده هاي پزشكي نيز بكار گرفته شده است. براي مثال تفسير الكتروكارديوگرام، تحليل تصاوير و طبقه بندي كروموزمها را ميتوان نام برد. نمونه هاي ديگري از اين كاربردها شامل طبقه بندي x اشعه مناطق زراعي، مطالعه آلودگي آبها، آشكار كردن منابع زيرزميني و پيش بيني آب و هواست. در اين نوع كاربردها، تصاوير ارسال شده از ماهواره و تصاويرهوايي به كمك روشهاي بازشناسي الگو تفسير مي شوند. بازرسي تصويري و بازشناسي قطعات ماشيني، از كاربردهاي صنعتي شناسايي الگو هستند. تحليل بافت، آشكارسازي هدف در سيگنالهاي برگشتي رادار يا سونار، طبقه بندي امواج زلزله و تشخيص ذرات شيميائي كاربردهاي ديگري ازبازشناسي الگو مي باشند.

 1-3- طرح پژوهش

در چند دهة گذشته مسألة بازشناسي الگوهاي نوشتاري شامل حروف، ارقام و ساير نمادهاي متداول دراسناد مكتوب شده به زبانهاي مختلف، توسط گروههاي مختلفي از محققين مورد مطالعه و بررسي قرار گرفته است. نتيجة اين تحقيقات منجر به پيدايش مجموعه اي از روشهاي سريع و تا حدزيادي مطمئن بمنظور وارد نمودن اطلاعات موجود دراسناد، مدارك، كتابها و ساير مكتوبات چاپي يا تايپ موسوم بهOCR شده و حتي دستنويس به داخل كامپيوتر شده است. مسئلة بازشناسي حروف الفباي فارسي سابقه اي نه چندان طولاني به همراه دارد. نخستين گزارشهاي رسمي منتشر شده از تلاشهاي انجام گرفته در اين راه، مربوط به ساليان نخست دهة 1980 ميلادي است.

به رغم فراگيري نسبي كاربرد الفباي فارسي در ميان ملل مختلف قارة آسيا،بررسيهاي انجام شده در خصوص يافتن روشهايي براي بازشناسي حروف اين الفبا بسيار محدود بوده است. بواسطة وجود تفاوتهاي اساسي بين نحوة نگارش كلمات فارسي و كلمات لاتين نظيرچسبيده بودن حروف سازندة يك كلمه به يكديگر و تغيير شكل حروف بر اساس موقعيت نسبي قرارگيري آن در يك كلمة فارسي، امكان اعمال مستقيم روشهاي متداول در بازشناسي حروف انگليسي بمنظور شناسايي حروف تشكيل دهندة كلمات فارسي وجود ندارد.

اكثر كارهاي انجام شده در زمينه« اُْسي آر » در رابطه با متون لاتين، چيني و ژاپني بوده است » نرم افزارهاي تجاري « اُْسي آر » لاتين در سالهاي اخير پيشرفت كيفي قابل ملاحظه اي داشته اند. اما« اُْسي آر » فارسي با وجود حجم نسبتاً وسيع تحقيقات دانشگاهي و نياز شديد بازار تجاري به آن، هنوز هم از جايگاه مورد نظر فاصله بسياري دارد و تاكنون هيچ سيستم « اُْسي آر » كارآمدي كه ازنظر دقت و كيفيت محيط نرم افزاري، قابل مقايسه با سيستم هاي « اُْسي آر » لاتين باشد، عرضه نگرديده است. در نتيجه ضرورت انجام تحقيقات بيشتر در زمينه متون فارسي و عربي كاملاً احساس مي شود.

هدف از انجام اين پروژه آزمايش توانايي تكنيك آناليز اجزاي اصلي جهت استخراج ويژگيهاي مربوط به ارقام فارسي و كاربرد آن جهت شناسايي است كه اين امر در فصل آخر محقق شده است. اميد است انجام اين پروژه افقهايي نو را در مبحث آناليز اسناد بگشايد.

فصل دوم- مروري بر سيتمهاي OCR

 2-1-بخشهاي مختلف سيستمهاي ocr

در ادامه ماهيت سيستمهاي ocr، تاريخچه وبخشهاي مختلف آن مورد بررسي قرار ميگيرد.

 2-1-1- بازشناسي نوري حروف

اصطلاح « اُْسي آر »به تكنيك هايي اطلاق مي شود كه در تصاوير اسكن يا فكس شده، نواحي متني را تشخيص مي دهند و سپس اين نواحي(تصويري) را به متن قابل ويرايش تبديل مي نمايند .با دستگاهي به نام اسكنر مي توان تصوير يك صفحه كاغذ را به صورت يك فايل گرافيكي(تصويري)، به رايانه ارسال و در آن ذخيره نمود. بدين ترتيب كاربر م يتواند با يك نر م افزار مناسب نمايش دهنده تصاوير، تصوير صفحه اسكن شده را بر روي نمايشگر رايانه خود ملاحظه نمايد يا آن را چاپ كند؛ اما قادر نخواهد بود كه متن موجود در تصوير سند را ويرايش كند يا آن را مورد جستجو قرار دهد . يك نرم افزار « اُْسي آر » تصوير اسكن شده را ميخواند، محتويات آن (شامل متن، خطوط، تصاوير،  جداول، …)را شناسايي مي نمايد، و سپس آن را به يك قالب قابل ويرايش(در واژ ه پردازها) تبديل مي كند. امروزه بيشتر دستگاههاي اسكنر به نرم افزارهاي « اُْسي آر » مجهز گرديده اند و قادرند متن موجود در يك سند اسكن شده را تشخيص دهند و آن را با همان نحوه قالب بندي، ستون بندي، جدول بندي ونوع فونت مطابق با سند كاغذي اصلي، در قالب يك فايل متني با قالب بندي مناسب ذخيره نمايند.

استفاده از سيستم هاي « اُْسي آر » دو مزيت عمده دارد :

الف. افزايش چشمگير سرعت دسترسي به اطلاعات؛

زيرا در متن بر خلاف تصوير، امكان جستجو و ويرايش وجود دارد.

ب. كاهش فضاي ذخيره سازي؛

زيرا حجم فايل متني استخراج شده از يك تصوير، معمولاً بسيار كمتر از حجم خود فايل تصويري است.

چنين قابليتي امكان استفاده گسترده از رايانه را در پردازش سريع حجم وسيعي از داد ههاي مكتوب شركت ها و مؤسسات مختلف(نظير بانك ها، شركت هاي بيمه، مؤسسات خدمات عمومي، اداره پست، و ديگر نهادهايي كه سالانه با ميليون ها مورد پرداخت، دريافت و حسابرسي امور مشتريان خود مواجه اند) فراهم مي آورد.

 2-1-2- تاريخچه سيستم هاي « اُْسي آر »

از جنبه تاريخي، سيستم هاي « اُْسي آر » تا كنون سه مرحله تكاملي را پشت سر گذاشته اند

الف. مرحله تكوين(از 1900 تا 1980): رد پاي اوليه اقدامات صورت گرفته در زمينه بازشناسي حروف را در سال هاي اول دهه 1900 مي توان يافت و آن زماني است كه « تيورينگ»دانشمند روسي بر آن بود كه به افراد مبتلا به نارسايي هاي بينايي كمك نمايد. اولين اختراع هاي ثبت شده در اين زمينه مربوط به سال هاي 1929و 19 ميلادي هستند اين سيستمها حروف چاپي را با روش تطابق قالبي شناسايي مي كردند؛ به اين صورت كه ماسك هاي مكانيكي مختلفي از مقابل تصوير حرف عبور مي كردند(مكانيكي) و نور از يكسو به آن تابانده مي شد و از سوي ديگر توسط يك آشكارساز نوري دريافت مي گرديد(اپتيكي). وقتي يك انطباق كامل صورت مي گرفت، نور به آشكارساز ميرسيد و حرف ورودي بازشناسي مي شد. اين اختراع به دليل فناوري اپتومكانيكي مورد استفاده در آن، كاربردي نبود. تصور دسترسي به دستگاهي براي بازشناسي حروف تا دهه 1940 ميلادي و ظهور رايانه هاي ديجيتال، به صورت يك رؤيا باقي ماند.

اقدامات اوليه در زمينه بازشناسي حروف، بر متون چاپي يا مجموعه كوچكي از حروف و نمادهاي دستنوشت كه براحتي قابل تشخيص بودند، متمركز گرديده بود. سيستم هاي بازشناسي حروف چاپي كه در اين مقطع زماني عرضه شدند، عمدتاً از روش تطابق قالبي استفاده مي نمودند كه در آن، تصوير ورودي با مجموعه بزرگي از تصاوير حروف، مورد مقايسه قرار م يگرفت. در مورد متون دستنوشت نيز الگوريتم هاي پردازش تصوير كه ويژگي هاي سطح پايين (ويژگي هايي كه مستقيماً و بدون اعمال هيچ تبديلي، از تصاوير استخراج مي شوند) را از تصاوير استخراج مي كنند، در مورد تصاوير دوسطحي اعمال مي شدند تا بردارهاي ويژگي استخراج گردند. سپس اين بردارهاي ويژگي به طبقه بندي كننده هاي آماري سپرده مي شدند. در اين دوره، تحقيقات موفق اما مقيد (منظور از مقيد، مفروض دانستن شرايط و پي شفرض هاي خاص براي كاراكترهاي ورودي است)، بيشتر بر روي حروف و اعداد لاتين انجام گرفت. با اين حال مطالعات چندي نيز بر روي حروف ژاپني، چيني، عبري، هندي، سيريليكي، يوناني و عربي در هر دو زمينه حروف چاپي و دستنوشت آغاز گرديد. با ظهور صفحات رقومي كننده در دهه 1950 كه قادر به تشخيص مختصات حركتي تجاري نيز امكان عرضه يافتند. اين نوآوري سبب شد « اُسي آر » نوك يك قلم مخصوص بودند، سيستم هاي كه محققان بتوانند در زمينه بازشناسي برخط حروف دستنوشت، فعاليت خود را آغاز نمايند. منبع مناسب درباره اقدامات صورت گرفته بر روي بازشناسي برخط حروف تا سال 1980 مي باشد.

 

(ممکن است هنگام انتقال از فایل ورد به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل است)

متن کامل را می توانید دانلود نمائید

چون فقط تکه هایی از متن پایان نامه در این صفحه درج شده (به طور نمونه)

ولی در فایل دانلودی متن کامل پایان نامه

همراه با تمام ضمائم (پیوست ها) با فرمت ورد word که قابل ویرایش و کپی کردن می باشند

موجود است

از لینک زیر می توانید دانلود کنید :

فایل ها برای اینکه حجم آنها پایینتر شود وراحتتر دانلود شوند با فرمت rar یا zip فشرده شده و پسوردگذاری شده اند. پسورد همه فایل های این سایت یکسان است.

برای دریافت پسورد فایل اینجا کلیک کنید

 دانلود متن کامل پایان نامه طراحي سيستمهاي مدرن اطلاعاتي، بازشناسي خودكار الگوها

0 پاسخ

دیدگاه خود را ثبت کنید

تمایل دارید در گفتگوها شرکت کنید؟
در گفتگو ها شرکت کنید.

دیدگاهتان را بنویسید