|
|
|
|
|
ریختشناسی1 و گذردهندههای حالت متناهی2 پویش3 یعنی با گرفتن ورودی، یک ساختار خروجی را بر اساس قواعد موجود بدهد. به عمل بیرونآوردن ریشه اصلی یک واژه؛ ریشهیابی4 گویند. ریختشناسی به علم شناختن اجزای معنیدار از یک واژه گویند که آن واژه را میسازد؛ به این اجزای معنیدار تکواژ یا واژک5 گویند. در کل، دو نوع ریختشناسی وجود دارد. نوع اوّل آن را؛ که بیشتر در زبانهای لاتین مانند انگلیسی مرسوم است؛ ریختشناسی الحاقی6 گویند. گونۀ دیگر را ریختشناسی غیرالحاقی میگویند. یکی از انواع ریختشناسی غیرالحاقی، ریختشناسی الگویی7 و یا ریشه و الگویی8 است؛ که در زبانهایی مانند عربی، عبری و فارسی این نوع از ریختشناسی کاربرد بسیاری دارد. در ریختشناسی الحاقی تمام اشکال یک واژه در یک کلمه نمود پیدا میکند در حالیکه در ریختشناسی غیرالحاقی، ممکنست که شکل یک واژه در سه مکان جدا از هم در یک جمله پیدا شوند. به زبانهایی مانند زبان ترکی که یک واژه آن ممکنست از تعداد بیشتر از یک وند تشکیل شده باشد؛ زبانهای ترکیبی9 گویند. دو نوع روش در ریختشناسی واژهها وجود دارد. روش اوّل روش خمش10 است که از ترکیب یک واژه با اجزای دستوری دیگری، واژهای جدید در همان نوع و ردۀ واژۀ قبلی ایجاد میگردد. به عنوان مثال علامت جمع «ها» در فارسی که با اضافهکردنش به هر اسمی یک اسم جدید به وجود میآید؛ مثلاً واژۀ کتاب با اضافهشدن «ها» به کتابها تبدیل میشود که در این صورت، هم کتاب از نوع دستوری اسم است و هم کتابها. روش دوم، روش اشتقاق11 است. در اشتقاق با افزودن یک جز دستوری به یک واژه، یک واژه در رده جدیدی به وجود میآید. به عنوان مثال اگر تکواژِ «-ِش» را به واژۀ مصدری «کن» اضافه کنیم، واژۀ کنش به وجود میآید که واژه جدید دیگر از نوع مصدر نیست و یک اسم است. برای ساختن یک پویشگر ریختشناسی واژگانی به اطلاعات و اجزای زیر نیاز داریم: 1- واژهنامهای12 که حداقل دارای ریشههای واژگان و نیز وندهای موجود در زبان مورد نظر باشند. در ضمن باید اطلاعات مختصری از قبیل نوع واژه در آن زبان – مثلاً اسم، فعل، صفت و ... – در این واژهنامه موجود باشد. 2- قواعد ریختشناسی13 موجود در هر زبان. 3- قواعد املایی14 در زبان مانند تغییراتی که در روند اشتقاق و ترکیب در واژگان زبان صورت میگیرد. پویش ریختشناسانه با استفاده از گذردهندههای حالت متناهی چهار روش معمول برای تفکر در مورد گذردهندههای حالت متناهی وجود دارد: · گذردهندههای حالت متناهی به عنوان تشخیصدهنده که در صورتی که رشتهای جز یک زبان بود آن را قبول میکند و در غیر این صورت آن رشته را نمیپذیرد. · گذردهندههای حالت متناهی به عنوان مولد که ماشینیست که تعدادی رشته خروجی و خروجی آری| نه تولید مینماید. · گذردهندههای حالت متناهی به عنوان گذردهنده یا مترجم که رشتهای را از ورودی میگیرد و رشتهای دیگر را به خروجی میدهد. · گذردهندههای حالت متناهی به عنوان ارتباطنما که ارتباط موجود را بین مجموعهای از رشتههای ورودی پیدا میکند. ترکیب قواعد ریختشناسی و املایی برای ترکیب قواعد ریختشناسی و املایی، میتوان از یک گذردهندههای حالت متناهی بینابینی استفاده کرد که این گذردهنده مورد بررسی قواعد املایی قرار میگیرد و به خروجی فرستاده میشود. البته پویشکردن با گذردهندههای حالت متناهی کار بسیار پیچیدهتری از ترکیب و اشتقاق است؛ زیرا در پویش امکان ایجاد ابهام15 وجود دارد به عنوان مثال، واژه back در انگلیسی هم میتواند فعل باشد، هم اسم و هم صفت که این باعث ایجاد ابهام در زنجیره پویش میشود. گذردهندههای حالت متناهی بدون نیاز به واژهنامه: ریشهیاب پورتر16 برای استفاده از گذردهندههای حالت متناهی بدون استفاده از یک واژهنامه بسیار بزرگ میتوان از بازیابی اطلاعات17 استفاده کرد. پینوشت: · مطالب فوق از فصل سوم کتاب پردازش مکالمات و زبانهای طبیعی نوشته جورافسکی تهیه شده است. · برای یافتن تعاریف دقیق گذردهنده و انواع آتاماتونهایی که در این مباحث به آنها اشاره میشود میتوانید به این کتاب مراجعه نمایید. 1. Morphology 2. Finite-State Transducers(FST) 3. Parsing 4. Stemming 5. Morpheme 6. Concatenative 7. Templatic 8. Root and Pattern 9. Agglutinative 10. Inflection 11. Derivation 12. Lexicon 13. Morphotactics 14. Orthographic 15. Ambiguity 16. 17. Information Retrieval (IR) |
||
|
+
نوشته شده در جمعه دوم شهریور 1386ساعت 17:49 توسط محمّد صادق رسولی
|
|
||