تبليغاتX
پردازش زبان های طبیعی - ریخت‌شناسی و گذردهنده‌های حالت متناهی

 

ریخت‌شناسی1 و گذردهنده‌های حالت متناهی2

پویش3 یعنی با گرفتن ورودی، یک ساختار خروجی را بر اساس قواعد موجود بدهد. به عمل بیرون‌آوردن ریشه اصلی یک واژه؛ ریشه‌یابی4 گویند. ریخت‌شناسی به علم شناختن اجزای معنی‌دار از یک واژه گویند که آن واژه را می‌سازد؛ به این اجزای معنی‌دار تکواژ یا واژک5 گویند. در کل، دو نوع ریخت‌شناسی وجود دارد. نوع اوّل آن را؛ که بیشتر در زبان‌های لاتین مانند انگلیسی مرسوم است؛ ریخت‌شناسی الحاقی6 گویند. گونۀ دیگر را ریخت‌شناسی غیرالحاقی می‌گویند. یکی از انواع ریخت‌شناسی غیرالحاقی، ریخت‌شناسی الگویی7 و یا ریشه و الگویی8 است؛ که در زبان‌هایی مانند عربی، عبری و فارسی این نوع از ریخت‌شناسی کاربرد بسیاری دارد. در ریخت‌شناسی الحاقی تمام اشکال یک واژه در یک کلمه نمود پیدا می‌کند در حالی‌که در ریخت‌شناسی غیرالحاقی، ممکن‌ست که شکل یک واژه در سه مکان جدا از هم در یک جمله پیدا شوند. به زبان‌هایی مانند زبان ترکی که یک واژه آن ممکن‌ست از تعداد بیشتر از یک وند تشکیل شده باشد؛ زبان‌های ترکیبی9 گویند. دو نوع روش در ریخت‌شناسی واژه‌‌ها وجود دارد. روش اوّل روش خمش10 است که از ترکیب یک واژه با اجزای دستوری دیگری، واژه‌ای جدید در همان نوع و ردۀ واژۀ قبلی ایجاد می‌گردد. به عنوان مثال علامت جمع «ها» در فارسی که با اضافه‌کردنش به هر اسمی یک اسم جدید به وجود می‌آید؛ مثلاً واژۀ کتاب با اضافه‌شدن «ها» به کتاب‌ها تبدیل می‌شود که در این صورت، هم کتاب از نوع دستوری اسم است و هم کتاب‌ها. روش دوم، روش اشتقاق11 است. در اشتقاق با افزودن یک جز دستوری به یک واژه، یک واژه در رده جدیدی به وجود می‌آید. به عنوان مثال اگر تکواژِ «-ِش» را به واژۀ مصدری «کن» اضافه کنیم، واژۀ کنش به وجود می‌آید که واژه جدید دیگر از نوع مصدر نیست و یک اسم است.

برای ساختن یک پویشگر ریخت‌شناسی واژگانی به اطلاعات و اجزای زیر نیاز داریم:

1-       واژه‌نامه‌ای12 که حداقل دارای ریشه‌های واژگان و نیز وندهای موجود در زبان مورد نظر باشند. در ضمن باید اطلاعات مختصری از قبیل نوع واژه در آن زبان – مثلاً اسم، فعل، صفت و ... – در این واژه‌نامه موجود باشد.

2-       قواعد ریخت‌شناسی13 موجود در هر زبان.

3-       قواعد املایی14 در زبان مانند تغییراتی که در روند اشتقاق و ترکیب در واژگان زبان صورت می‌گیرد.

 

پویش ریخت‌شناسانه با استفاده از گذردهنده‌های حالت متناهی

چهار روش معمول برای تفکر در مورد گذردهنده‌های حالت متناهی وجود دارد:

·          گذردهنده‌های حالت متناهی به عنوان تشخیص‌دهنده که در صورتی که رشته‌ای جز یک زبان بود آن را قبول می‌کند و در غیر این صورت آن رشته را نمی‌پذیرد.

·          گذردهنده‌های حالت متناهی به عنوان مولد که ماشینی‌ست که تعدادی رشته خروجی و خروجی آری| نه تولید می‌نماید.

·          گذردهنده‌های حالت متناهی به عنوان گذردهنده یا مترجم که رشته‌ای را از ورودی می‌گیرد و رشته‌ای دیگر را به خروجی می‌دهد.

·          گذردهنده‌های حالت متناهی به عنوان ارتباط‌نما که ارتباط موجود را بین مجموعه‌ای از رشته‌های ورودی پیدا می‌کند.

 

ترکیب قواعد ریخت‌شناسی و املایی

برای ترکیب قواعد ریخت‌شناسی و املایی، می‌توان از یک گذردهنده‌های حالت متناهی بینابینی استفاده کرد که این گذردهنده مورد بررسی قواعد املایی قرار می‌گیرد و به خروجی فرستاده می‌شود. البته پویش‌کردن با گذردهنده‌های حالت متناهی کار بسیار پیچیده‌تری از ترکیب و اشتقاق است؛ زیرا در پویش امکان ایجاد ابهام15 وجود دارد به عنوان مثال، واژه back در انگلیسی هم می‌تواند فعل باشد، هم اسم و هم صفت که این باعث ایجاد ابهام در زنجیره پویش می‌شود.

 

گذردهنده‌های حالت متناهی بدون نیاز به واژه‌نامه: ریشه‌یاب پورتر16

برای استفاده از گذردهنده‌های حالت متناهی بدون استفاده از یک واژه‌نامه بسیار بزرگ می‌توان از بازیابی اطلاعات17 استفاده کرد.

 

پی‌نوشت:

·          مطالب فوق از فصل سوم کتاب پردازش مکالمات و زبان‌های طبیعی نوشته جورافسکی تهیه شده است.

·          برای یافتن تعاریف دقیق گذردهنده و انواع آتاماتون‌هایی که در این مباحث به آن‌ها اشاره می‌شود می‌توانید به این کتاب مراجعه نمایید.

1.        Morphology

2.        Finite-State Transducers(FST)

3.        Parsing

4.        Stemming

5.        Morpheme

6.        Concatenative

7.        Templatic

8.        Root and Pattern

9.        Agglutinative

10.     Inflection

11.     Derivation

12.     Lexicon

13.     Morphotactics

14.     Orthographic

15.     Ambiguity

16.     Porter

17.     Information Retrieval (IR)

+ نوشته شده در  جمعه دوم شهریور 1386ساعت 17:49  توسط محمّد صادق رسولی  |