التحليل الإعرابي الآلي
من أجل كشف النقاب عن نظم الكلم*
Alexander Gelbukh
مركز البحث الحاسوبي، المركز الوطني متعدد العلوم
المكسيك
مركز البحث الحاسوبي، المركز الوطني متعدد العلوم
المكسيك
www.gelbukh.com
تلخيص.
تقدّم هذه الورقة منهج الكشف
الآلي لنظم الكلمة "غير العادية non-trivial" في
النص. وهو منهج يقوم على التحليل الإعرابي الآلي. يقدّم المنهج بإحكام أفضل ويذكّر
بالطرق المنهجية الأساسية (bigrams). وقد
تمّ اختباره على نصّ بالإسبانية. ويمكن استخدام المنهج لإغناء قواميس نظم الكلمة
على نطاق واسع.
1 تقديم
يتعلّق مفهوم نظم
الكلم word combination بإمكانية ظهور كلمات مختلفة في النص، يتمّ تعليقها بواسطة روابط إعرابية.
المهمة ليست مبتذلة حسابيا بما أنّ الكلمات المتعالقة إعرابيا يمكن أن تكون
متباعدة عن بعضها البعض من الناحية الخطّية، يعني أن يتمّ الفصل بينها بواسطة
كلمات أخرى.
توجد أصناف مختلفة
من نظم الكلم، بعضها رسخ استعماله، كالعبارات الجاهزة idioms، على
سبيل المثال [1]to kick the bucket أو كالوظائف المعجمية مثل to pay
attention[2] [14]. ففي حالتي العبارات الجاهزة والوظائف المعجمية لا يمكن أن يتمّ
استنتاج معنى كامل العبارتين من معنى الكلمات المكوّنة. ففي العبارة الجاهزة غالبا
ما تفتقد كلّ الكلمات معانيها. وفي ما يتعلّق بالوظائف المعجمية تحتفظ كلمة واحدة
فقط بمعناها (وفي حالة مثالنا هذه الكلمة هي attention)، في حين
تدلّ الكلمة الأخرى (وهيto pay) على
العلاقة الدلالية الموسّعة standard
semantic relation بين المشاركين في الوضعيةsituation. يمكن
الحصول على الوصف التفصيلي للوظائف المعجمية، على سبيل المثال، في [14] وفي أعمال
أخرى لـ Mel’čuk. وبما أنّ معنى النّظم combinations ليس
ناتجا عن مجموع معاني الكلمات فهناك قيود صارمة تتعلّق بالانسجام compatibility في
الوظائف المعجمية. يعني ذلك أنّه إذا ما أردنا التعبير عن المعنى المذكور واعتبرنا
أنّ الكلمات الحاملة لذلك المعنى معروفة، فمن الطبيعي أن يكون اختيار الكلمات
الأخرى محدّد قبليا predetermined.
يتمّ الحصول
على المعنى العام[3] the meaning of a whole في
نظم الكلم الحرة free word meaning من
خلال جمع معاني الكلمات المكونة. ومع ذلك غالبا ما توجد قيود دلالية من أجل
الانسجام حتّى في نظم الكلم الحرة. فعلى سبيل المثال من المتوقّع أنّ يكون متعلّق
الفعل to eat (مفعولا مباشرا direct
object) ومن الأكيد أنّه سيكون طعاما إلخ. وهكذا تشتمل بعض
الكلمات على ملاءمة أوسع من الأخرى، فعلى سبيل المثال يمكن أن تنتظم to see عمليا مع كائن فيزيائي، في حين أنّ to read لا تنتظم إلاّ مع شيئ يحتوي على مادة مكتوبة
(بعض الاستعمالات المجازية ممكنة أيضا).
يتمّ استعمال
عبارة التآلف/التضام collocation للإشارة إلى بعض الكلمات الانتظامية "المهمة". إذ لا يوجد تعريف
مقبول مشترك للتآلف/للتضام. وتعتبر العبارات الجاهزة والوظائف المعجمية وحدها
القابلة للتآلف/للتضامّ بالمعنى الدقيق للكلمة بما أنّها تشتمل على معلومات لا
يمكن استنباطها. ومع ذلك فهذا يتعارض مع الممارسة المشتركة [1، 2، 15] عندما يتمّ
اعتبار أنّ نظم الكلم المألوف تضام.
في ما يتعلّق
بـحركية اللغات الطبيعية natural language
processing NLP تقوم المقاربة المهيمنة المتعلّقة بتحديد التضام defining collocations، على
معلومات مشتركة mutual information بين
الكلمات. ويمكننا أن نلاحظ أنّ بعض أزواج الكلمات تشتمل على شرط احتمالconditional probability عال،
أي، أنّه إذا ما واجهتنا كلمة في النص وكان احتمال مواجهة كلمة أخرى عال نسبيا
فإنّ شرط إمكان أكثرية أزواج الكلمات المختارة عشوائيا، يعتبر منخفضا جدا. وقد
أطلق على ذلك المعلومة المشتركة. وتلك بصراحة هي وجهة النظر الإحصائية التي تتجاهل
الخصائص الدلاليةsemantic properties لنظم
الكلمات. وقد تمّ كشف التضام (بمعنى الإشتراك في المعلومة) آليا في أعمال كثيرة
[4، 9، 11، 12، 16، 18]. ففي [16] تمّ استعمال بعض الاستكشافات heuristicsالإعرابية بطريقة إضافية من أجل تصفية filtering التضام المحصول عليه. وعلى الرغم من ذلك فإنّ هذه الأساليب/المناهج تتحاهل
الغالبية الساحقة من نظم الكلمات بما في ذلك الوظائف المعجمية والعبارات الجاهزة
الّتي لا تحتوي على تواتر عال بما فيه الكفاية.
هل أنّ العبارات
الجاهزة، والوظائف المعجمية، ونظم الكلم الحرة مفيدة في معالجة اللغة الطبيعية؟
فالإجابة على مسألتي العبارة الجاهزة والوظائف المعجمية إيجابية بشكل واضح. أمّا
نظم الكلم الحرّة (حتّى بدون معلومات مشترك كافية) يعتبر مفيدا هو الآخر في الكثير
مهام معالجة اللغات الطبيعية، انظر على سبيل المثال، [3، 8، 13، 17]. هذه الفكرة
قد تمّ دعمها من قِبَلِ دليل تطوير معاجم نظم الكلمات manual
developement of the dictionaries of word combinations [2،
5، 6، 7، 15].
نقترح في هذه
الورقة منهج الكشف الآلي automatic
detection لمختلف أصناف نظم الكلم استنادا على التحليل
الإعرابي الآلي (التحليل parsing).
ويمكن استعمال
المنهج المقترح لتخصيب شبه آلي لمعاجم التضام ونظم الكلم الحرة. ومن أكبر المعاجم
في هذا الصنف، نذكر على سبيل المثال CrossLexica [5،
7، 8] الذي يحتوي على 7500000 كلمة منتظمة من اللغة الروسية. وقد تمّ جمع CrossLexica يدويا
خلال نحو 14 سنة. ونتمنّى أن يكون منهجنا قادرا على تسهيل عملية الجمع بطريقة
فعلية.
وفي ما تبقى من
هذه الورقة سنقوم أوّلا بوصف منهج الكشف الآلي لنظم الكلمات، ثمّ تقييم إنجازه،
وفي الختام استخلاص بعض النتائج.
2 الوضع التجريبي
لقد قادتنا
تجاربنا إلى نصّ بالإسبانية متاح على الأنترنت (مكتبة Cervantes الرقمية).
وقد استعملنا في تجاربنا محلّلا احتماليا probabilistic
parser وسياقا نحويا حرّا context-free
grammar (CF-grammar) بالإضافة إلى
توحيد unification اللغة
الإسبانية الموصوفة في [10].
في هذه التجربة
سنطبّق البرنامج المنفّذ للتحليل الإعرابي، المحقّق لنظم الكلم بعلاقة التماثلcorresponding بين
الكلمات، والمصفي لها، والمخزّن لها في قاعدة البيانات database.
نستعمل للتصفية
كلاّ من السمات الإعرابية والصرفية. يعني أنّنا نقوم بالتصفية خارج العلاقات
بالسبة إلى الضمائر والأدوات وفقا للمصفاة الصرفية. بالإضافة إلى ذلك نجري المصفاة
الإعرابية وفقا لكل نظم الكلم الّتي من خلالها تكون العلاقات الإعرابية التالية
متروكة: فعل-فاعل، فعل-مفعول، (في البناء للفاعل أو للمفعول)، الاسم-النعت modifier (في الصفة أو اسم أخر من أواع الاسم)، الفعل-
النعت (في الظرف). وتتم تصفية العلاقات النحوية الأخرى في الخارج. ويحري ذلك على
تخزين اسم العلاقة.
هناك بعض العلاقات
الخاصة: (1) علاقة العطف coordinative
relation (مثل to
readnewspaper and magazine ينبغي أن تعطي كلمتين منتظمتين وهما: (to read newspaperand to read
magazine)، وبالتالي نكون قد قطعنا العلاقة بحرف الجروهي
العلاقة (2). ففي حالة حروف الجر، نأخذ الكلمة التابعة لحرف الجر ونسم علاقتها
بكلمة الرأس (الحاكم master) بأنّها
كلمة حرفية. يتمّ تبرير هذه العملية بفعل أنّ حروف الجرّ عادة ما ترمز إلى
علاقات نحوية (يعني ذلك أنّ هذه العلاقات في بعض اللغات يمكن أن يعبّر
عنها بواسطة حالات إعرابية grammar
cases)، وبالتالي فهيليست ذات أهمية في الروابط
المعجمية من جهة. ولكن اختيار الحرف، من جهة أخرى، يعتبر معلومة
لغوية أساسية. وبناء على ذلك نقوم في هذه الحالة بتوفير كل الأعضاء الثلاثة.
لقد استعملنا منهج
جمع نظم الكلم باعتباره خطا أساسيا baseline يأخذ
جميع أزواج الكلمات على أنّها تخضع لجوار مباشر immediate
neighbors (ثنائيات bigrams). وقمنا
بإدماج بعض العمليات الذكية intelligence داخل منهج الأساس الخطي baseline
method. يعني ذلك أنّه بعد التعديل، يتمّ تجاهل
الأدوات articles وتؤخذ الحروف بعين الاعتبار. فلنقدم مثالا من
تحليلنا.
Mamá compró una torta pequeñita y un pastel con una
bailarina en zapatillas de punta.
(Mother bought a little bun and a cake with a dancer in ballet-shoes.)
(اشترت
الأم خبزة كعك صغيرة وكعك بصحبة راقص بالي في مكان أحذية البالي.)
تنشجم شجرة
التبعية dependency الإعرابية
التالية مع هذه الجملة. إذ تقع كلمات التبعية تحت الكلمة الرأس من حيث البديل
الأفقي المتساوي horizanta shift equal إلى
البديل الأفقي للكلمة الرأس زائد 1، نستدل على ذلك بتعلّق الفعل الواقع في الخط 1
بالخطوط 2، 14، 15؛ وتعلّق أداة العطفconjunction في
الخط 2 بالخط 3 وبالخط 6؛ إلخ. ومن الملاحظ أنّ الكلمات قد وقع تنميطهاnormalizes من
الناحية الصرفية morphologically. وأنّنا
نستعمل المحلّل الصرفي الاسبانيSpanish
morphologicl analyzer الّذي تمّ وصفه في [10].
نسم المقولات
الإعرابية الّتي تمّ استعمالها في النحو الخاص بنا بجراءة. إذ أنّ لها تفسير طبيعي
حيث تدلّ V على الفعل، وN على
الاسم، وSG على
المفرد، إلخ. ومن أجل وسم مفهوم العلاقة الإعرابية نستعمل{ }. ومن الملاحظ
أنّ مفهوم العلاقة قد تمّ تخزينه stored مع
مفهوم التبعية باعتبار أنّ الرأس يمكن أن يتّخذ بضع متعلّقات. () وبين القوسين
توجد الكلمة وصيغتها الأصلية lemma بالإضافة إلى ترجمتها إلى الانكليزية، مثل (compró:
comprar / bought : to buy).
1 V(SG,3PRS,MEAN) ( compró:
comprar / bought : to buy)
فعل (مفرد، ضمير
الغائب، يعني) (اشترى: شراء)
2 CONJ_C {obj} ( y: y / and : and)
أداة
عطف – C {أداة} (و: و)
3 N(SG,FEM) {coord_conj} ( torta:
torta / bun : bun)
اسم (مفرد،
مؤنّث) {عطف – أداة عطف} (خبزة كعك: خبزة كعك)
4 ADJ(SG,FEM) {mod}
( pequeñita: pequeñito / little : little)
صفة (مفرد، مؤنّث) {صيغة
صرفية} (صغيرة: صغيرة)
5
ART(SG,FEM) {det} ( una: un / a : a)
أداة (مفرد، مؤنّث) {محدّد} (ø:ø)
6
N(SG,MASC) {coord_conj} (
pastel: pastel / cake : cake)
اسم
(مفرد، مذكّر) {عطف، أداة عطف} (كعك: كعك)
7 PR
{prep} ( con: con / with : with)
حرف {حرف} (بـ:
بـ)
8
N(SG,FEM)
{prep} ( bailarina: bailarina / dancer : dancer)
اسم (مفرد، مؤنّث) {حرف} (راقص: راقصة)
9
PR
{prep} ( con: con / with : with)
حرف {حرف}
(واو المعية: واو المعية)
10 N(PL,FEM)
{prep} ( zapatillas: zapatilla / shoes : shoe)
اسم
(جمع، مذكّر {حرف} (أحذية: حذاء)
11
PR {prep} ( de: de / of : of)
حرف {حرف}
(النسبة: النسبة)
12
N(SG,FEM) {prep} ( punta: punta / point : point)
اسم (مفرد، مؤنّث {حرف} (بالي: بالي)
13
ART(SG,FEM) {det} ( una: un / a : a)
أداة (مفرد، مؤنّث) {محدّد} (ø:ø)
14
N(SG,FEM) {subj} ( mamá: mamá / mother : mother)
اسم
(مفرد، مؤنّث) {فاعل} (أم: أم)
15 $PERIOD ( .: .,)
$ دورة/فترة
لقد تمّ العثور على نظم الكلم التالية في هذه الجملة. ومن الملاحظ أنّه قد تمّت
تصفية نظم الكلم في 4، و7 بواسطة المصفاة الصرفية.
1. comprar (obj) torta{Sg} (buy (obj) bun{Sg})
اشترى (مفعول) خبزة كعك {مفرد}
2. comprar
(obj) pastel {Sg} (buy (obj) cake {Sg})
اشترى (مفعول) كعك {مفرد}
3. torta (mod) pequeñito (bun
(mod) little)
خبزة كعك (صيغة صرفية) صغيرة
4. torta (det)
un (bun (det) a)
خبزة كعك (محدّد) ø
5. pastel (mod) [con] bailarina
{Sg} (cake (mod) [with] dancer {Sg})
كعكة (صيغة صرفية) [واو المعية] راقص {مفرد}
6. bailarina (mod) [con]
zapatilla {Pl} (dancer (mod) [with] shoe {Pl})
راقص
(صيغة صرفية) [واو المعية] حذاء {جمع}
7. bailarina
(det) un (dancer (det) a)
راقص (محدّد) ø
8. zapatilla
(mod) [de] punta {Sg} (shoe (mod) [with] point {Sg} //= ballet shoe)
حذاء (صيغة صرفية) [نسبة] بالي {مفرد}
9. comprar (subj) mamá {Sg} (buy
(subj) mother {Sg})
اشترى (فاعل) (أم) {مفرد}
نقوم أيضا بتخزين المعلومات حول
الصيغة الصرفية للكلمة نظرا إلى بعض الحالات الإعرابية (كالعدد بالنسبة إلى
الأسماء؛ واسم الفعل/اسم الحدث gerund،
والمصدر infinitive،
التصرّف finite بالنسبة إلى الأفعال) بما أنّ هذه المعلومات
يمكن أن تؤثّر على الانسجام. ومن الملاحظ على كلّ حال أنّ
الكلمات قد تمّ تنميطها: نحو: نخزّن الحذاء we store shoe {Pl} بدلا من الأحذية shoes. ويمكن
أن يكون ذلك ضروريا لتعزيز حساب الإحصائيات مع إمكانية الأخذ بعين الإعتبار
بالخصائص الصرفية أو تجاهلها.
3 النتائج التجريبية
يشتمل النص الحلّل على 741 كلمة
في 60 جملة. ويتمثّل معدّل طول الجملة في 12,4 كلمة، إذا ما تجاوزنا أنّنا
نسم العلاقات الإعرابية في هذه الجمل يدويا.
من خلال هذا
الأساس الخطي يكون مجموع الكلمات 588 بما أنّ في ما بين 741 كلمة في هذه
الجمل توجد 153 ما بين الأدوات والحروف.
لقد تمّ إحراز
النتائج التالية. ويتمثّل ذلك في أنّ العدد الإجمالي الصحيح لنظم الكلم الموسومة
يدويا هو 208. ومن ذلك تمّ إحراز 148 نظما للكلم بواسطة منهجنا. وفي نفس الوقت فقد
توصّل منهج الأساس الخطّي بدقة إلى 111 نظما للكلم. وقد توصّل منهجنا من جهة أخرى
فقط إلى 63 خطأ في نظم الكلم، في حين أنّ منهج الأساس الخطّي قد وسم 1175 زوجا على
أنّها تحقّق نظما للكلم (588*2 – 1 = 1175)، ومن بينها 1064
زوجا خاطئا (1175 – 111 = 1064).
وتعطينا هذه
الأرقام قيم الدقة precision والنكوص recall التالية. فلنتذكّر أنّ الدقّة هي علاقة الحاصل بصورة دقيقة بالحاصل بصورة
إجمالية، في حين أنّ النكوص هو علاقة الحاصل بصورة دقيقة بالعدد الإجمالي الّذي
كان ينبغي الحصول عليه. ومن خلال منهجنا تمثل الدقة 148 / (148+63) = 0.70 ويمثّل
النكوص 148 / 208 = 0,71. وأمّا بالنسبة إلى منهج الأساس الخطّي، تمثّل الدقّة 111
/ 1175 = 0,09 ويمثّل النكوص 111 / 108 = 0,53. وبالتالي يمكن ملاحظة أنّ النكوص
في منهجنا أفضل كما أنّ الدقّة تعتبر أفضل بكثير من مقاييس منهج الأساس الخطّي.
ويمكن أن يتمّ
تحسين النتائج التي توصّلنا إليها من خلال منهجنا بواسطة تطوير نحو أفضل من
النحو الّذي نستعمله الآن بالنسبة إلى اللغة الإسبانية.
4 الخواتم
لقد قدّمنا منهج
الكشف الآلي لنظم الكلم لأصناف محدّدة. يقوم هذا المنهج على نتائج التحليل
الإعرابي. وقد تمّ استعمال مصافي إعرابية وصرفية من أجل تجنّب نظم كلم مبتذل.
لقد تمّ اختبار المنهج
على الاسبانية وبيّن دقة ونكوصا أفضل مما نجد لدى منهج bigram الأساسي
الخطّي الّذي يأخذ كل أزواج الكلمات على أنّها في جوار مباشر. وفي حالتنا، تمّ
تحسين منهج الأساس الخطّي من خلال تجاهل الأدوات ومعالجة حروف الجر. ويمكن أن يتمّ
استعمال المنهج المقترح من أجل التكثيف/الإغناء الدلالي لمعاجم نظم الكلم والسماح
بجعلها أكثر بساطة وسرعة.
References
1. Baddorf, D. S. and M. W. Evens.
Finding phrases rather than discovering collocations: Searching corpora
for dictionary phrases. In: Proc. of the 9th Midwest Artificial Intelligence and
Cognitive Science Conference (MAICS'98), Dayton, USA, 1998.
3. Basili, R., M. T. Pazienza, and P. Velardi. Semi-automatic extraction of
linguistic information for syntactic disambiguation. Applied Artificial
Intelligence, 7:339-64, 1993.
4. Biemann, C., S. Bordag, G. Heyer, U. Quasthoff, C. Wolff.
Language-independent methods for compiling monolingual lexical data. In:
A. Gelbukh (Ed.) Computational Linguistics and Intelligent Text
Processing. Lecture Notes in Computer Science, N 2945, Springer-Verlag,
2004 (this volume).
5. Bolshakov, I. A. Multifunction thesaurus for Russian word processing.
In: Proceedings of 4th Conference on Applied Natural language Processing,
Stuttgart, 1994, p. 200-202.
6. Bolshakov, I. A. Getting One’s First Million… Collocations. In: A.
Gelbukh (Ed.) Computational Linguistics and Intelligent Text Processing.
Lecture Notes in Computer Science, N 2945, Springer-Verlag, 2004 (this
volume).
7. Bolshakov, I. A., A. Gelbukh. A Very Large Database of Collocations and
Semantic Links. In: Mokrane et al. (Eds.) Natural Language Processing and
Information Systems (NLDB-2000). Lecture Notes in Computer Science 1959,
Springer, 2001, p. 103-114.
8. Bolshakov, I. A., A. Gelbukh. Word Combinations as an Important Part of
Modern Electronic Dictionaries. Procesamiento del Lenguaje Natural, No.
29, 2002, p. 47-54.
9. Dagan, I., L. Lee, and F. Pereira. Similarity-based models of word
cooccurrence probabilities. Machine Learning, 34(1), 1999.
10. Gelbukh, A., G. Sidorov, S. Galicia Haro, I. Bolshakov. Environment for
Development of a Natural Language Syntactic Analyzer. Acta Academia 2002,
Moldova, 2002, p. 206-213.
11. Kim, S., J. Yoon, and M. Song. Automatic extraction of collocations
from Korean text. Computers and the Humanities 35 (3): 273-297, 2001,
Kluwer Academic Publishers.
12. Kita, K., Y. Kato, T. Omoto, and Y. Yano. A comparative study of
automatic extraction of collocations from corpora: Mutual information vs.
cost criteria. Journal of Natural LanguageProcessing, 1(1):21-33, 1994.
13. Koster, C.H.A. Head/Modifier Frames for Information Retrieval. In: A.
Gelbukh (Ed.) Computational Linguistics and Intelligent Text Processing.
Lecture Notes in Computer Science, N 2945, Springer-Verlag, 2004 (this
volume).
14. Mel’čuk, I.Phrasemes in language and phraseology in linguistics. In:
Idioms: structural and psychological perspective, pp. 167-232.
15. Oxford collocation dictionary, Oxford, 2003.
16. Smadja, F. Retrieving collocations from texts: Xtract. Computational
linguistics, 19 (1):143-177, March 1993.
17. Strzalkowski, T. Evaluating natural language processing techniques in
information retrieval. In: T. Strzalkowski (ed.) Natural language
information retrieval. Kluwer, 1999.
18. Yu, J., Zh. Jin, and Zh. Wen. Automatic extraction of collocations.
2003
* - أقيم هذا العمل في إطار دعم جزئي من الحكومة
المكسيكية (CONACyT,
SNI), IPN (CGPI, COFAA, PIFI)، والحكومة الكورية
(أستاذ زائرKIPA أستاذ زائر لمواقع كليات في كوريا)، وITRI of Chung-Ang University. المؤلّف
الأول حاليا في إجازة تفرغ علمي في جامعة Chung-Ang. نشكر
الأستاذ I. A. Bolshakov على
النقاش المفيد.
+ مؤلّف
مماثل.
A. Gelbukh، G. Sidorov، S. Y. Han، E.
Hernandez-Rubio. التحليل الآلي الإعرابي من أجل كشف النقاب عن نظم
الكلم. معالجة النصوص في اللسانيات الحاسوبية والذكاء computational
linguistic and intelligent text processing (CICLing-2004)، مذكرات محاضرة lectureفي علوم الحوسبة، عدد
2945، Springer-Verlag 2004،
ص ص. 240-244.
ليست هناك تعليقات:
إرسال تعليق