الجمعة، 16 مايو 2014

تحسين التحليل التركيبي عن طريق إعادة ترتيب الإعراب

   المترجم يحيى ولد الصغير
Improving Syntactic Analysis by Parse

Reranking

Heike Zinsmeist

Universität Heidelberg

zinsmeister@cl.uni-heidelberg.de





 1-    تقديم
لقد تمّ قبول المجامع اللغوية مصدرا للمعطيات اللسانية على نطاق واسع. باعتبار أنّ المجاميع المحشاة/المضافة يدويا تحافظ على التأويل اللغوي أثناء تذييلها وبالتالي تجعله متاحا لاستثمار الكمية النوعية.إنّنا في هذه الورقة نقدّم تقريرا حول التجارب اللسانيات الحاسوبية الّتي تستعمل Treebank – وهو مدوّنة مصحوبة بتذييل إعرابي – باعتباره قاعدة أساسية من أجل توليد سياق نحوي حرّ a context-free grammar فضلا عن كونه يمثّل تواترا للقواعد النحوية الّتي تمّ توظيفها عن طريق المحلل الترجيحي. إذ يعتبر التحليل الإعرابي أحد أجزاء الهيكل المنظومي لمعالجة اللغة الطبيعية كما أنّه يمثل خطوة سابقة للعلاج وهامة في بعض التطبيقات مثل تلك المتعلّقة بالإجابة على السؤال.
يستعمل treebank لتدريب المحلّل وبهذه المناسبة يمكن أن يُنظر إليه على أنّه حقيقة ذات مستوى أوّل. ومن أجل تحسين نتائج التحليل الحاسوبي سنخطو خطوة إلى الخلف ونستعمل كذلك "الحقيقة الثانية: مجموعة التحاليل الأكثر بدائل محتملة في نفس الجملة والّتي تمثّل إحداها بشكل مثالي التحليل الغوي الصحيح.
لقد تمّ إنشاء مجموعة من البدائل بواسطة المحلّل الحاسوبي الّذي يقوم بترتبها حسب احتمالاتها. وقد بيّنت الدراسات الأوّلية أنّه إذا لم تُعَيِّن التحاليل الصحيحة أعلى درجة محتملة فإنّه سيوجد مجال لتحسين ما إذا كانت مجموعة الـ20 أو الـ50 بديل الأكثر احتمالية يمكن أن تؤخذ بعين الاعتبار. يتمثل الهدف في التدريب على وسيلة ثانوية تعيد ترتيب خرج المحلّل الحاسوبي كما هو الحال بالنسبة إلى الواجهات/السطوح التحليلية الحاسوبية الأفضل لغويا بما أنّها أفضل التحاليل الحاسوبية احتمالية. (ص1)


2-    تحليل مستوى الحقائق الأوّلية:
 treebankParsing first-level evidence: the Treebankفمحلّلنا الحاسوبي مشتق من Tübingen Treebank المندرجة ضمن [1]TüBa-D/Z الألمانية. يتكوّن من مجموعة مقالات في جريدة يومية تمّ نشرها من طرف يومية ألمانية. وانطلاقا من تجاربنا نستعمل معطيات من النسخة الثانية (2005). تشتمل هذه الحاشية على المستويات التالية: الصرف التصريفي، أقسام الكلام (استعمال The Stuttgart-Tübingen Tagse (STTS tagset)، المكوّنات التركيبية (بما في ذلك السمات الأوّلية لأصناف المركّبات clause)، الوظائف النحوية، والحقول التصنيفية. يتمّ رسم العقد الفرعية المحلّية مباشرة على قواعد إنتاج ذات سياق حرّ وذلك ما يدلّ على أنّ السياق يؤثّر كما هو الحال بالنسبة إلى الموقع النسبي في العقدة، وهي وظيفة البنية الفرعية، أو أنّ الخيارات المعجمية لم تؤخذ بعين الاعتبار. فهي موثّقة أتمّ التوثيق في الأدبيات الّتي من خلالها يكون إثراء العقد المحلية وغير المحلية معلومة تحسّن من إنشائية المحلّل الحاسوبي (أنظر على سبيل المثال Schiehlen (2004) من أجل أخذ وجهة نظر عامة عن الموضوع). لقد تبنّينا في سبيل إثراء العقد الفرعية المحلية العقد التحويلية الخاصة بـ Versley (2005) (إنّها نسخة من القسم الرابع) تلك العقد الناتجة من علامات labels أكثر خصوصية من بينها: تصنيف التعقيدات الفعليةverbal compexes والمركبات clauses (الجزئية)، تصنيف الإسقاطات الاسمية حسب الحالة الإعرابية، تصنيف الإسقاطات الفعلية حسب متعلّقات الفعل، إثراء مقولات الحقل الطوبولوجي بمعلومات تتضمن حججا، وازدواجية التعقيد الفعلي بالإضافة إلى أبنية العطف.نستعمل المحلّل parser[2] الحاسوبي BitPar[3] (Schmid 2004، تحرير 12/2006) جنبا إلى جنب مع النموذج النحوي الإحتمالي الّذي نشتقّه من Treebank التحويلي. إذ أنّ كلّ قاعد أحادية تقود إلى أبنية تكرارية ينبغي أن يتمّ منعها من أجل تجنّب تكرار لانهائي في تحاليل ذات احتمالية أقل. تمّ تدريب المحلّل الحاسوبي على 14726 جملة بمعدل 19.5 كلمة، وتمّ الحفاظ على 300 جملة من أجل التقييم. يبيّن المثال (1) قواعد عُقَدِ الحقل الطبولوجي (Mittelfeld, MF[4]) بالإضافة إلى تردّداتها الظاهرة. تشرف العقد في موضوع المفعولية accusative object (NCX_a) وفي موضوع وظيفة الممنوح (NCX_d) وسط مكونات فرعية daughter أخرى (ADVX على سبيل المثال).


(1)          15             MF_OA_OD    ->    NCX_a NCX_d
14             MF_OD_OA    ->    NCX_d ADVX NCX_a
95            MF_OD_OA    ->    NCX_d NCX_a

ويجسّد المثال (2) القواعد المعجمية في ربطها لأشكال الكلم بالمقولات النهائية وبتردّدادتها المستوية.
(2)          Kommt        VVFIN_ 103 VVFIN_a 1 VVIMP_ 1Krise           NN_sf 193 Reranking second-level evidence: 50- best parses
إعادة تحليل حقيقة المستوى الثاني: 50 تحليلا حاسوبيا جديدا
لقد أنتجت/ولّدت BitPar ما يصل إلى 50 تحليلا للجملة (بمعدّل 48 تحليلا). وبالنسبة إلى مهمة إعادة التصنيف فقد استعملنا BACT (Kudo وMatsumoto 2004) وهو آلة تختزل مهمة إعادة التصنيف في مهمة تصنيفية مزدوجة. فهو يميّز بين التحاليل الجديدة وبقية التحاليل الاخرى. إذ يقوم BACT باستخراج  كلّ العقد الفرعية الممكنة انطلاقا من التحاليل المكوّنية وبتحديد أيّ العقد الفرعية تميّز بطريقة أفضل بين التحليل الصحيح والتحليل الخاطئ.
لقد جرّبنا مختلف وضعيات المقاييس الخاصة بالآلية (مقدار العقد الفرعية، تردد مقاطع cutoffs العقد الفرعية، التكرار التدريبي) وكذلك مختلف نسخ المعطيات التدريبية (سواء أكان ذلك مع المعلومة الوظيفية أو بدونها أو مع معلومة رأس العقدة البنت daughter أو بدونها). وتتمثّل أفضل النتائج الّتي تمّ التحصل عليها بناء على استعمال المعلومة الأساسية المتعلّقة بالمقولة، وهي مقدار العقد الفرعية لـ 6 بالإضافة إلى تردّد مقاطع العقد الفرعية لـ3. ويعطي الجدول 1 خلاصة موجزة تتعلّق بالتقييم (باستعمال EVALB الّي يستخدم مقاييسparseval). مع العلم أنّنا تجنّبنا تخمين الكلمات غير المعروفة نتيجة تضميننا لكل صيغ الكلمات في المعجم.

F-score   فـ - عدد النقاط
الاسترجاع التصنيفيlabeled recall
الضبط التصنيفي labeled precision
عدد الجمل number of sentences
98.56
98.21
99.10
15
الضربات الإيجابية للمحلّل positive hits of the reranker
92.73
91.48
94.01
15
الخيارات المتشابهة للمحلّلcorresponding parser preferences
86.51


86.75
85.79


86.06
87.24


87.44
300


300
المحلّل الاحتمالي الكبير للتحاليل parser’s most probable parses

المحلّل + إعادة تصنيف الوحدات المكوّنية parser + reranker combined


جدول عدد 1: نتائج التقييم المستعملة لمقاييس  PARSEVAL  Table 1 : evaluation results using PARSEVAL measures


4 النقاش
نذكر بأنّ إعادة التصنيف منخفضة. فهو يختار 5 % فقط من الجمل المدروسة. إنّ تقييم المترشّحين الـ15 بمقاييس PARSEVAL يوضّح انّ منزلة التحليل تتحسّن انطلاقا من 92.73 % تمثّله F-score بناء على معظم تحليلBitPar المحتمل إلى 98,56 % F-score بناء على خيارات المحلّل، أنظر جدول 1. فالجمع بين الخيار التحليلي والتحاليل الأكثر احتمالية للمحلّل ينتج عنه تحسّن للخاصية المشتركة/العامة بنسبة 0.24 % F-score من 86.51 إلى 86.75 % بالنسبة إلى معالجة 300 جملة مقارنة بالإنتاجية الأصلية للمحلّل.
   وفي الختام نعلّق تعليقا قصيرا على النشاط المتعلّق بتجاربنا. لقد شرعنا في دراسة أداء المحلّل بالإضافة إلى التأكيد الخاصّ على الأبنية النسقية آملين أن يخوّل لنا التمسّك العام بإعادة الترتيب، تحسين عملية الإنجاز على مستوى حقل غاية في الصعوبة يتعلّق بتحليل البنية النسقية. وقد تبيّن أنّ المحلّل الإعرابي لم يقدّم التحليل الصحيح في مجموعة التحاليل الأكثر احتمالية. ونتيجة لذلك اختارت المرتّب reranker مرّة واحدة بديلا في ما يتعلّق باختبار الجمل المتضمّنة للعطف النسقي. فالمرتّب هو وسيلة واعدة لتحسين نوعية الإعراب بشكل عام، ولكن في حالة الابنية النسقية لازلنا في حاجة إلى تحسين الحالات الإعرابية persersللمستوى الاول لضمان أن تكون التحاليل الصحيحة قد تمّ إنشاؤها على أنّها بمثابة ترشيحات في مجموع الخيارات الّتي من خلالها يكون مرتّب المستوى الثاني قادرا على اختيار مرشّحه.


References
- Kudo, T. and Y. Matsumoto (2004). A Boosting Algorithm for Classification of Semi-Structured Text. In Proceedings of EMNLP 2004.
- Schiehlen, M. (2004). Annotation Strategies for Probabilistic Parsing in German. In Proceedings of COLING 2004.
- Schmid, H. (2004). Efficient Parsing of Highly Ambiguous Context- Free Grammars with Bit Vectors. In Proceedings of COLING 2004.
- Versley, Y. (2005). Parser Evaluation across Text Types. In Proceedings of TLT 2005.

الهوامش
[1] - The TüBa-D/Z treebank is a syntactically annotated German newspaper corpus based on data taken from the daily issues of 'die tageszeitung' (taz). The treebank currently comprises 55,814 sentences (976,262 tokens). The annotation is performed manually. This is work in progress, and releases of more data will follow.

تعتبر Treebank الخاصة بـ TüBa-D/Z مدوّنة تعتمد على جريدة ألمانية تمّت إضافتها إعرابيا، تقوم على معطيات مأخوذة من عدد يومية "الصحيفة اليومية (taz)". تشتمل treebank حاليا على 55814 جملة (976262 علامة). لقد تمّ إنشاء الحاشية/الشرح يدويا. وهذا العمل في تطوّر مستمر، كما أنّ تحرير المعطيات الجديد سيكون بصورة مستمرة.
 http://www.sfs.uni-tuebingen.de/en/tuebadz.shtml

[2] -A parser breaks data into smaller elements, according to a set of rules that describe its structure. Most data can be decomposed to some degree. For example, a phone number consists of an area code, prefix and suffix; and a mailing address consists of a street address, city, state, country and zip code.
http://www.programmar.com/parser.htm 
[3] - BitPar is a parser for highly ambiguous probabilistic context-free grammars (such as treebank grammars). BitPar uses bit-vector operations to speed up the basic parsing operations by parallelization.

You can download the BitPar source code as a gzip-compressed tar file. It is freely available for research and education.You might also want to download the English trace grammar (4.5 MB) which was extracted from the PENN treebank or a similar grammar for German (5.3 MB) which was extracted from the Tiger treebank. There is also a UTF8 version of the German grammar.Older versions of the parser and the grammars are available here:old BitPar softwareold English grammarold German grammarPublicationsPlease cite the following publications if you want to refer to the BitPar parser:Trace Prediction and Recovery With Unlexicalized PCFGs and Slash Features, Proceedings of COLING-ACL 2006, Sydney, Australia. (pdf)Efficient Parsing of Highly Ambiguous Context-Free Grammars with Bit Vectors, Proceedings of the 20th International Conference on Computational Linguistics (COLING 2004), Geneva, Switzerland. (ps, ps.gz, pdf)http://www.ims.uni-stuttgart.de/tcl/SOFTWARE/BitPar.html
[4] - The term mittelfeld refers to one of five segments (fields in the topological model) of a clause. ( Hubert Haider, 2002, Mittelfeld Phenomena) hubert.haider@sbg.ac.at


ليست هناك تعليقات:

إرسال تعليق


الحقوق محفوظة لمدونة الحروف ©2013-2014 | اتصل بنا | الخصوصية