Home عالم قام علماء معهد ماساتشوستس للتكنولوجيا ببناء أكبر مجموعة في العالم من المسائل...

قام علماء معهد ماساتشوستس للتكنولوجيا ببناء أكبر مجموعة في العالم من المسائل الرياضية على مستوى الأولمبياد، وفتحوها للجميع

12
0

في كل عام، تصل الدول المتنافسة في الأولمبياد الدولي للرياضيات (IMO) بكتيب يضم أفضل المسائل وأكثرها إبداعًا. ويتم تبادل تلك الكتيبات بين الوفود، ثم تختفي بهدوء. لم يسبق لأحد أن جمعها بشكل منهجي، ونظفها، وجعلها متاحة، لا لباحثي الذكاء الاصطناعي الذين يختبرون حدود التفكير الرياضي، ولا للطلاب في جميع أنحاء العالم الذين يتدربون على هذه المسابقات بمفردهم إلى حد كبير.

لقد قام الباحثون في مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL) التابع لمعهد ماساتشوستس للتكنولوجيا (MIT)، وجامعة الملك عبد الله للعلوم والتقنية (KAUST)، وشركة HUMAIN، بذلك بالضبط.

MathNet هي أكبر مجموعة بيانات عالية الجودة للمسائل الرياضية القائمة على الإثبات التي تم إنشاؤها على الإطلاق. تضم أكثر من 30 ألف مشكلة وحلول كتبها خبراء في 47 دولة، و17 لغة، و143 مسابقة، وهي أكبر بخمس مرات من ثاني أكبر مجموعة بيانات من نوعها. وسيتم تقديم العمل في المؤتمر الدولي لتمثيلات التعلم (ICLR) في البرازيل في وقت لاحق من هذا الشهر.

ما يجعل MathNet مختلفًا ليس حجمه فحسب، بل اتساع نطاقه أيضًا. مجموعات البيانات السابقة على مستوى الأولمبياد مستمدة بشكل حصري تقريبًا من المسابقات في الولايات المتحدة والصين. تنتشر MathNet في عشرات البلدان عبر ست قارات، وتغطي 17 لغة، وتتضمن كلاً من المشكلات والحلول القائمة على النصوص والصور، وتمتد على مدى أربعة عقود من الرياضيات المنافسة. الهدف هو التقاط النطاق الكامل لوجهات النظر الرياضية وتقاليد حل المشكلات الموجودة في مجتمع الرياضيات العالمي، وليس فقط تلك الأكثر وضوحًا.

تقول شادن الشمري، طالبة دكتوراه في معهد ماساتشوستس للتكنولوجيا والمؤلفة الرئيسية لهذه الورقة: “كل بلد يأتي بكتيب يضم أكثر مشكلاته حداثة وإبداعًا”. “إنهم يتشاركون الكتيبات مع بعضهم البعض، ولكن لم يبذل أحد جهدًا لجمعها وتنظيفها وتحميلها على الإنترنت.”

يتطلب بناء MathNet تتبع 1595 مجلدًا بتنسيق PDF يبلغ إجماليها أكثر من 25000 صفحة، وتغطي المستندات الرقمية وعمليات المسح الضوئي التي تعود إلى عقود من الزمن بأكثر من اثنتي عشرة لغة. جاء جزء كبير من هذا الأرشيف من مصدر غير متوقع: نافيد صفائي، وهو شخصية قديمة في مجتمع المنظمة البحرية الدولية ومؤلف مشارك كان يجمع هذه الكتيبات ويمسحها ضوئيًا يدويًا منذ عام 2006. وشكل أرشيفه الشخصي جزءًا كبيرًا من العمود الفقري لمجموعة البيانات.

إن المصادر مهمة بقدر أهمية الحجم. في حين أن معظم مجموعات البيانات الرياضية الموجودة تسحب المشكلات من المنتديات المجتمعية مثل فن حل المشكلات (AoPS)، فإن MathNet تستمد حصريًا من كتيبات المنافسة الوطنية الرسمية. الحلول الواردة في هذه الكتيبات مكتوبة من قبل الخبراء ومراجعة النظراء، وغالبًا ما تصل إلى صفحات متعددة، حيث يسير المؤلفون عبر عدة طرق لنفس المشكلة. يمنح هذا العمق نماذج الذكاء الاصطناعي إشارة أكثر ثراءً لتعلم التفكير الرياضي من الحلول الأقصر وغير الرسمية النموذجية لمجموعات البيانات ذات المصادر المجتمعية. وهذا يعني أيضًا أن مجموعة البيانات مفيدة حقًا للطلاب: أي شخص يستعد للمنظمة البحرية الدولية أو لمسابقة وطنية لديه الآن إمكانية الوصول إلى مجموعة مركزية وقابلة للبحث من المشكلات عالية الجودة والحلول العملية من التقاليد في جميع أنحاء العالم.

تقول الشمري، التي شاركت في المنظمة البحرية الدولية كطالبة: “أتذكر الكثير من الطلاب الذين كان الأمر بمثابة جهد فردي بالنسبة لهم. لم يكن أحد في بلدهم يدربهم على هذا النوع من المنافسة”. “نأمل أن يمنحهم هذا مكانًا مركزيًا به مشاكل وحلول عالية الجودة للتعلم منها.”

يتمتع الفريق بجذور عميقة في مجتمع المنظمة البحرية الدولية (IMO). سلطان البركاتي، مؤلف مشارك، يعمل حاليًا في مجلس إدارة المنظمة البحرية الدولية (IMO)، ويعمل الباحثون على مشاركة مجموعة البيانات مع مؤسسة المنظمة البحرية الدولية (IMO) مباشرةً. وللتحقق من صحة مجموعة البيانات، قاموا بتجميع مجموعة تصنيف تضم أكثر من 30 مقيمًا بشريًا من دول بما في ذلك أرمينيا وروسيا وأوكرانيا وفيتنام وبولندا، والذين قاموا بالتنسيق معًا للتحقق من آلاف الحلول.

يقول تانيش باتيل، نائب رئيس المنظمة البحرية الدولية (IMO) السويسرية: “إن قاعدة بيانات MathNet لديها القدرة على أن تكون مصدرًا ممتازًا لكل من الطلاب والقادة الذين يبحثون عن مشاكل جديدة للعمل عليها أو يبحثون عن حل لمسألة صعبة”. “على الرغم من وجود أرشيفات أخرى لمشاكل الأولمبياد (لا سيما منتديات مجموعات المسابقات على AoPS)، تفتقر هذه الموارد إلى نظام تنسيق موحد، وحلول تم التحقق منها، وبيانات وصفية مهمة للمشكلات التي تتطلبها المواضيع والنظريات. سيكون من المثير للاهتمام أيضًا رؤية كيفية استخدام مجموعة البيانات هذه لتحسين أداء نماذج الاستدلال، وما إذا كنا سنتمكن قريبًا من الإجابة بشكل موثوق على مشكلة مهمة عند إنشاء أسئلة أولمبياد جديدة: تحديد ما إذا كانت المشكلة أصلية حقًا.”

تعمل MathNet أيضًا كمعيار صارم لأداء الذكاء الاصطناعي، وتكشف النتائج عن صورة أكثر تعقيدًا مما قد توحي به العناوين الأخيرة حول براعة الذكاء الاصطناعي في الرياضيات. لقد حققت النماذج الحدودية تقدمًا استثنائيًا: فقد أفادت بعض التقارير أن بعضها حقق أداء الميدالية الذهبية في المنظمة البحرية الدولية (IMO)، وبموجب المعايير القياسية، أصبح بإمكانها الآن حل المشكلات التي من شأنها أن تربك معظم البشر. لكن ماث نت تظهر أن التقدم متفاوت. حتى GPT-5، وهو النموذج الأعلى أداءً الذي تم اختباره، بلغ متوسطه حوالي 69.3 بالمائة على مقياس MathNet الرئيسي الذي يضم 6400 مشكلة، وفشل في ما يقرب من واحدة من كل ثلاث مسائل على مستوى الأولمبياد. وعندما تتضمن المشكلات أرقامًا، ينخفض ​​الأداء بشكل كبير في جميع المجالات، مما يكشف عن التفكير البصري كنقطة ضعف ثابتة حتى بالنسبة للنماذج الأكثر قدرة.

سجلت العديد من النماذج مفتوحة المصدر نسبة 0% في مشاكل اللغة المنغولية، مما يسلط الضوء على بُعد آخر تعجز فيه أنظمة الذكاء الاصطناعي الحالية على الرغم من قوتها الإجمالية.

يقول الشمري: “إن نماذج GPT جيدة بنفس القدر في اللغة الإنجليزية واللغات الأخرى”. “لكن العديد من النماذج مفتوحة المصدر تفشل تمامًا في اللغات الأقل شيوعًا، مثل المنغولية.”

تم تصميم تنوع MathNet أيضًا لمعالجة القيود الأعمق في كيفية تعلم نماذج الذكاء الاصطناعي للرياضيات. عندما تنحرف بيانات التدريب نحو المشكلات الإنجليزية والصينية، فإن النماذج تمتص شريحة ضيقة من الثقافة الرياضية. قد تقترب مشكلة التوافقيات الرومانية أو مشكلة نظرية الأعداد البرازيلية من نفس المفهوم الأساسي من زاوية مختلفة تمامًا. ويرى الباحثون أن التعرض لهذا النطاق يجعل البشر وأنظمة الذكاء الاصطناعي يفكرون رياضيًا بشكل أفضل.

إلى جانب حل المشكلات، تقدم MathNet معيارًا للاسترجاع يسأل ما إذا كانت النماذج يمكنها التعرف على متى تشترك مشكلتان في نفس البنية الرياضية الأساسية، وهي قدرة مهمة لتطوير الذكاء الاصطناعي ومجتمع الرياضيات نفسه. ظهرت مشاكل شبه مكررة في اختبارات IMO الحقيقية على مر السنين لأن العثور على معادلات رياضية عبر الرموز واللغات والأشكال المختلفة أمر صعب للغاية، حتى بالنسبة للجان البشرية المتخصصة. من خلال اختبار ثمانية نماذج تضمين حديثة، وجد الباحثون أنه حتى أقوى النماذج حددت المطابقة الصحيحة في حوالي 5 بالمائة فقط من الوقت في المحاولة الأولى، مع قيام النماذج في كثير من الأحيان بتصنيف المشكلات غير ذات الصلة من الناحية الهيكلية على أنها أكثر تشابهًا من المشكلات المكافئة.

تتضمن مجموعة البيانات أيضًا معيارًا للاسترجاع المعزز، لاختبار ما إذا كان إعطاء النموذج مشكلة ذات صلة هيكليًا قبل مطالبته بحل مشكلة جديدة يؤدي إلى تحسين الأداء. إنه كذلك، ولكن فقط عندما تكون المشكلة التي تم استردادها ذات صلة حقًا. حصل DeepSeek-V3.2-Speciale على ما يصل إلى 12 نقطة مئوية مع الاسترجاع المطابق جيدًا، بينما أدى الاسترجاع غير ذي الصلة إلى تدهور الأداء في حوالي 22 بالمائة من الحالات.

كتب الشمري الورقة مع صفائي، ومهندس الذكاء الاصطناعي البشري أبرار زينل، ومدير أكاديمية كاوست سلطان البركاتي، وزملائهم في معهد ماساتشوستس للتكنولوجيا CSAIL: طالب الماجستير كيفن وين SB ’25؛ مدير الهندسة الرئيسي لشركة Microsoft مارك هاميلتون SM ’22، دكتوراه 25؛ والأستاذان ويليام فريمان وأنطونيو تورالبا. تم تمويل عملهم جزئيًا من قبل كلية شوارزمان لزمالة الحوسبة والمؤسسة الوطنية للعلوم.

MathNet متاح للعامة على موقع mathnet.csail.mit.edu.