حول
DataPass هو معيار مفتوح لتوثيق مجموعات البيانات المستخدمة في تدريب وتقييم النماذج اللغوية الكبيرة. يوفر مخطط بطاقة بيانات LLM الإصدار 1.0 تنسيقاً قابلاً للقراءة آلياً يلتقط البيانات الوصفية الأساسية حول الحقوق والمصدر والوصول وخصائص البيانات.
لماذا بنينا هذا
مع انتشار النماذج اللغوية الكبيرة، أصبحت الحاجة إلى توثيق مجموعات بيانات شفاف وموحد أمراً بالغ الأهمية. يحتاج ناشرو مجموعات البيانات إلى طريقة موجهة لإنتاج بطاقات صالحة، ويحتاج بناة النماذج إلى بحث سريع وتصدير قابل للقراءة آلياً، ويحتاج المدققون إلى معلومات واضحة عن المصدر والحقوق.
المبادئ الأساسية
- صرامة بالتصميم: يستخدم المخطط additionalProperties: false في كل مكان، مما يضمن أن كل حقل مقصود ومُتحقق منه.
- رعاية اللغات: دعم من الدرجة الأولى لعلامات BCP-47 والأسماء الذاتية واتجاه الكتابة وبيانات تبديل الرموز للغات منخفضة الموارد.
- تقديم بيانات عملي: مصمم لسير العمل الفعلي مع الملفات وخطوط المعالجة ومقاييس الجودة.
- يقوده المجتمع: سير عمل مساهمة قائم على طلبات السحب لبطاقات البيانات والمخططات والترجمات.
شارك معنا
DataPass مشروع مفتوح. يمكنك المساهمة من خلال:
- إرسال بطاقات بيانات لمجموعات بياناتك
- المساهمة بمخططات سجلات أو امتدادات
- المساعدة في ترجمة التوثيق
- الإبلاغ عن المشاكل أو اقتراح التحسينات
قم بزيارة مستودع GitHub الخاص بنا للبدء. GitHub