بطاقة بيانات LLM الإصدار 1.0
بطاقة بيانات قابلة للقراءة آلياً لتوثيق مجموعات البيانات المستخدمة في تدريب وتقييم النماذج اللغوية الكبيرة
{
"schema_version": "llm-datacard/v1.0",
"core": {
"id": "my-dataset",
"version": "1.0.0",
"title": "My Dataset",
"summary": "A well-documented dataset for LLM training",
"maintainer": "Your Organization",
"contact": "data@meetkai.ai"
},
"data": {
"kind": "real",
"modalities": ["text"],
"languages": ["en", "ar"],
"size": { "examples": 100000 },
"domains": ["news", "social-media"],
"record_format": "plain-text"
},
"rights": { ... },
"provenance": { ... },
"access": { ... }
} لماذا DataPass؟
معيار مصمم لتقديم البيانات الفعلية ورعاية اللغات منخفضة الموارد
وضوح الحقوق
ترخيص واضح، وحالة الاستخدام التجاري، وتوصيف البيانات الشخصية بتنسيق قابل للقراءة آلياً.
تتبع المصدر
توثيق أنواع المصادر والجغرافيا ونوافذ الجمع وأصول البيانات بحقول منظمة.
معلومات الوصول
حالة توفر موحدة مع تعليمات الطلب ومؤشرات الملفات.
رعاية اللغات
علامات BCP-47، والأسماء الذاتية، والخطوط، واتجاه الكتابة، وبيانات تبديل الرموز للغات منخفضة الموارد.
التحقق من المخطط
مخطط JSON صارم مع additionalProperties: false يضمن بطاقات بيانات متسقة وقابلة للتنبؤ.
يقوده المجتمع
سير عمل مساهمة قائم على طلبات السحب لبطاقات البيانات والمخططات والترجمات.
مخطط صارم لبطاقات بيانات موثوقة
يستخدم مخطط بطاقة بيانات LLM الإصدار 1.0 additionalProperties: false في كل مكان، مما يضمن أن كل حقل مقصود ومُتحقق منه.
- الأقسام المطلوبة: core, data, rights, provenance, access
- الأقسام الاختيارية: artifacts, processing, quality, synthetic, use, governance, safety, community, sources, stats, extensions
- القواعد الشرطية: تحقق ذكي يتطلب حقولاً بناءً على السياق
أمثلة التحقق الشرطي
-
data.kind = "synthetic"requiressynthetic.generation_method -
rights.contains_personal_data != "none"requiresrights.consent_mechanism -
access.availability = "restricted"requiresrequest_instructionsorurl -
data.structures = "translation-pairs"requireslanguages.length >= 2
هل أنت مستعد لتوثيق مجموعة بياناتك؟
استخدم أدواتنا لإنشاء بطاقة البيانات الخاصة بك والتحقق منها ونشرها.