بيانات التدريب + البيانات الوصفية للنماذج اللغوية الكبيرة
يركّز DataPass على مواصفة بيانات تدريب LLM: حزم metadata.json وJSONL لسجلات SFT وPreference وRFT وCPT. تبقى بطاقة البيانات للتوثيق.
{
"schema_version": "llm-training-data/v1",
"dataset": {
"name": "telco-support-sft",
"dataset_id": "telco-support-sft-v1",
"description": "Anonymized broadband troubleshooting conversations",
"license": "Proprietary",
"contact": "data@telco.meetkai.ai",
"tags": ["telecom", "customer-support", "broadband"]
},
"files": [
{
"split": "train",
"objective": "sft",
"shards": [
{ "path": "data/train-00000.jsonl", "record_count": 1 },
{ "path": "data/train-00001.jsonl", "record_count": 1 }
]
}
]
} {
"schema_version": "llm-datacard/v1.0",
"core": {
"id": "telco-support-sft",
"version": "1.0.0",
"title": "Telco Support Conversations",
"summary": "Anonymized customer support chats for broadband troubleshooting",
"maintainer": "MeetKai Telco",
"contact": "data@telco.meetkai.ai"
},
"data": {
"kind": "real",
"modalities": ["text"],
"languages": ["en"],
"size": { "examples": 250000 },
"domains": ["customer-support", "telecom"],
"record_format": "chat",
"task_types": ["supervised-finetuning"],
"structures": ["conversations"]
},
"rights": {
"license": "Proprietary",
"allows_commercial_use": false,
"contains_personal_data": "pseudonymous"
},
"provenance": {
"source_types": ["support-chats"]
},
"access": {
"availability": "restricted",
"request_instructions": "Contact data@telco.meetkai.ai for access review."
}
} ابدأ بتنسيق بيانات التدريب
نسّق سجلات SFT وPreference وRFT وCPT باستخدام metadata.json وملفات JSONL.
نظرة عامة على بيانات التدريب
افهم التنسيق والأهداف وبنية الملفات.
استكشف التنسيقالبدء السريع لبيانات التدريب
أنشئ مجموعة بيانات SFT بسيطة خلال دقائق.
ابدأ الآنالبدء السريع لشركات الاتصالات
إرشادات لفرق الاتصالات حول نوع البيانات وكيفية مشاركتها.
اقرأ الدليلحزم العينات
انسخ أمثلة metadata.json وJSONL الواقعية.
عرض حزم العيناتلماذا DataPass؟
معيار مصمم لتقديم البيانات الفعلية ورعاية اللغات منخفضة الموارد
وضوح الحقوق
ترخيص واضح، وحالة الاستخدام التجاري، وتوصيف البيانات الشخصية بتنسيق قابل للقراءة آلياً.
تتبع المصدر
توثيق أنواع المصادر والجغرافيا ونوافذ الجمع وأصول البيانات بحقول منظمة.
معلومات الوصول
حالة توفر موحدة مع تعليمات الطلب ومؤشرات الملفات.
رعاية اللغات
علامات BCP-47، والأسماء الذاتية، والخطوط، واتجاه الكتابة، وبيانات تبديل الرموز للغات منخفضة الموارد.
التحقق من المخطط
مخطط JSON صارم مع additionalProperties: false يضمن بطاقات بيانات متسقة وقابلة للتنبؤ.
يقوده المجتمع
سير عمل مساهمة قائم على طلبات السحب لبطاقات البيانات والمخططات والترجمات.
مخطط صارم لبطاقات بيانات موثوقة
يستخدم مخطط بطاقة بيانات LLM الإصدار 1.0 additionalProperties: false في كل مكان، مما يضمن أن كل حقل مقصود ومُتحقق منه.
- الأقسام المطلوبة: core, data, rights, provenance, access
- الأقسام الاختيارية: artifacts, processing, quality, synthetic, use, governance, safety, community, sources, stats, extensions
- القواعد الشرطية: تحقق ذكي يتطلب حقولاً بناءً على السياق
أمثلة التحقق الشرطي
-
data.kind = "synthetic"requiressynthetic.generation_method -
rights.contains_personal_data != "none"requiresrights.consent_mechanism -
access.availability = "restricted"requiresrequest_instructionsorurl -
data.structures = "translation-pairs"requireslanguages.length >= 2
هل أنت مستعد لتوثيق مجموعة بياناتك؟
استخدم أدواتنا لإنشاء بطاقة البيانات الخاصة بك والتحقق منها ونشرها.