مجموع (قاعدة بيانات) النطق بالعربية

Arabic | English

تم بناء قاعدة البيانات هذه كجزء من اطروحة دكتوراة نوار حلبي في جامعة ساوثهامتون. تم تسجيل قاعدة البيانات هذه في استوديو احترافي بلهجة دمشقية. تم استخدام قاعدة البيانات هذه لتركيب كلام منطوق أوتوماتيكيا ذي جودة عالية.

تصدر قاعدة البيانات هذه تحت رخصة المشاع الإبداعي المحددة أدناه باللغة الإنكليزية. في حال أردتم الحصول على خدمات استشارية لبناء قاعدة بيانات خاصة بكم، يرجى الإتصال بنوار حلبي بالبريد الاكتروني. شكراً جزيلاً لاهتمامكم.

تحميل قاعدة البيانات

تطوير واستضافة مجموعة المعطيات هذه يتطلب وقت وتمويل. إذا أردت المساعدة، بإمكانك التبرع عبر بي بال :)

1813 ملف wav. تحتوي على التسجيلات الصوتية.
1813 ملف lab. تحتوي على النصوص المنطوقة في كل تسجيل.
1813 ملف TextGrid. تحتوي على على اللحظات الزمنية و الرموز التي تحدد الفونيمات التي يتم نطقها في كامل القاعدة. يمكن فتح هذه الملفات ببرنامج برات.
phonetic-transcirpt.txt يحوي في كل سطر "[اسم الملف الصوتي wav]" "[الفونيمات المنطوقة بالترتيب]".
orthographic-transcript.txt يحوي في كل سطر "[اسم الملف الصوتي wav]" "[النص المنطوق]". النص تم حفظه بترميز Buckwlater و ليس بأحرف عربية لسهولة استخدامها ببرامج الكمبيوتر. يمكن التحويل بسهولة إلى الأحرف العربية.
يوجد 18 دقيقة اضافية لما سبق ذكره تتضمن جميع التفاصيل المذكورة أعلاه. استخدمت هذه الدقائق الأضافية لتقييم القاعدة ولكن يمكنكم إضافتها للقاعدة الأساسية لتطبيقاتكم.

سوف يتم إضافة المزيد من الوثائق و الشرح في المستقبل. الرجاء الإطلاع على شهادة الدكتوراة الخاصة بنوار حلبي. ويجب التنويه هنا أن رمز الفاصلة العليا الذي يتبع بعض رموز الفونيمات الصوتية يدل على أن الفونيم الصوتي هذا جزء من مقطع لفظي مشدد أو ذو نبرة (stressed). بإمكانكم زيارة صفحة ويكيبيديا الخاصة بقاعدة البيانات الصوتية العربية للمزيد من المعلومات.

https://github.com/nawarhalabi/festival-tts-arabic-voices-docker في هذا المستودع يوجد دوكر كونتينير لتشغيل السيرفر بسهولة على أي نظام

شكراً جزيلاً لطه زروقي و أحمد برقاوي و كريم حمينة و أسامة حمينة على العمل الرائع و استخدام الكوربس لتوليد النطق:

شكراً لعلي حمدي فاضل و ابراهيم تفاحة و براءة الجوارنة و محمود الايوب لعملهم على المشكل "شكلّها" الذي يفترض ان يكون الأدق لحد علمي https://github.com/AliOsm/shakkelha". قمت بإعادة تدريب المودل على المزيد من المعطيات من كتب أطفال (حواي نصف مليون كلمة جديدة)

Arabic Speech Corpus by Nawar Halabi is licensed under a Attribution 4.0 International (CC BY 4.0) License. Based on a work at www.arabicspeechcorpus.com.

تطوير واستضافة مجموعة المعطيات هذه يتطلب وقت وتمويل. إذا أردت المساعدة، بإمكانك التبرع عبر بي بال :)

مجموع (قاعدة بيانات) النطق بالعربية

محتويات قاعدة البيانات

التوثيق

تجربة

الرخصة (شروط الاستخدام)

Help us keep the corpus free