Arapça makine çevirisi son yıllarda gelişmiş olmasına rağmen, lehçeler söz konusu olduğunda hâlâ ciddi problemler yaşanmaktadır. Literatürde bu durumun temel nedenleri arasında dilin yapısal özellikleri, lehçeler arası farklılıklar ve veri eksikliği öne çıkmaktadır (ScienceDirect, 2016). Arapça, Modern Standart Arapça (MSA) ve günlük konuşma lehçeleri arasında belirgin bir ayrım bulunan bir dildir. Makine çevirisi sistemleri genellikle standart dil üzerinden eğitildiği için lehçeleri anlamakta zorlanmaktadır (Zaidan & Callison-Burch, 2014).

Çalışmalarda en çok vurgulanan sorunlardan biri lehçeler için yeterli veri bulunmamasıdır. Mevcut veriler çoğunlukla sosyal medya gibi düzensiz ve standart dışı kaynaklardan elde edilmektedir. Bu durum, makine çevirisi sistemlerinin doğru öğrenme yapmasını zorlaştırmaktadır (ScienceDirect, 2016). Ayrıca lehçelerde yazım birliği olmaması da önemli bir problemdir. Aynı kelimenin farklı şekillerde yazılabilmesi ve bazen Latin harflerinin kullanılması, sistemlerin metni doğru analiz etmesini engellemektedir.

Literatürde Arapça lehçeler arasındaki farkların da çeviri kalitesini ciddi şekilde etkilediği belirtilmektedir. Kelime dağarcığı, telaffuz ve dil bilgisi yapıları lehçeden lehçeye değişebilmektedir. Bu nedenle bir lehçe için geliştirilen model başka bir lehçede başarılı olmayabilmektedir (arXiv, 2017). Bunun yanında lehçelerde sıkça görülen kod karışımı, yani aynı cümlede birden fazla dilin kullanılması, makine çevirisi sistemleri için ayrı bir zorluk oluşturmaktadır (ScienceDirect, 2016).

Araştırmalarda ayrıca lehçelerin kültürel ve bağlamsal açıdan yoğun olduğu ve deyimsel ifadelerin fazla kullanıldığı ifade edilmektedir. Makine çevirisi sistemleri bu tür ifadeleri genellikle kelime kelime çevirdiği için anlam kayıpları ortaya çıkmaktadır (ResearchGate, 2024). Bu da çevirinin genel kalitesini düşürmektedir.

Genel olarak değerlendirildiğinde, Arapça lehçelerin makine çevirisinde yetersiz kalmasının tek bir nedeni olmadığı, bunun yerine dilsel, teknik ve veri ile ilgili birçok faktörün birlikte etkili olduğu görülmektedir. Bu problemlerin çözülmesi için daha fazla veri üretilmesi, lehçelere özel modeller geliştirilmesi ve çok dilli sistemlerin kullanılması gerektiği literatürde sıkça belirtilmektedir (arXiv, 2023).

Kaynakça

ScienceDirect (2016): https://www.sciencedirect.com/science/article/pii/S0306457316305702

arXiv (2017): https://arxiv.org/abs/1712.06273

arXiv (2023): https://arxiv.org/abs/2301.03447

ResearchGate (2024): https://www.researchgate.net/publication/321150077_The_Key_Challenges_for_Arabic_Machine_Translation

Zaidan, O. F., & Callison-Burch, C. (2014)