Abstract This technical report presents the Arabic Manuscript NLP Pipeline, a Digital Humanities and Artificial Intelligence project designed to support the digitization and computational analysis of historical Arabic manuscripts. The project integrates image preprocessing, Optical Character Recognition (OCR), text cleaning, and experimental Natural Language Processing (NLP) techniques to transform manuscript images into machine-readable Arabic text. Developed using Python, OpenCV, Tesseract OCR, Gradio, Docker, GitHub, and Hugging Face Spaces, the project demonstrates a practical workflow for Arabic manuscript digitization and text extraction. The report outlines the project objectives, technologies employed, workflow design, key achievements, research significance, and future development directions. The project contributes to ongoing efforts in Arabic NLP, Digital Humanities, and Islamic Digital Heritage by exploring accessible and open-source approaches to the preservation, accessibility, and computational study of Arabic manuscript collections. It also serves as an example of how Artificial Intelligence can support the analysis and preservation of historical Arabic and Islamic textual heritage. الملخص يقدم هذا التقرير الفني مشروع «معالجة المخطوطات العربية باستخدام تقنيات معالجة اللغة الطبيعية»، وهو مشروع يجمع بين العلوم الإنسانية الرقمية والذكاء الاصطناعي بهدف دعم رقمنة المخطوطات العربية وتحليلها حاسوبيًا. ويعتمد المشروع على دمج تقنيات معالجة الصور، والتعرف الضوئي على الحروف (OCR)، وتنظيف النصوص، وبعض التطبيقات التجريبية لمعالجة اللغة الطبيعية لتحويل صور المخطوطات إلى نصوص عربية قابلة للمعالجة الحاسوبية. تم تطوير المشروع باستخدام Python وOpenCV وTesseract OCR وGradio وDocker وGitHub وHugging Face Spaces، ويعرض نموذجًا عمليًا لاستخراج النصوص العربية من المخطوطات ورقمنتها. كما يوضح التقرير أهداف المشروع، والتقنيات المستخدمة، وسير العمل، وأبرز الإنجازات، والأهمية البحثية، والاتجاهات المستقبلية للتطوير. ويسهم المشروع في دعم مجالات معالجة اللغة العربية، والعلوم الإنسانية الرقمية، والتراث الإسلامي الرقمي، من خلال استكشاف حلول مفتوحة المصدر تساعد على حفظ المخطوطات العربية وإتاحتها للباحثين وتمكين دراستها حاسوبيًا باستخدام تقنيات الذكاء الاصطناعي.
Dr. Seema Tahir (Mon,) studied this question.