# LV1 — Verified Data Audit & Cross-Platform Reconciliation
## تدقيق البيانات الموثقة ومطابقة المنصات

**Date:** 2026-03-24
**Purpose:** Fact-check all claims about scholar data, letter coverage, and dataset counts against actual source files, NotebookLM extractions, and Jabal's xlsx. Reconcile discrepancies between this platform (Cowork/Claude) and the Codex platform.

---

## 1. Scholar Letter Coverage — Verified Counts

### جبل (Jabal) — 28/28 ✅ COMPLETE
- **Source:** المعجم_الاشتقاقي_Juthoor_v2.xlsx → sheet "معاني الحروف"
- **Verification:** Read directly from xlsx. All 28 Arabic consonants present with المعنى اللغوي الجوهري.
- **Location:** `Muajam Ishtiqaqi/المعجم_الاشتقاقي_Juthoor_v2.xlsx`

### عاصم المصري — 28/28 ✅ COMPLETE (+ ألف المد = 29 entries)
- **Source:** `Languistic theories/عاصم المصري/جدول معاني الحروف _.md` and main book starting line 80
- **Verification:** Read directly from source file. Full table present with المعنى الحركي for each letter.
- **Critical finding:** عاصم **explicitly continued النيلي's work.** In his acknowledgments (line 64): "لفت نظري صديقٌ إلى مخطوطة المرحوم عالم سبيط النيلي". In his introduction (line 117): "هذه رؤية كان بدأها عالم سبيط النيلي لكنها لم تخرج عن مفهوم ما يسميه النيلي القصدية". He cites النيلي 30+ times throughout the book.
- **Implication:** عاصم is NOT an independent scholar — he is النيلي's intellectual heir who completed the 28-letter project using the same القصدية framework.

**عاصم's complete 28-letter table:**

| # | Letter | المعنى الحركي |
|---|--------|--------------|
| 1 | الهمزة | تهمزُ وتحفّز حركة الحرف ذهاباً وإياباً |
| 2 | ألف المد | تأليفُ إنشائي وجودي من تعامد بين حركتي الزمان والمكان |
| 3 | باء | انبثاقٌ يفتح المجال من مكمن الطاقة وإلحاح الحاجة |
| 4 | جيم | دمجٌ وجمع لما تناثر وما تفاقم |
| 5 | دال | اندفاعٌ قصدي الدلالة بالحركة لأبعد مدى |
| 6 | هاء | انتقالٌ محمول غير مستقر، فإذا استقرّ جذب |
| 7 | واو | تموضعٌ مكاني يحدّد حيّز الحركة |
| 8 | زاء | إبرازٌ تكرار الحركة مادياً |
| 9 | حاء | نَماءٌ متعاظم من داخل الحركة |
| 10 | طاء | تضخّمٌ احتوائي واجتذاب داخلي للحركة |
| 11 | ياء | ملازمة الحركة في البُعد الزمني المستمر |
| 12 | كاف | تكتلُ ما تألف وتوافق في إطار ومحتوى |
| 13 | لام | تلاحمٌ وتوصيل لنسج حركة جديدة |
| 14 | ميم | تكميل النواقص لإتمام العمل والحركة |
| 15 | نون | تكوين مستمرّ لحركة مستقرة مكاناً وزماناً |
| 16 | سين | هيمنةٌ يبسط نفوذ فوقي متعالي |
| 17 | عين | مَعاينةٌ داخلية وخارجية للمبهم في الحركة ووجهتها |
| 18 | فاء | فصلٌ وتفريق للتمييز والبت في وجهة الحركة |
| 19 | صاد | ترابطٌ وتراص وتفاعل في الحركة ودلالتها |
| 20 | قاف | قوّة فصل لبيان وتقفي أثر الحركة |
| 21 | راء | تكرارٌ للحركة بشكل منظّم يستبطن المحاذير |
| 22 | شين | تشعّبٌ وانتشار للحركة من أرومة يضمر التضليل |
| 23 | تاء | اجتذاب الحركات وتكاثفها لبناء قوّة جديدة |
| 24 | ثاء | تكاثرٌ كمّي بثبات وتريث متابع |
| 25 | خاء | خروجٌ مُبطّن لإخماد الحركة وكبت جماحها |
| 26 | ذال | تدليل مرور وتواصل الحركة حسياً بالتحامها بالأصل |
| 27 | ضاد | الالتزامُ بعدم الانحراف أو الميل عن القصد |
| 28 | ظاء | تعاظم ظهور الحركة واتضاحها في تضخيم الظاهر |
| 29 | غين | تمويه ظهور الحركة وبيان مقصدها بإخفاء معالمها |

### النيلي — 10/28 ⚠️ PARTIAL (methodological value >> letter coverage)
- **Source:** 4 files in `Languistic theories/عالم سبيط النيلي/`
- **Verification:** Searched all 4 files. Confirmed: 10 letters only (د,ح,ر,ت,ك,م,ب,ع,ل,ي).
- **The other 18 genuinely DO NOT exist** in available sources. No hidden table.
- **Main value is methodological:** القصدية framework, المعنى المفهومي vs المصداق, المنهج اللفظي (6 rules), critique of Saussure.
- **عاصم المصري completed his project** — see above.

### حسن عباس — 23+3/28 ✅ (26 entries total)
- **Source:** `Languistic theories/حسن عباس/خصائص الحروف العربية ومعانيها - حسن عباس.md`
- **Verification:** عباس himself states he studied 23 letters. HOWEVER, أ، و، ي are also covered as a special group — "حروف جوفية" (cavity letters) in the بصرية (visual) sensory category. They express spatial directions: أ=للأعلى, و=للأمام, ي=للأسفل.
- **Why the confusion:** عباس says their "معجمي influence" is "شبه معدوم" (nearly nil), so they're not analyzed with the same depth. But they ARE categorized and defined.
- **إيماء / إيحاء / هيجانية classification:** EXISTS in the source text but distributed across prose chapters, not a single clean table. The mapping is:
  - **هيجانية** (exclamatory): earliest evolutionary stage, emotional outbursts
  - **إيمائية** (imitative): physical articulation gesture mimics meaning. Examples: ف (lips part = فصل), ب (lips close = ضيق), م (lips seal = ضم), ل (tongue slides = التصاق), ر (tongue trills = تكرار)
  - **إيحائية** (suggestive): emotional resonance evokes meaning. Examples: ن (nasal = أنين/حنين), ص (sharp clear = نقاء), ح (warm breath = سعة), ع (deep throat = إشراق)
  - **Status:** Needs systematic extraction into a per-letter table. This is a Phase 1 task.
- **No citation of النيلي.** عباس worked entirely independently from a sensory/statistical direction.

### محمد عنبر — 25/28 ✅ (21 explicit + 4 contextual, verified from NotebookLM)
- **Source:** `Languistic theories/محمد عنبر/جدلية الحرف العربي.md` (raw, OCR-damaged) + NotebookLM notes (4 notes total)
- **Verification:** The raw PDF file IS severely OCR-damaged (Chinese characters, garbled text). BUT the NotebookLM extraction produced a clean, structured table of 21 letters organized by phonetic groups, plus 4 additional letters derived from contextual analysis.
- **Codex's claim of "only 3" is WRONG.** The OCR damage makes the raw file misleading. The actual extracted content covers:
  - شفوية: م، ف، ب (3)
  - تفخيم: ص، ق، ض (3)
  - ذلقية: ر، ل، ن (3)
  - صفيرية: س، ز، ش (3)
  - حلقية: ح، ع، خ (3)
  - شديدة: د (1)
  - مد + همزة: و، ي، ا/ء (4)
  - الفتحة (1) — treated by عنبر as a separate phonological unit
  - **Subtotal explicit: 21 distinct entries (20 consonant letters + الفتحة)**
- **4 contextually-derived additions** (from NotebookLM targeted queries on the 7 missing letters):
  - **ج** — linked to ستر/خفاء via ابن فارس citation in عنبر's text. عنبر uses ج in binary nuclei analysis (e.g., ج-ر) with meaning of جمع/دمج.
  - **ك** — described as "حرف محتك" with meanings: انطواء، منع، حبس. عنبر analyzes it in context of ك-ب، ك-ف nuclei.
  - **ت** — derived from ب-ت nucleus analysis where عنبر assigns it قطع/فصل meaning, complementing ب's ضيق/انقباض.
  - **غ** — linked to خفاء/غموض from ن-ب-غ context, where عنبر discusses how غ adds concealment to the nucleus meaning.
  - **Subtotal contextual: 4 letters (lower confidence than the explicit 21)**
  - **Total: 25 letters**
- **Truly missing:** ط، ث، ظ (3 letters — no data found even contextually)
- **NotebookLM note:** "الحروف السبعة المفقودة — تدقيق نهائي" (note_id: 6b9c6180-44ba-4600-9a0c-21f11ae8f018)
- **Primary role in LV1:** Reversal/inversion hypothesis testing (القاعدة الذهبية) + articulatory-physical letter definitions. The Golden Rule is a **hypothesis**, not a confirmed law.

**عنبر's complete extracted letter meanings:**

| Letter | Phonetic Group | المعنى الدلالي |
|--------|---------------|---------------|
| م | شفوية | إطباق الشفتين → التجمع، الانقباض، التراكم، الطي، الاحتواء |
| ف | شفوية | ضم الشفتين → التقارب، التداني، التضام، الالتقاء |
| ب | شفوية | إطباق الشفتين تماماً → الضيق، الانقباض، الشدة، الإمساك، الرجوع للوراء |
| ص | تفخيم | مجهور مستعلٍ، تفريج الفم → الانفصال، التباعد، التفريج |
| ق | تفخيم | محتك شديد مجهور مستعلٍ مقلقل → الاحتكاك، التوقف، الاصطدام |
| ض | تفخيم | مطبق ذو استطالة → التآدي باستطالة، الرجوع للوراء، الإمساك، التطابق |
| ر | ذلقية | تكرير، مذلقة → التآدي، التمادي، الانطلاق، التكرار، الامتداد |
| ل | ذلقية | مذلقة واسعة المخرج → التآدي في تطاول، الانزلاق، المضي بعيداً |
| ن | ذلقية | منغوم ضعيف → ضعف الحركة، بلوغ المدى، انقطاع الحركة والسكون، التباعد |
| س | صفيرية | مهموس مصفور محتد → الانسياب مع الاحتكاك، التماس |
| ز | صفيرية | محتد مصفور ملتز → الاحتكاك، الالتحام، الالتزاز، التماس |
| ش | صفيرية | متفش مهموس منساب → التفشي، الانتشار، التفرق، التبدد |
| ح | حلقية | حلقي مظهر واسع مهموس → السعة، الانفتاح، الاتساع، الظهور |
| ع | حلقية | حلقي مظهر متفجر → التفجر، الإشراق، الظهور، الإفصاح، الإبانة |
| خ | حلقية | حلقي مظهر → الانتشار والظهور والتعالي (كالدخان) |
| د | شديدة | شديد مجهور مقلقل → الوقوف كالسد، المنع، الاشتداد، الاحتباس |
| و | حركات | ضم الشفتين → مصارعة الجاذبية، الانحصار، الضيق |
| ي | حركات | مطل الكسرة → مساوقة الجاذبية الأرضية (الانحدار) |
| ا | حركات | نبرة بسيطة → حالة "بين بين"، تحفيز للفعل |
| ء | حركات | أم الحروف والحركات → أضعف درجات الحركة |
| الفتحة | حركات | أقصر الحركات — انفتاح الفم، حركة خفيفة سريعة (عنبر يعاملها كوحدة صوتية مستقلة عن الألف) |
| **ج** | **سياقية** | ⚠️ من تحليل النوى الثنائية (ج-ر إلخ): جمع، دمج؛ وعبر ابن فارس: ستر، خفاء |
| **ك** | **سياقية** | ⚠️ حرف محتك — انطواء، منع، حبس (من سياق ك-ب، ك-ف) |
| **ت** | **سياقية** | ⚠️ من تحليل ب-ت: قطع، فصل (مكمّل لـ ب = ضيق/انقباض) |
| **غ** | **سياقية** | ⚠️ خفاء، غموض (من سياق ن-ب-غ، حيث تضيف غ معنى الإخفاء) |

> **⚠️ Note:** The last 4 rows (ج، ك، ت، غ) are contextually derived from عنبر's binary nuclei analysis, not from explicit standalone definitions. They carry lower confidence than the 21 explicit entries above. Table total: 21 explicit + 4 contextual = **25 documented rows**. Only ط، ث، ظ have no data at all.

### ذوق — 3/28 ⚠️ EXAMPLES ONLY
- **Source:** NotebookLM notebook (3 notes verified)
- **Verification:** Only 3 letters analyzed as pictographic examples: تاء (cross=تابوت=stability), هاء (praying man=هدى), أليف (calf head=أليف)
- **No expectation of more** from available sources.

### خشيم — N/A (phonetic shift rules, not letter semantics)
### الشناوي — N/A (comparative evidence, not letter semantics)

---

## 2. Dataset Counts — Verified from xlsx

**Canonical source:** المعجم_الاشتقاقي_Juthoor_v2.xlsx

| Metric | Value (verified) |
|--------|-----------------|
| Total trilateral roots | **1,924** |
| Binary nuclei | **456** |
| أبواب (letter chapters) | **25** |
| Roots with Quranic application (التطبيق القرآني ≠ null) | **1,666** (86.6%) |
| Roots without Quranic application | **258** |

### Discrepancy with Codex platform:
| Field | Our xlsx (ground truth) | Codex roots.jsonl | Difference |
|-------|------------------------|-------------------|------------|
| Total roots | 1,924 | 1,938 | +14 in Codex |
| Quranic entries | 1,666 | 1,739 | +73 in Codex |

**Explanation:** The Codex pipeline appears to have ingested additional data beyond the xlsx, or used different parsing logic. The xlsx is the canonical source. **An audit of the Codex ingestion pipeline is needed** to explain the 14 extra roots and 73 extra Quranic entries.

---

## 3. Corrections to Codex AI Assessment

The following points were raised by the Codex platform AI and are corrected here:

### ❌ "Only 3 عنبر letter meanings are cleanly extractable"
**Correction:** 25 letters are now available — 21 explicitly extracted and clean in NotebookLM, plus 4 contextually derived (ج، ك، ت، غ) from targeted queries on عنبر's binary nuclei analysis. Only 3 letters (ط، ث، ظ) are truly missing. The OCR damage in the raw PDF misled the analysis. The NotebookLM extraction work across 4 notes produced structured, usable data.

### ❌ "Abbas إيماء/إيحاء — no clean letter-by-letter list exists"
**Correction:** The data exists distributed in عباس's source text. It is not a single ready-made table, but the per-letter mappings are identifiable. Systematic extraction is a Phase 1 task, not a fundamental gap.

### ⚠️ "Abbas و and ي not cleanly present"
**Partial correction:** و and ي ARE present in عباس's framework, grouped as "حروف جوفية" (cavity/visual letters) expressing spatial directions. They lack the same analytical depth as the main 23, which is why عباس counted "23 letters" — but they are categorized and defined.

### ❌ "Neili's missing 18 are just missing"
**Correction (important context):** Yes, النيلي only completed 10. But عاصم المصري explicitly continued النيلي's work and completed all 28 using the same القصدية framework. This isn't just "another scholar" — it's the direct continuation. The 18 "missing" letters exist through عاصم.

### ✅ "Treat Jabal as primary empirical baseline, not absolute truth"
**Confirmed.** This matches our architecture: Jabal = data, all scholars (including Jabal's own letter meanings) = hypotheses to test.

### ✅ "Golden Rule is a hypothesis, not a confirmed law"
**Confirmed.** Our architecture treats it as a testable hypothesis with quantified confidence output.

### ✅ "Quranic system should be separate"
**Confirmed.** Our architecture places it as a separate project, built after the genome is solid.

---

## 4. Source File Locations

### Primary extraction sources for LV1 Phase 1:

| Scholar | File | Status |
|---------|------|--------|
| جبل (28 letters) | `Muajam Ishtiqaqi/المعجم_الاشتقاقي_Juthoor_v2.xlsx` → sheet "معاني الحروف" | ✅ Clean structured table |
| جبل (456 nuclei + 1,924 roots) | Same xlsx → sheet "المعجم الكامل" | ✅ Clean structured table |
| عاصم (28 letters) | `Languistic theories/عاصم المصري/جدول معاني الحروف _.md` | ✅ Clean table |
| عاصم (full theory) | `Languistic theories/عاصم المصري/الأبجدية-ودلالاتها-عاصم-المصري.md` | ✅ Rich prose + tables |
| النيلي (10 letters + method) | `Languistic theories/عالم سبيط النيلي/` (4 files) | ✅ Rich prose |
| عباس (23+3 letters + sensory) | `Languistic theories/حسن عباس/خصائص الحروف العربية ومعانيها - حسن عباس.md` | ✅ Rich prose, tables need extraction |
| عنبر (25 letters + reversal) | NotebookLM notes: "دلالات الحروف المفردة عند عنبر — جدول تفصيلي" (21 explicit) + "الحروف السبعة المفقودة — تدقيق نهائي" (4 contextual) | ✅ Clean extracted tables |
| عنبر (raw source) | `Languistic theories/محمد عنبر/جدلية الحرف العربي.md` | ⚠️ OCR-damaged, use NotebookLM extraction |
| ذوق (3 letters) | NotebookLM notes (3 notes verified) | ✅ Clean |
| خشيم (sound laws) | `Languistic theories/علي فهمي خشيم/` (7 files) | ✅ Rich |
| الشناوي (comparative) | `Languistic theories/خالد نعيم الشناوي/` | ✅ |

### Summary/overview files:
- [`../01-theory/classical-survey-ar.md`](../01-theory/classical-survey-ar.md) — main phonosemantics summary (805 lines, 20 sections)
- [`../01-theory/classical-survey-ar.md`](../01-theory/classical-survey-ar.md) — theory file with scholar profiles
- [`lv1-overview-archived.md`](lv1-overview-archived.md) — older English overview (archived in audits)
- [`../02-architecture/lv1-architecture.md`](../02-architecture/lv1-architecture.md) — master architecture document (canonical, updated 2026-03-24)

### NotebookLM notebooks:
| Scholar | Notebook ID | Notes |
|---------|-------------|-------|
| عاصم المصري | 033e13f9-12f0-4b2d-b072-274bca1ad260 | 4 |
| عالم سبيط النيلي | f2b9a010-d04b-443b-bc11-522202714b0c | 6 |
| حسن عباس | e9f5e1ab-171d-42f1-85b9-bc7955b3a029 | 4 |
| محمد عنبر | 59ad6f8f-56d3-4a19-bb37-342f65666c16 | 4 |
| علي فهمي خشيم | 8b435614-87f6-4e63-a35d-6619a674eb19 | 4 |
| محمد رشيد ناصر ذوق | 52ef0a2c-9e06-4757-9d0b-d9550e3d2247 | 3 |
| خالد نعيم الشناوي | 53ba035c-6603-4fe5-a173-389be46cd06e | 3 |
| **Total** | | **28 notes + 21 studio artifacts** |

---

## 5. What This Means for LV1 Phase 1

**Letter Registry readiness:**

| Scholar | Letters available | Ready for feature decomposition? |
|---------|-----------------|--------------------------------|
| جبل | 28 | ✅ YES — clean xlsx table |
| عاصم | 28 | ✅ YES — clean md table |
| عباس | 26 (23+3) | ✅ YES — full per‑letter هيجانية/إيمائية/إيحائية table extracted in [`../03-scholar-extracts/abbas-letter-classification.md`](../03-scholar-extracts/abbas-letter-classification.md) (see §6 below) |
| عنبر | 25 (21 explicit + 4 contextual) | ✅ YES — clean NotebookLM extraction (4 notes) |
| النيلي | 10 | ✅ YES — from notes + source files |
| ذوق | 3 | ✅ YES — but minimal contribution |

**Bottom line:** We have **enough verified data to begin Phase 1 immediately.** All scholar extractions are now complete (see §6 for the closure of the previously‑open عباس item).

---

## 6. Resolution log — open items closed

**Date closed:** 2026‑05‑09

The 2026‑03‑24 pass left three loose threads. All three are now resolved or formally closed.

### 6.1 ✅ RESOLVED — عباس إيماء/إيحاء/هيجانية per‑letter table

- **Original state (§3, §5):** "data exists distributed in عباس's source text… systematic extraction is a Phase 1 task."
- **Resolution:** the extraction was completed in [`../03-scholar-extracts/abbas-letter-classification.md`](../03-scholar-extracts/abbas-letter-classification.md) (2026‑03‑24, 10 KB). It contains the full 28‑letter dual‑axis table (sensory category × evolutionary mechanism: هيجانية / إيمائية / إيحائية), with per‑letter articulatory notes.
- **Coverage:** هيجانية = 4 letters (ء, ا, و, ي). إيمائية = 5 letters (ف, ل, م, ث, ذ). إيحائية = 19 letters. Total 28.
- **Effect on §5 readiness table:** عباس is now ✅ YES (not ⚠️ MOSTLY). Updated above.

### 6.2 ✅ CLOSED (out of scope for this folder) — Codex 14‑root delta

- **Original state (§2):** Codex `roots.jsonl` contains 1,938 roots / 1,739 Quranic vs xlsx ground truth 1,924 / 1,666 — "an audit of the Codex ingestion pipeline is needed."
- **Resolution:** decision recorded — **the xlsx (`المعجم_الاشتقاقي_Juthoor_v2.xlsx`) is the canonical source.** Any divergence in the Codex pipeline is treated as a downstream ingestion bug, to be tracked and fixed in the LV0/LV1 Python pipeline (sibling folder `Juthoor-DataCore-LV0/` / `Juthoor-ArabicGenome-LV1/`), not in this raw‑data vault.
- **Action item handed off:** open as a ticket in the LV0/LV1 ingestion code, not here. This vault stays frozen.

### 6.3 ✅ CLOSED — "Phase 1 tasks"

- **Original state:** the audit referenced two Phase 1 extraction tasks (the عباس table above; verifying عنبر's missing 3 letters ط/ث/ظ).
- **Resolution:**
  - عباس table → done (§6.1).
  - عنبر ط/ث/ظ → confirmed unrecoverable from available sources after NotebookLM targeted queries on 4 notes. Recorded as a permanent gap, not a pending task.
- **Effect:** no Phase 1 extraction work remains in this vault. All further Phase 1 work is computational and lives in the downstream LV1 Python pipeline.

### Summary

| Open item | Status | Where it lives now |
|---|---|---|
| عباس إيماء/إيحاء extraction | ✅ Done | [`../03-scholar-extracts/abbas-letter-classification.md`](../03-scholar-extracts/abbas-letter-classification.md) |
| Codex 14‑root / 73‑Quranic delta | ✅ Closed (out of scope here) | Hand‑off to `Juthoor-DataCore-LV0/` ingestion |
| "Phase 1 tasks" | ✅ Closed | None remaining in this vault |

This vault is now closed for input. Future changes belong in the downstream LV0–LV3 pipeline.
