كيف تقرأ وتحلل شجرة التصنيف الجيني
Emma Hodcroft
Nicola Müller
James Hadfield
Sidney M. Bell
Richard Neher
Trevor Bedford
Fred Hutch, Seattle, USA; Biozentrum, Basel, Switzerland; CZI, CA, USA
Ahmad Saleh
Fadi Alnaji
2020 March 13
يفسر هذا التقرير كيفية قراءة وتحليل اشجار التصنيف الجيني والتي تغذي علم الوبائيات الجينومي بالمعلومات. هذا الموقع الالكتروني مهيأ للعرض على متصفحات اجهزة الحاسوب المكتبية

تنتشر مسببات الأمراض من خلال تكاثرها السريع في عائل اول ثم تنتقل منه لعائل آخر. يتصاعد الإنتشار الوبائي فقط عندما تؤدي حالة اصابة واحدة الى اكثر من حالة عدوى بشكل متتالي.

كلما تكاثر مسبب المرض وانتشر فإن جينومه سيتناسخ عدة مرات مما يؤدي الى تراكم العديد من الطفرات (أخطاء أثناء عملية نسخ الجينوم) وهذا أمر طبيعي. مثل هذه الطفرات العشوائية يمكن ان تساعد في تتبع انتشار مسبب المرض وتعلمنا عن طرق وحركية الانتشار.

المحور السيني للشجرة يمثل درجة الاختلاف (في الزمن او التباعد الجيني-- سنشرح ذلك لاحقاً). اما المحور الصادي فهو فقط من اجل المساعدة على فصل الاشياء بعيداً عن بعضها لنرى كل شيء بوضوح، ولذلك ليس له أي وحدات قياس.

نهايات فروع الشجرة تمثل العينات (وهذا يعني الحالات الزرقاء في الشريحة السابقة). العقد الداخلية للشجرة تمثل الحالات التي لم يتم جمعها، ولكن نعتقد انها مصدر جميع الحالات التي انحدرت منها ( وهذا يعني العقد الحمراء في الشريحة السابقة). هذا العلاقات تم ربطها من خلال تحليل انماط الطفرات التي تم ملاحظتها في العينات التي تم جمعها من الحالات المصابة.

## مثال
<div width="50%" margin="auto">
<img width="700px" alt="Example phylogeny where all or only a subset of cases are included in the final phylogeny" src=""/>
نرى في الشكل الموضح اعلاه شجرة تصنيف جيني على اليسار، حيث ان الطفرات مشار لها بدوائر ملونة. علي اليمين يوجد السلاسل الجينية المقابلة لتلك الطفرات على اليسار. هنا أيضا يشار للطفرات بدوائر ملونة ايضا. نستطيع مشاهدة ان التسلسلات التي تشترك بنفس الطفرات تتجمع معا (A و B). عندما تظهر التسلسلات مرتبطة معا بخط عمودي فهذا يعني انه لا يوجد هناك فروقات فيما بينهم-- اي سلاسلهم الجينية متطابقة.
عند وجود سلسلة على خط طويل بمفردها (C أو E) فهذا يعني أنه يمتلك طفرة فريدة غير موجودة في السلال الأخرى.
كلما كان طول الخط اكبر كلما كانت الطفرات أكثر.السلاسل A و B أيضاً تمتلك طفرات (الدوائر الخضراء) غير مشتركة مع تسلسلات أخرى، لكنها متطابقة مع بعضها.
اعتمادا على هذه الشجرة نستطيع الإستنتاج بأن  A و B مرتبطتان جدا ببعضهما وان D و E مرتبطتان جدا ببعضهما في حين ان  A و B  اكثر ارتباطا ب C من ارتباطهما ب D و E.


### قراءات اضافية
* [How to read a tree: tutorial from Arctic Network](  
* [How to read a tree: video from Khan academy](  


لنلق نظرة على أول ١٦٩ سلالة لفيروس سارس كو في ٢ (الفيروس المسبب ل كوفيد ١٩) والتي تم مشاركتها للعموم. كما المثال في الصفحة السابقة، قمنا بمحاذاة هذه التسلسلات الفيروسية لمقارنتها (يمكنك مشاهدة كيف تم عمل كل هذه التحليلات المذكورة هنا على موقع on GitHub).

نقوم هنا بعرض شجرة التصنيف الجيني فوق مخطط يبين التغيرات (اي الطفرات) في الجينوم (أسفل الصفحة). بدون هذه الطفرات لا يمكننا بناء الشجرة، لذلك فإن كلاهما مرتبط بالاخر.

في اطار "التنوع" هذا، المحور الافقي يمثل كل نيوكليوتيد على جينوم الفيروس. المحور العمودي يشير الى كمية الاختلاف (الطفرات) على كل نيوكليوتيد.

قمنا بتلوين الشجرة بناءاً على على واحدة من هذه الطفرات -- في هذه الحالة استخدمنا كودون رقم ٣١٤ في "اطار القراءة ١ ب". لا يوجد سبب للظن بأن هناك افضلية لان تكون هذه الطفرة طفرة وظيفية (اي تسبب اي تغير وظيفي). انها بالضبط طفرات كهذه هي التي نستخدمها لتحديد العلاقات بيت التسلسلات ونبني منها الشجرة.

هذه شجرة تصنيف جيني لاول ١٦٩ سلالة لفيروسات سارس كو في ٢ (االفيروسات المسببة ل كوفيد ١٩) والتي تم مشاركتها للعموم.

هنا يشير المحور الافقي للاختلاف، والذي هو عدد التغيرات (الطفرات) في الجينوم مقارنة بجذر الشجرة ( اي بداية تفشي الوباء) بعض التسلسلات يمكن ان لا تمتلك اي طفرات-- وهذا يعني انها متطابقة مع جذر (مركز) الشجرة. فيروسات اخرى تمتلك ما بين طفرة الى احد عشرة طفرة.

في هذه اللحظة قد لا تبدو بانها تشبه "شجرة". العديد من التسلسلات متطابقة-ولذلك جاءت فوق بعضها بخطوط عمودية مثل A و B ( بعضها على أقصى يسار الشجرة). بعضها الاخر يمتلك طفرات فريدة او مشتركة ولذلك تتواجد على خطوط او 'فروع' تتجه نحو اليمين. يمكنك مشاهدة كم عدد الطفرات على الفرع من خلال تمرير الفأرة فوقها.

نستطيع ايضا رؤية كيف انتشرت الفيروسات مع الزمن من خلال استخدام تاريخ جمع العينات كمحور سيني. هنا يمثل المحور السيني تاريخ جمع العينة لكل فيروس. مواقع الأطراف تبين تاريخ اخذ تلك العينات. تواريخ العقد الداخلية- - "الحالات المفقودة"-- يتم استنتاجها بناءا على متى تم جمع العينات المنحدرة منها ومعدل حدوث الطفرات للفيروس.

لاحظ كم عدد التسلسلات التي جاءت مسبقا فوق بعضها (مشيرة للجينومات المتطابقة) والتي أصبحت متباعدة مع الزمن. هذا يحدث عندما يكون معدل حدوث الطفرات في الفيروس اقل بقليل من من معدل انتشاره. يمكنك التنقل بين الشريحة السابقة والشريحة الحالية لرؤية كيف تتغير الشجرة.

نستطيع أيضاً استخدام علم الجينومات من اجل تحديد متى بدأ تفشي الوباء حتى لو حدث ذلك قبل ان ندرك حدوثه. لاننا نستطيع تحديد تواريخ كل عينة وكل عقدة في الشجرة فإننا نستطيع استخدام ذاك لاستنتاج تاريخ جذر الشجرة. وهذا يمثل " السلف الاحدث والاكثر تشابها" لكل تسلسلات فيروسات سارس كو في ٢ التي نملكها حتى الان. تماما مثل جدك أو جدتك " السلف الاحدث" لك ولكل ابناء عمومتك.

اذا قمت بتحريك الفأرة فوق الخط العمودي في اقصى اليسار يمكنك مشاهدة تاريخ البداية الذي تم استنتاجه لوقوع تفشي الوباء ؛ وهو ما بين وسط نوفمبر ووسط ديسمبر ٢٠١٩.

تحتوي شجرة التصنيف الجيني عادة على معلومات إضافية مثل موقع جمع كل عينة. من هنا نستطيع استنتاج مواقع العقد الداخلية (وسيط مفترض، حالات لم تجمع) باستخدام نماذج رياضية. يمكن ان بساعدنا هذا على فهم كيف يتنقل الفيروس من موقع الى الاخر.

عمليات الاستنتاج هذه يجب ان يتم عملها بحذر حيث ان ندرة عمليات الجمع او تحديد التسلسلات يمكن ان تؤثر بشكل ملحوظ على هذه الاستنتاجات.

# مثال
<div width="50%" margin="auto">
<img width="700px" alt="Illustration showing how sampling effects interpretation of viral spread" src=""/>
نعرض على اليسار شجرة تصنيف جيني لمجموعة كاملة من العينات، مع عينات من موقعين مختلفين موضحة باللونين البرتقالي والازرق. كلما انتقلنا في الشجرة من اعلى لاسفل نلاحظ تغير اللون من البرتفالي للازرق في ثلاث مواقع منفصلة. نستنتج من ذلك بانه كان هناك ثلاثة حالات ادخال مختلفة للفيروس من المنطقة البرتقالية الى المنطقة الزرقاء. لكن هذا الاستنتاج يعتمد على جمع العينات: في الشجرة الوسطى قمنا بازالة عينة برتقالية واحدة. نلاحظ الان تبدل واحد فقط من البرتقالي للازرق، مقترحا بانه كان هناك حالة ادخال واحدة الى المنطقة الزرقاء وحدثت قبل الوقت المقترح في الشجرة الأولى (اقصى اليسار). في المثال الاخير، لدينا تسلسل واحد فقط من المنطقة البرتقالية ليبدو وكأن هناك ادخال واحد من المنطقة البرتقالية للمنطقة الزرقاء. لذلك، وعلى الرغم من أهمية هذه الاستنتاجات الا انه يجب توخي الحذر في تحليلها .

نعرض هنا الشجرة ملونة بموقع كل عينة (والموقع المستنتج لكل عقدة داخلية) اذا ضغطت هنا 'استعرض البيانات', يمكنك التلاعب في البيانات المرئية لكيفية الانتشار المستنتج للفيروس خلال فترة الوباء.

تحدثنا سابقاً عن كيف ان العقد الداخلية تمثل عينات حالات-افتراضية لم تجمع. في الحقيقة، كل الاشجار تقدم - فرضيات - عن كيفية تطور وانتقال مسبب المرض. الاشجار التي نعرضها على موقع نيكست سترين هي تقديرات دقيقة-- وهذا يعني وجود احتمالية عالية لحدوث هذه التقديرات

ومع ذلك فهناك دائما عدم يقين في هذه التقديرات. وبشكل عام فإن نسبة اليقين تكون اعلى في اجزاء الشجرة التي تمثل المناطق التي تم جمع العينات منها بكثافة. في حين ان نسبة اليقين تقل في المناطق التي كان جمع العينات فيها قليلا.

# شرح توضيحي
<div width="50%" margin="auto">
<img width="700px" alt="Illustration of the uncertainty inherent in tree reconstruction" src=""/>

نود هنا ان نقدر العمل السريع والرائع من قبل جميع العلماء الذين عملوا على هذا الوباء، ولكن نخص اولئك العاملين في الصين. ما كان لمثل هذه التحليلات ان تكون لولا المشاركة السريعة لبيانات الجينومات.

عظيم شكرنا موجه الى GISAID على تزويدنا بمنصتهم والتي تم من خلالها رفع وتحليل البيانات التي تم مشاركتها.

نحن ممتنون للبيانات الاصلية التي تم جمعها من قبل المختبرات التالية:

تم مشاركة هذه البيانات من خلالGISAID. نقدر ونثمن عاليا مساهماتهم

على اليمين نقدم التسلسلات المحددة والتي تم مشاركتها من كل مختبر

تسلسلات جينومات سارس كو في ٢ تم مشاركتها بجهود كريمة مم علماء في المختبرات التالية:

