يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. (يناير 2022) |
هذه مقالة غير مراجعة.(مارس 2019) |
هي طريقة قائمة على نظرية المعلومات للتنبؤ بالهياكل الثانوية في البروتينات. تم تطويره في أواخر السبعينيات بعد فترة قصيرة من طريقة تشو فاسمان الأكثر بساطة. مثل Chou-Fasman ، تعتمد طريقة GOR على معايير الاحتمالية المستمدة من الدراسات التجريبية للهياكل الثلاثية المعروفة بالبروتين والتي تم حلها بواسطة بلورات الأشعة السينية. ومع ذلك، على عكس Chou-Fasman ، تأخذ طريقة GOR في الاعتبار ليس فقط ميول الأحماض الأمينية الفردية لتشكيل هياكل ثانوية معينة، ولكن أيضًا الاحتمال الشرطي للحمض الأميني في تكوين بنية ثانوية بالنظر إلى أن جيرانه المباشرين قد شكلوا بالفعل بناء. وبالتالي فإن الطريقة هي أساس بايزي في تحليلها. تقوم طريقة GOR بتحليل التسلسلات للتنبؤ بالحلزون ألفا، أو ورقة بيتا، أو الدوران، أو الهيكل العشوائي للملف الثانوي في كل موقف بناءً على نوافذ تسلسل الحمض الأميني 17. تضمن الوصف الأصلي للطريقة أربع مصفوفات تسجيل بحجم 17 × 20، حيث تتوافق الأعمدة مع درجة خلاف السجل، مما يعكس احتمال العثور على حمض أميني معين في كل موضع في تسلسل 17 بقايا. تعكس المصفوفات الأربعة احتمالات وجود الأحماض الأمينية المركزية، التاسعة في شكل حلزوني، ورقة، لف، أو ملف. في المراجعات اللاحقة للأسلوب، تم التخلص من مصفوفة الانعطاف بسبب التباين العالي في التتابعات في المناطق المنعطفة (خاصة على مثل هذه النافذة الكبيرة). تم اعتبار الطريقة الأفضل في طلب ما لا يقل عن أربعة وحدات بنائية متجاورة للتسجيل كحلول ألفا لتصنيف المنطقة على أنها حلزونية، واثنين على الأقل من الوحدات المتجاورة في ورقة بيتا. ستندت الرياضيات والخوارزمية لطريقة GOR إلى سلسلة سابقة من الدراسات التي أجراها روبسون وزملاؤه والتي تم الإبلاغ عنها بشكل رئيسي في مجلة البيولوجيا الجزيئية (على سبيل المثال [4]) والمجلة البيوكيميائية (مثل [5]). يصف الأخير التوسعات النظرية للمعلومات من حيث تدابير المعلومات الشرطية. يعكس استخدام كلمة «بسيط» في عنوان ورقة GOR حقيقة أن الأساليب السابقة المذكورة أعلاه قدمت أدلة وتقنيات مخيفة إلى حد ما من خلال كونها غير مألوفة إلى حد ما في علم البروتين في أوائل السبعينيات؛ حتى طرق بايز كانت غير مألوفة ومثيرة للجدل. ومن السمات المهمة لهذه الدراسات المبكرة، التي نجت من طريقة GOR ، معالجة بيانات تسلسل البروتين المتفرق في أوائل سبعينيات القرن الماضي من خلال مقاييس المعلومات المتوقعة. بمعنى أن التوقعات على أساس بايزي تدرس توزيع قيم المعلومات المعقولة بقياس الترددات الفعلية (عدد المشاهدات). يمكن الآن اعتبار مقاييس التوقع الناتجة عن التكامل على هذه التوزيعات وما شابهها مؤلفة من وظائف «غير كاملة» أو وظائف زيتا ممتدة، على سبيل المثال z (s ، التردد المرصود) - z (s ، التردد المتوقع) مع وظيفة زيتا غير كاملة z (s، n) = 1 + (1/2) s + (1/3) s + (1/4) s + .... + (1 / ن) ق. تستخدم طريقة GOR s = 1. أيضًا، في طريقة GOR والأساليب السابقة، التدبير للحالة المخالفة على سبيل المثال تم حل اللولب H ، أي ~ H ، من ذلك بالنسبة لـ H ، وبالمثل بالنسبة للورقة التجريبية، والمنعطفات، والملفوف أو الحلقة. وبالتالي، يمكن اعتبار الطريقة على أنها استخدام تقدير دالة زيتا للاحتمالات التنبؤية للسجل. يمكن أيضًا تطبيق ثابت قرار قابل للتعديل، مما يعني أيضًا اتباع نهج نظرية القرار؛ سمحت طريقة GOR خيار استخدام ثوابت القرار لتحسين التنبؤات لفئات مختلفة من البروتين. كان قياس المعلومات المتوقع المستخدم كأساس لتوسيع المعلومات أقل أهمية بحلول وقت نشر أسلوب GOR لأن بيانات تسلسل البروتين أصبحت أكثر وفرة، على الأقل بالنسبة للمصطلحات التي تم بحثها في ذلك الوقت. ثم، بالنسبة إلى s = 1، يقترب التعبير z (s ، التردد المرصود) - z (s ، التردد المتوقع) من اللوغاريتم الطبيعي لـ (التردد المردد / التردد المتوقع) مع زيادة الترددات. ومع ذلك، يظل هذا المقياس (بما في ذلك استخدام القيم الأخرى لـ s) مهمًا في التطبيقات الأكثر عمومية لاحقًا ذات البيانات عالية الأبعاد، حيث تكون البيانات الخاصة بالمصطلحات الأكثر تعقيدًا في توسيع المعلومات متناثرة بشكل حتمي