В останні роки було висунуто дуже велика різноманітність статистичних методологій на різних рівнях складності для аналізу даних генотипу та виявлення генетичних варіацій, які можуть відповідати за підвищення сприйнятливості до хвороб. Що таке популяційно-статистичний метод вивчення генетики? Яка його сутність і значення у вивченні спадковості?
Тип обчислювальної біології
Статистична генетика є науковою областю, пов’язаної з розробкою популяційно-статистичних методів для висновків з генетичних даних. Цей термін найчастіше використовується в контексті генетики людини. Дослідження в даній області зазвичай включають розробку теорії або методології для підтримки досліджень в одній з трьох взаємопов’язаних областей:
- популяційна генетика – вивчення еволюційних процесів, що впливають на генетичну мінливість між організмами.
- генетична епідеміологія – вивчення впливу генів на хвороби.
- кількісна генетика – вивчення впливу генів на «нормальні» фенотипом.
Статистичні генетики схильні тісно співпрацювати з генетиками, молекулярними біологами, клініцистами і биоинформатиками. Статистична генетика – це тип обчислювальної біології.
Предмет вивчення
Популяційна генетика займається вивченням генетичної структури популяцій, їх генофонду. Також вона висвітлює питання, пов’язані із взаємодією факторів, які зумовлюють як сталість, так і зміна структури геному. Що таке популяція? Це сукупність особин одного виду, які вільно схрещуються і займають конкретну територіальну область, а також мають загальний генофонд (сукупність генів), що переходить з покоління в покоління.
Популяційно-статистичний метод генетики застосовується при вивченні спадкових хвороб, чергування нормальних і патологічних генів, генотипів і фенотипів в популяціях різних місцевостей, країн і міст. У чому його унікальність? Сутність популяційно-статистичного методу полягає в тому, що він спрямований на вивчення закономірностей поширення спадкових хвороб у популяціях, що відрізняються за своєю будовою. Досліджується можливість прогнозування їх повторення в подальших поколіннях.
Популяційно-статистичний метод та його значення
Статистичний генетичний аналіз кількісних ознак у великих родоводів є величезною обчислювальною задачею через необхідність урахування незалежності серед родичів. З зростаючим усвідомленням того, що варіанти рідкісних послідовностей можуть бути важливі в кількісних варіаціях людини, дослідження наследуемости і асоціації за участю великих родоводів будуть збільшуватися по частоті з-за більшої ймовірності спостереження декількох копій рідкісних варіантів серед пов’язаних осіб.
Тому важливо мати статистичні процедури генетичних випробувань, які використовують усю наявну інформацію для вилучення доказів щодо генетичної асоціації. Оптимальне тестування асоціації фенотипів пов’язано з точним обчисленням статистики відносини істини, яка вимагає повторної інверсії потенційно великих матриць. В контексті об’єднання всієї послідовності генома таке обчислення може бути неправильним.
Статистичні методи генетичного аналізу
У зв’язку з просуванням у лабораторних технологіях популяційно-статистичний метод і генетичні епідеміологічні підходи до комплексним захворювань швидко змінюються, щоб впоратися з величезністю генетичних даних. По мірі зміни лабораторних технологій з’явилася можливість генерувати більш повні генетичні дані геномної генерації з цілими даними послідовності геному.
Виникли проблеми з множинним тестуванням і поява рідкісних генетичних варіантів, які були обмежені традиційними статистичними методами, що привело до розробки методів рідкісного варіанту аналізу. Поточні дослідження зосереджені не тільки на аналізі окремих генетичних варіантів, але також і на аналізі кількох генетичних варіантів, особливо з використанням мережевих методів.
Швидкий розвиток генетики
Дослідження в області генетики швидко розвивалися, починаючи від досліджень окремих областей і закінчуючи широкомасштабними дослідженнями геному. І хоча вивчення генетичних асоціацій проводяться вже багато років, навіть для самих простих аналізів існує мало консенсусу щодо найбільш відповідних статистичних процедур.
Статистична генетика – це область зближення генетики та кількісного аналізу. За останні кілька років вона пережила різкий зсув парадигми, від переважно теоретичного суб’єкта, в якому мало можливостей для емпіричних даних до строго орієнтованої на певні дисципліни, де існування великих сховищ генетичних даних дозволяє дослідникам генерувати і досліджувати нові наукові гіпотези.
Рентабельні технології
З появою щодо рентабельної технології з високою пропускною здатністю генотипування тепер можна досліджувати етіологію складних захворювань, біологічних процесів через які успадковується ДНК і еволюційні історії людських популяцій. З медичної точки зору, прогрес використання популяційно-статистичного методу у вивченні ролі спадковості знаходиться в розробці і аналізі досліджень фармакогенетиків, тобто досліджень, у яких генетична мінливість корелює з реакцією на лікарські засоби.
Це може в кінцевому рахунку призвести до розробки підходу «персоналізованої медицини» в охороні здоров’я. Зрозуміло, для кожної з цих областей дослідження потрібні спеціалізовані методи виведення і обчислень. Даний огляд популяційно-статистичних методів в генетиці обмежується картуванням асоціацій: потужна методологія, яка, як вважається, допоможе зрозуміти генетичну основу захворювань людини та інших представляють інтерес фенотипів.
Замість того щоб намагатися широко висвітлювати методи зіставлення асоціацій, експозиція звужується, щоб включати в себе тільки підходи до аналізу даних для досліджень у разі хвороби або для ситуацій, коли доступні тільки хворі люди. Мета даної статті – запросити читача в нетехнічний тур по ряду вибраних популяційно-статистичних методів генетики, що використовуються в даний час для картування генів.
Закон Харді-Вайнберга
Основним прикладом популяційно-статистичного методу є закон Харді-Вайнберга. В його основі є закономірність, яка була виявлена в 1908 році математиком Англії Дж. Харді і лікарем Ст. Вайнбергом з Німеччини для виведення досконалої популяції. Закон внаслідок отримав назву на честь цих двох імен. Для того щоб популяція була ідеальною, необхідні наступні умови:
Досконале рівновага може бути порушена низкою факторів, серед яких близькоспоріднені шлюби, мутації, відбір, міграції та багато іншого. Закон Харді-Вайнберга вважається основою при розгляді генетичних перетворень, що відбуваються в природних і штучно створених популяціях рослин, тварин і людини.
Принципи асоціації
Відмінною особливістю конструкції case-control є те, що випробовувані, включені у вибірку, випадковим чином вибираються з даної популяції за статусом хвороби ретроспективно. Генетичні склади осіб, що належать до двох груп, випадків і контролю, порівнюються в надії, що їх відмінності в деяких вузьких областях геному можуть служити причинним поясненням статусу хвороби. Серед різних типів генетичних маркерів однонуклеотидні поліморфізми (ОНП) відіграють центральну роль в картуванні складних захворювань. По всьому людського геному існує не менше 10 мільйонів ОНП з частотою > 1%, які, як вважають, становлять близько 90% генетичної варіації людини.
Основоположним поняттям у картографії асоціації є неравновесность зчеплення між генетичним маркером і локусом, який впливає на досліджуваний ознака. Вона фіксує відхилення від ймовірнісної незалежності серед алелей або генетичних маркерів. Наприклад, неравновесность зчеплення між двома алелями, наприклад, A і B, можна кількісно визначити шляхом вимірювання різниці між рав, ймовірністю спостереження гаплотипу AB (тобто лінійного розташування двох алелей на одній і тій же хромосомі, успадкованої як єдине ціле) і твором pApB, де pA і pB – ймовірності спостереження алелей A і B відповідно. Однак у більшості випадків гаплотипи не доступні безпосередньо, і їх частоти повинні бути з повною вірогідністю визначені з даних генотипу.
Вивідні методи, засновані на варіантах алгоритму мінімізації очікувань, ітераційна техніка для отримання оцінок максимальної правдоподібності в моделях відсутніх даних, є популярним вибором для отримання вибіркових частот гаплотипів. Задокументована точність алгоритму мінімізації очікувань для оцінки частот гаплотипів при різних схемах моделювання як функції частот алелей, так і багатьох інших факторів. Недавні розробки використовують спостереження, в якому в коротких регіонах гаплотипи в популяції схильні групуватися в групи, і ця кластеризація має тенденцію змінюватись вздовж хромосоми.
Результуючі закономірності генетичної варіації можуть бути добре описані прихованими марковскими моделями, а оцінки параметрів були виконані за допомогою алгоритму, щоб вивести гаплотипическую фазу, а також відсутні дані генотипу. Альтернативно міра композитного генотипного нерівноваги може бути обчислена безпосередньо з двухлокусных генотипових даних, в припущенні випадкового спарювання, він відповідає вищезазначеній аллелической меридіані. Ряд інших загальних коефіцієнтів та їх властивостей вивчалися як аналітично, так і за допомогою моделювання.
Близнецовый метод у вивченні геному
Області застосування популяційно-статистичного та близнюкового методу включають в себе вивчення закономірностей успадкування ознак в парах близнюків. Запропонований ще в 1875 році вченим Гальтоном, цей метод спочатку застосовувався для оцінки ролі спадковості і середовища в розвитку психічних властивостей людини. Зараз він широко застосовується у вивченні спадковості і мінливості нормальних і патологічних ознак. З його допомогою можна виявити спадковий характер певної ознаки, визначити пенетрантність алеля і дати оцінку впливають на організм зовнішніх факторів.
Суть близнюкового методу:
- У різних групах близнюків порівнюється один і той самий ознака, враховується також подібність або розходження їх генотипів.
- У монозиготных близнюків спостерігається повна генетична ідентичність. Їх порівняння в умовах відрізняється постембріонального розвитку дає можливість виявити ознаки, які були сформовані завдяки зовнішньому середовищі.
Вивчення геному у популяційно-статистичному методі дослідження генетики людини дозволяє більш всебічний пошук генетичних факторів ризику. Найближчим часом ці дослідження будуть менш дорогими і, отже, більш доступними. Зі статистичної та обчислювальної точки зору дослідження геному в цілому пропонують нетривіальні проблеми, пов’язані, серед іншого, з дуже великою кількістю маркерів, які повинні бути включені в аналіз, у порівнянні з зазвичай меншими розмірами вибірки.
Розвиток нових аналітичних методів
Питання, що викликає багато дискусій і заправляє розвиток нових аналітичних методів, полягає в тому, викликані складні захворювання одним спільним варіантом або багатьма варіантами, які мають невеликі ефекти. У поширеній гіпотезі про загальному захворюванні вказується, що генетичний ризик поширених захворювань часто буде викликаний алелями, що викликають захворювання, виявленими на відносно високих частотах. Досі докази на його користь були обмежені.
Припустимо припустити, що загальні захворювання, як очікується, будуть контролюватися більш складними генетичними механізмами, що характеризуються спільним дією декількох генів, причому кожен ген має лише невеликий крайовий ефект, можливо, тому, що природний відбір видаляє гени, що мають більші ефекти. В цьому випадку групи маркерів слід тестувати спільно для об’єднання, що може бути зроблено двома основними способами: групуючи маркери разом в генотипах з кількома локусами, щоб основна одиниця статистичного аналізу все ще була індивідуальною або через гаплотипи, таким чином ефективно подвоюючи розмір вибірки.
Загальні методи для гаплотипів
Замість того щоб розглядати кожен маркер окремо, можна спільно тестувати конкретні комбінації алельних варіантів у серії щільно пов’язаних маркерів на одній і тій же хромосомі, тобто гаплотипи. Включаючи інформацію з декількох сусідніх маркерів, гаплотипи зберігають загальну структуру і більш безпосередньо відображають справжні поліморфізми.
Найпростіший спосіб перевірити, чи існує зв’язок між гаплотипом і статусом хвороби, – це розглядати кожен гаплотип як окрему категорію, можливо, об’єднуючи всі рідкісні гаплотипи разом додатковий клас. Цей процес зазвичай виконується в два етапи: по-перше, оцінюються частоти гаплотипів, потім розраховується стандартний тест для асоціації, наприклад статистична статистика відношення правдоподібності. Щоб впоратися з роздутою статистикою тесту з-за оцінки гаплотипу, розподіл тесту під нулем може бути отримано випадковим перетасовуванням стану хвороби, а потім повторною оцінкою частот гаплотипів.
Хоча цей підхід дозволяє оцінити загальну зв’язок між гаплотипами і хворобою, він не дає висновку про вплив конкретних гаплотипів або особливостей гаплотипу. Для вирішення цих проблем ряд тестів конкретних ефектів гаплотипу засновані на ймовірності захворювання, де статус хвороби розглядається як результат, а гаплотипи вводять модель регресії як ковариаты. Суб’єкти з двозначними гаплотипами розміщуються шляхом обчислення очікуваного значення ковариатов, обумовленого генотипами суб’єкта, з використанням передбачуваних частот гаплотипів.
Популяційно-статистичний метод вивчення генетики людини
В популяціях людини, утворених відносно недавнім змішуванням окремих груп предків, таких як афро-американці, пропускна здатність поширюється на великі відстані, ніж в інших, менш гетерогенних популяцій. Для захворювань, які розрізняються за поширеністю між двома або більше популяціями предків, ця далека пропускна здатність може бути використана для пошуку генетичних варіантів, відповідальних за етнічну різницю в ризику захворювання.
Основне зауваження полягає в тому, що в змішаних популяціях маркери з локусом, відповідальним за етнічне різницю в ризику захворювання, будуть мати більшу, ніж очікувалося, частку предків від населення високого ризику. Картування генів може бути виконано шляхом пошуку вузьких геномних областей, які показують надмірні пропорції родоводів від однієї з складових популяцій предків у методології, званої картуванням домішки.
Членство населення в кожному локусі для всіх випробовуваних має бути статистично оцінено типовим маркерами. Загальноприйнята імовірнісна модель для опису стохастичної варіації в родоводі припускає, що хромосоми можуть бути представлені блоками загальної генерації, з точками розриву між сусідніми блоками, що відбуваються як пуассонівський процес, і переходами між суміжними предковыми блоками, керованими ланцюгом Маркова. За цієї моделі було побудовано декілька методів виведення, щоб оцінити походження хворих хромосом і виявити представлені популяції предків.
Моделюючі дослідження та аналітичні розрахунки показують, що зіставлення домішок має кілька переваг порівняно з встановленими підходами до картуванню на основі популяції, наприклад, для пошуку всього геному потрібно набагато менше маркерів і воно менш схильне до впливу аллельной гетерогенності.