Zastosowanie narzędzi bioinformatycznych do modelowania efektów epistatycznych na przykładzie genomu kury i świni

Nr  N  N311  450434

Grant realizowany przez:

Celem projektu jest opracowanie metod statystycznych pozwalających na wykrywanie i lokalizację efektów epistatycznych warunkujących cechę ilościową.
W miarę postępu prac nad analizą genomów okazało się, że rola oddziaływań epistatycznych pomiędzy genami ma bardzo duże znaczenie w warunkowaniu fenotypu. Detekcja efektów epistatycznych nie tylko umożliwia lepsze zrozumienie współdziałania poszczególnych genów, lecz także pozwala na bardziej precyzyjne oszacowanie efektów pojedynczych genów. W aspekcie analizy statystycznej detekcja epistazy wymaga przeszukiwania genomu w wielu wymiarach co pociąga za sobą konieczność testowania wielu (co najmniej kilku tysięcy) lokalizacji potencjalnych genów, a w związku z tym również konieczność rozwiązania takich problemów jak (i) efektywne obliczeniowo poszukiwanie maximum funkcji wiarygodności modelu opisującego efekty genów w genomie, (ii) wybór optymalnego modelu dziedziczenia cechy ilościowej spośród wielu tysięcy potencjalnie możliwych modeli przy zachowaniu błędu pierwszego rodzaju na określonym poziomie istotności.
Prace detekcję efektów epistatycznych przeprowadzone będą dwuetapowo:
1) W pierwszym etapie chcemy wybrać najlepsze metody pozwalające na modelowanie wpływu efektów epistatycznych na cechę ilościową, biorąc pod uwagę następujące metody: (i) uogólnienie metody interval mapping pozwalające na detekcję epistazy, (ii) metoda oceny zaburzenia równowagi Hardyego-Weinberga pomiędzy potencjalnym położeniem genu, a markerami, (iii) metody modelowania data-miningowego, w tym zastosowanie sieci neuronowych, metod klastrowania (pam, k-średnich, agnes), (iv) metody pozwalające na uwzględnienie korelacji pomiędzy poszczególnymi genami.
2) W drugim kroku planuje się przebadanie różnych kryteriów wyboru modelu, opartych zarówno o minimalizację błędu predykcji, jak też i kontrolę błędów typu family wise error rate (FWER), czy false discovery rate (FDR).
Powyższe badania przeprowadzone będą w oparciu o dane rzeczywiste pochodzące z dwóch populacji zwierząt: ssaków i ptaków. W tym projekcie ssaki są reprezentowane przez świnie (305 osobników obu płci) pochodzące z planowanego krzyżowania towarowego, dla których znane są wartości zawartości tłuszczu międzymięśniowego oraz genotypy 24 markerów mikrosatellitarnych zlokalizowanych na chromosomie 6tym i pokrywających ok. 147,7 cM. Natomiast genom ptaków analizowany będzie na przykładzie genomu kury, gdzie dostępnych jest 375 osobników i 96 markerów zlokalizowanych w obrębie całego genomu, na 13 chromosomach. Dostępne wartości cech ilościowych dotyczą jakości jaja (wytrzymałość skorupki w 40 i 60 tygodniu, jakość białka w 40 i 60 tygodniu oraz masy jaja).
Wynikiem prowadzonych badań będzie uzyskanie informacji o zakresie oddziaływań epistatycznych oraz efektach i położeniu genów warunkujących cechy ilościowe w obu analizowanych populacjach oraz wybór najbardziej optymalnej metody detekcji epistazy oraz najlepszego kryterium wyboru modelu.