Компьютерный анализ генетических текстов.
Выявление и анализ закодированных в последовательностях функциональных сигналов требует применения современных методов информатики - качественных баз данных с современными средствами управления, новейших методов распознавания образов, статистических исследований, применения специальных алгоритмов для преодоления возникающих вычислительных трудностей.
В настоящее время исследование функциональных свойств расшифрованных последовательностей нуклеиновых кислот - это новый раздел молекулярной биологии, граничащий с информатикой, с одной стороны, и молекулярной биофизикой - с другой. Можно с уверенностью сказать, что в настоящее время анализ последовательности биополимера позволяет извлечь лишь очень небольшую долю закодированной в ней информации. В конечном счете точное выявление функциональных особенностей в последовательностях нуклеиновых кислот будет возможно только после детального исследования соответствующих реакций, осуществляемых нуклеиновобелковыми комплексами.
Для оперативной работы с последовательностями создаются специальные банки данных. В банке в доступном для пользователя виде хранится каждая расшифрованная последовательность и ее паспорт, в котором указаны различные сведения о ней. Это сведения об организме, из которого выделена последовательность, о документе, где она описана, о расположении на ней регуляторных участков и белках, которые она кодирует и т.д. В настоящее время созданы три большие базы данных последовательностей нуклеиновых кислот: "Genbank" (Лос-Аламос, США - более 30 млн. нуклеотидов), база данных нуклеотидных последовательностей Европейской молекулярно-биологической лаборатории (EMBL, Гейдельберг, ФРГ - более 30 млн. нуклеотидов) и "Генэкспресс" (СССР, ВИНИТИ-ИМГ АН СССР - более 11 млн. нуклеотидов). Известны также несколько белковых баз данных, наиболее представительной из которой является MBRF-PIR (США). Эти базы данных распространяются на различных носителях - магнитных лентах и дисках, на оптических дисках.
Кроме построения филогенетических древ геномов вирусов компьютерный анализ применяется при поиске гомологий, распознавании кодирующих областей, функциональных сигналов, физическом (рестрикционном) картировании молекул ДНК и для предсказания вторичных структур РНК.
Сейчас в мире создано большое количество программ ( обычно организованных в пакеты ) , предназначенных для анализа последовательностей нуклеиновых кислот и избавляющих исследователей от многих трудоёмких рутинных операций , в том числе: подсчёт числа моно -, ди – и тринуклеотидов, перевод нуклеотидной последовательности в аминокислотную и т.д.
Все программы условно делятся на два класса: общего назначения и специального. Первые осуществляют ряд_ наиболее распространенных операций по сбору и анализу последовательностей и позволяют: вводить и редактировать новые последовательности, считывать с помощью сканирующих устройств информацию непосредственно с автографов или гелей', находить участки узнавания эндонуклеаз рестрикции и представлять результаты в удобном (табличном или графическом) виде, находить участки с элементами поворотной и зеркальной симметрии (палиндромы), транслировать нуклеотидную последовательность в белковую во всех трех рамках считывания, сравнивать две последовательности методом точечных матриц гомологии, сравнивать новую последовательность со всеми данными Ген Банка, находить участки, обогащенные теми или иными нуклеотидами, вычислять гипотетическую температуру плавления ДНК, осуществлять автоматическую сборку секвенированных фрагментов в единую структуру - молекулу ДНК, транслировать белковую последовательность в нуклеотидную с учетом неравномерности использования кодонов-синонимов, определять молекулярную массу НК и белков, предсказывать вторичную структуру белков, вычислять свободную энергию образования шпилек и др.