У нас уже
21989
рефератов, курсовых и дипломных работ
Сделать закладку на сайт
Главная
Сделать заказ
Готовые работы
Почему именно мы?
Ценовая политика
Как оплатить?
Подбор персонала
О нас
Творчество авторов
Быстрый переход к готовым работам
Контрольные
Рефераты
Отчеты
Курсовые
Дипломы
Диссертации
Мнение посетителей:
Понравилось
Не понравилось
Книга жалоб
и предложений
Название
Информационно—статистический анализ нуклеотиднын последовательностей
Количество страниц
380
ВУЗ
МГИУ
Год сдачи
2010
Бесплатно Скачать
24242.doc
Содержание
Содержание
ОГЛАВЛЕНИЕ
Введение 5
Глава 1. Обзор основных проблем биоинформатики и анализа 13 символьных последовательностей
§1.1. Основные задачи в исследованиях символьных последовательностей 13
§ 1.2. Проблема аннотирования геномов 15
§1.3. Модели генетических текстов 17
§ 1.4. Построение словарей генетических текстов 20
§ 1.5. Распознавание структурных закономерностей в генетических текстах 22
§ 1.6. Методы сравнения генетических текстов 27
§1.7. Информация и энтропия 32
§1.8. Выводы Главы 1 37
Глава 2. Частотный словарь. Случай глобального восстановления. 38
§ 2.1. Соотношение "последовательность - конечно-частотный словарь" и 38
проблема восстановления целого из частей
§ 2.2. Конечно-частотный словарь и проблема восстановления полной 39
последовательности
§ 2.3. Характеристики конечно-частотных словарей для реальных 41
нуклеотидных последовательностей
§ 2.4. Изменение избыточности генов в результате сплайсинга 52
§ 2.5. О распределении наидлиннейших повторов в различных участках 76
последовательности
§ 2.6. О распределении наидлиннейших повторов в геномах некоторых 85
организмов
§ 2.7. Выводы Главы 2 97
Глава 3. Частотный словарь. Случай локального восстановления 98
§ 3.1. Задача локального восстановления. Гипотеза наиболее вероятного 98
продолжения
§ 3.2. Принцип максимума энтропии частотного словаря и восстановление 99
-3-
частотных словарей большей толщины по заданному § 3.3. Локальное востановление частотных словарей и проблема выбора 102
статистической модели генетического текста
§3.4. Информационное содержание частотных словарей 105
§ 3.5. Предельная энтропия, удельная энтропия и качество восстановления 112
частотных словарей §3.6. Качество восстановления для некоторых реальных символьных 116
последовательностей § 3.7. Отличия реальных и восстановленных частотных словарей некоторых 119
генетических текстов § 3.8. Сравнительное исследование информационных свойств генов 139
вирусов и генов их хозяев
§3.9. Информационная ёмкость некоторых геномов 164
§ 3.10. Микроинформационная структура генов и геномов 169
§ 3.11. Самоподобие геномов . . 199
§3.12. Выводы Главы 3 225
Глава 4. Распределение информационно значимых слов в геномах 227
§4.1. Поиск и выделение информационно значимых сайтов в символьных 228
последовательностях •
§ 4.2. Поиск и выделение информационно значимых сайтов в некоторых 231
биологических последовательностях
§4.3. Поиск и выделение информационно значимых сайтов в геномах 239
§ 4.4. Информационно значимые сайты функционально различных частей в 255
геномах § 4.5. Связь между информационно значимыми сайтами различной длины в 258
геномах § 4.6. О связи структуры и функции в геномах: статистическая семантика 274
геномов § 4.7. Выводы Главы 4 278
-4-
Глава 5. Информационные и статистические подходы к определению 280
близости символьных последовательностей
§5.1. Сравнение символьных последовательностей по носителям их 282
конечно-частотных словарей § 5.2. Сравнение генетических текстов по носителям их конечно-частотных 287
словарей § 5.3. Сравнение символьных последовательностей по их конечно- 290
частотным словарям § 5.4. Сравнение нескольких символьных последовательностей с помощью 292
их конечно-частотных словарей § 5.5. Сравнение символьных последовательностей по их 294
частотным словарям
§5.6. Сравнение генетических текстов по их частотным словарям 302
§ 5.7. Сравнение геномов по наборам их информационно значимых слов 350
§ 5.8. Сравнение функционально различных частей генома по наборам их 362
информационно значимых слов § 5.9. Выводы Главы 5 369
Заключение 371
Выводы 377
Список литературы . . 380
Введение
Введение
Символьные последовательности являются классическим объектом математики, а также встречаются как предмет изучения во многих прикладных задачах — от теоретического программирования и теории управления до биологии и лингвистики. Изучение символьных последовательностей позволяет ответить на множество сопряжённых друг с другом вопросов из различных областей науки, смежных с чистой или прикладной математикой. Как объект прикладного исследования символьные последовательности возникают во всех областях, где рассмотриваются те или иные объекты, состоящие из большого числа одинаковых фрагментов. При этом одинаковость (подобие, тождество) может носить искусственный — до определённой степени — характер. Связано это с тем, что именно исследователь по своему усмотрению начинает рассматривать некоторые фрагменты целого — например, нуклеотиды в молекуле нуклеиновой кислоты или символы в текстах того или иного естественного языка, записанные в алфавитной системе записи — как тождественные друг другу, не отличающиеся ничем, кроме своего положения в рассматриваемом объекте — в символьной последовательности.
Биологические макромолекулы играют ключевую роль во многих процессах, протекающих в живых организмах. С момента установления Дж.Уотсоном и Ф.Криком первичной структуры нуклеиновых кислот не прекращается поток исследований, посвященных выяснению роли и места информации, содержащейся в этих молекулах. Изучение структуры, а также функциональных, химических, физико-химических и проч. свойств нуклеиновых кислот активно ведется специалистами в различных областях, и одним из важных направлений является изучение нуклеиновых кислот как символьных последовательностей. В настоящей работе предполагается исследовать лишь те свойства нуклеиновых кислот, которые определяются только взаимным расположением нуклеотидов друг относительно друга в одной изучаемой молекуле; никакие другие факторы — физико-химическое окружение, особенности состава нуклеотидов и т.п. — не рассматриваются.
Особый круг исследований составляют работы, посвященные изучению информационных свойств символьных последовательностей. Получаемые в этих исследованиях теоретические результаты оказываются весьма полезными и эвристически ценными во многих смежных и даже отдалённых областях. Однако в самих исследованиях информационных свойств символьных последовательностей существует определённое
-6-
смешение таких существенно различных понятий, как собственно понятие информации и семантическое наполнение того объекта, информационные характеристики которого являются предметом изучения. Такого рода смешение приводит к возникновению новых, искусственных понятий, например, понятия ценности информации и проч.
Само понятие информации связано с изучением внешней формы представления того или иного сообщения; при этом такое сообщение должно быть представлено как последовательность однотипных объектов (например, букв в текстах из естественных языков, либо последовательности нулей и единиц в программах для ЭВМ и т.п.). Понятие информации в первую очередь связано с формой представления, а связь с её содержанием (смыслом) исследуется в таких задачах лишь в той мере, в какой это необходимо для прояснения свойств формы представления информации. Настоящая работа посвящена исследованию этого первого аспекта в свойствах символьных последовательностей.
Как хранение, так и реализация какой-либо информации напрямую.обусловлены тем обстоятельством, что в ходе этих процессов актуальную роль играют символьные последовательности. При этом-хорошо известно, что в природе фактически нет процессов, связанных с переработкой либо реализацией той или иной информации, которые бы вовлекали всю такого рода символьную последовательность целиком: чтение и обработка файлов вычислительными машинами происходит малыми порциями (байтами) и последовательно, чтение и переработка письменной информации человеком происходит малыми порциями (словами, либо абзацами) и последовательно, чтение и переработка наследственной информации в биологических системах происходит малыми порциями (кодонами) и последовательно. Это простое обстоятельство, тем не менее, имеет важные последствия. Оно требует перехода от рассмотрения всей символьной последовательности в целом к рассмотрению набора её фрагментов.
Выделение таких фрагментов может быть сделано многими разными способами, даже в пределах одной предметной области и даже одной задачи. Конкретный способ выделения фрагментов определяется целями и задачами того или иного конкретного исследования. Одна из важнейших задач, возникающая при работе с наборами фрагментов исходной символьной последовательности — это задача восстановления полной последовательности по набору её фрагментов; например, такого рода задачи всегда возникают в исследованиях по атрибуции авторства текста, а также в задачах по гибри-дизационному секвенированию нуклеотидных последовательностей. При этом следует отметить, что сама по себе проблема восстановления целого из частей — в нашем слу-
— 7 —
чае это проблема восстановления последовательности по набору её фрагментов — разбивается на два отдельных вопроса. Первым является вопрос о принципиальных ограничениях на возможность восстановления всей символьной последовательности по максимально полному набору её фрагментов; вторым является вопрос о восстановлении последовательности по неполному набору фрагментов. Этот второй вопрос имеет существенное прикладное значение, поскольку в его рамках можно вести речь об анализе и изучении несвязных символьных последовательностей — иными словами, об извлечении информации из данных с пробелами. Более формально такая конструкция, с помощью которой изучаются статистические и информационные характеристики символьных последовательностей, называется частотным словарём (толщины q ). Частотный словарь толщины q — это набор всех связных подпоследовательностей длины q,
встречающихся в данной последовательности с указанием их частот, то есть нормированный на единицу. Частотный словарь соответствует не единственному тексту, а их ансамблю. Сам по себе частотный словарь также может быть построен по-разному: он может содержать всю доступную информацию о фрагментах (то есть, все встречающиеся фрагменты могут быть включены в частотный словарь), а может содержать лишь часть доступной информации. Разные постановки требуют использования различных частотных словарей, однако в нашей работе мы систематически будем использовать первую конструкцию — частотный словарь, содержащий все встречающиеся в последовательности фрагменты.
Другая важная проблема, имеющая общую значимость для любых прикладных исследований, предметом которых являются те или иные символьные последовательности, состоит в сравнении двух (или нескольких) символьных последовательностей. Дело в том, что символьные последовательности относятся к такому классу объектов, для которых определение расстояния между ними возможно, однако оно очень "бедно": очень часто формально введённое расстояние никак не отражает близость или, наоборот, существенные различия свойств, приписываемых исследователем изучаемым символьным последовательностям. Здесь имеет смысл рассматривать меру близости двух (или нескольких) последовательностей, и для её построения информационные и статистические методы являются весьма универсальными и продуктивными.
Наконец, нельзя не сказать о том, что все или почти все результаты, полученные для символьных последовательностей, могут быть распространены на более сложные дискретные объекты — например, на цифровые (растровые) изображения; сим-
-8-
вольные последовательности, являясь существенно более простым объектом, представляют собой своеобразный полигон для развития методов и предсказания наиболее общих результатов об информационных свойствах различных дискретных объектов.
Цель работы состоит в разработке подходов для исследования тех свойств символьных последовательностей различной природы, которые определяются только их информационными и статистическими характеристиками: проблемы локального восстановления частотных словарей большего размера по заданным, проблемы определения меры близости двух или нескольких последовательностей по их информационным характеристикам, проблемы сравнения реального частотного словаря символьной последовательности и того, который может быть построен по набору слов меньшей длины исходя из гипотезы о наиболее вероятном продолжении, а также проблемы соотношения между фрагментами символьной последовательности с высоким информационным содержанием и функциональной ролью тех регионов последовательности, которые такие фрагменты содержат (поиск и описание информационно значимых слов), а также в систематическом изучении информационных и статистических свойств нуклео-тидных последовательностей.
Научная новизна работы заключается в следующем.
1. Изучены некоторые типичные свойства нуклеотидных последовательностей, проявляющиеся в характеристиках конечно-частотных словарей. На основе этих характеристик построеное новое определение избыточности последовательностей. Показано, что функционально разные части генов эукариотических организмов различаются по этому показателю и сплайсинг генов ведёт к уменьшению их избыточности.
2. Впервые изучены некоторые типичные свойства нуклеотидных последовательностей, проявляющиеся в характеристиках восстановления частотных словарей, состоящих из слов большей длины по словарям заданной толщины (длины слов). Введено понятие информационной ёмкости частотного словаря и изучено её поведение у различных нуклеотидные последовательностей. На основе введённых характеристик исследована микроинформационная структура некоторых генов и геномов, т.е. структура, определяемая различием информационных и статистических свойств двух соседних участков символьной последовательности.
3. Впервые введено строгое определение информационно значимых сайтов нуклеотидной последовательности и развит новый метод выделения таких сайтов. Проанализированы различные семейства геномов с точки зрения выявления в них информационно значимых сайтов. Впервые для информационно значимых слов длины 3 и 4
-9-
показано существование специфических наборов, общих для семейства геномов родственных организмов; также впервые проанализирован набор информационно значимых слов длины 3 и 4, характерных для кодирующих и некодирующих областей генома. Показано, что существуют информационно значимые слова этой длины, специфичные для указанных областей.
4. Впервые для информационно значимых сайтов длины 7 и 8 нуклеотидов, характеризующихся высокой информационной значимостью всех входящих в них слов меньшей длины показана неслучайность распределения таких сайтов вдоль по геному: информационно значимые сайты длиной 7 и 8 нуклеотидов встречаются, как правило, в регуляторных областях геномов, причём наблюдается также неравновесность при распределении по регуляторным областям различной природы.
5. Развиты принципиально новые методы сравнения символьных последовательностей, не использующие идею выравнивания. Сравнение символьных последовательностей производится по их частотным либо конечно-частотным словарям, при этом в первом случае для группы сравниваемых последовательностей строится их статистический предок — искусственный частотный словарь, из которого может быть получен любой из сравниваемых, причём для этого из статистического предка потребуется удалить (либо добавить) лишь необходимый минимум информации. Сравнение символьных последовательностей с помощью конечно-частотных словарей позволяет указать меру близости последовательностей в группе, никак не упорядочивая их внутри неё.
6. Предложен новый метод сравнения символьных последовательностей на ос-, нове сравнения наборов их информационно значимых слов различной длины. Показано, что для некоторых миркоорганизмов вариабельность генома, определяемая по такому показателю близости, превосходит вариабельность, наблюдаемую при сравнении отдельных хромосом различных геномов, на основе сравнения наборов информационно значимых сайтов длины 3 и 4 введена мера внутригеномного разнообразия.
Практическая ценность работы заключается в:
1) изучении статистических свойств символьных последовательностей, соответствующих конкретным генам различных организмов;
2) развитии новых методов исследования информационной ёмкости символьных последовательностей;
3) развитии новых методов исследования информационной значимости малых фрагментов символьных последовательностей, на основе которых возможна грубая разметка не аннотированного генома;
-10-
4) развитии новых методов сравнения символьных последовательностей различной природы, не опирающихся на идею редакционного расстояния.
Структура работы. Работа состоит из Введения, пяти глав и заключения, содержит 57 рисунков и 104 таблицы. Список литературы содержит 193 наименования.
Апробация работы. Основные результаты работы докладывались на 3-ей Международной конференции "Математика, компьютер, образование", Дубна, 29 янв. - 3 фев. 1996 г., на Сибирском конгрессе по прикладной математике, Новосибирск, 22 - 26 июня 1996 г., на 5-ой Всероссийской конференции "Нейроинформатика и её приложения", Красноярск, 22 - 25 сентября 1997 г., на 5-ой Международной конференции "Математика, компьютер, образование". Дубна, 29-31 янв. 1998 г., на 1-ой Международной конференции по Биоинформатике в Геномной Регуляции и Структуре генома, Новосибирск, 24 - 27 августа 1998 г., на 3-ем Сибирском конгрессе по прикладной и индустриальной математике (ИНПРИМ-98), Новосибирск, 24 - 26 июня 1998 г., на 6-ой Международной конференции "Математика, компьютер, образование" Пущино, 3-8 января 1999 г., на П-ом Съезде биофизиков России, Москва, 23 — 27 авг.1999 г., на 9-ой Всероссийской конференции "Нейроинформатика и её приложения", Красноярск, 5-7 октября 2001 г., на I Всероссийской ФАМ-конференции, Красноярск, 1 - 3 марта 2002 г., на 10-ой Всероссийской конференции "Нейроинформатика и её приложения", Красноярск, 4-6 октября 2002 г., на 5 Международной конференции (5th International Conference on Molecular Structural Biology), Вена, 4-7 сентября 2003 г.
Результаты работы также докладывались на семинарах в Институте биофизики СО РАН, Институте вычислительного моделирования СО РАН, Вычислительном Центре РАН (г.Москва), Институте молекулярной биологии РАН (г.Москва), Институте теоретических проблем биологии РАН (г.Пущино), биологическом факультете МГУ (г.Москва), на семинаре в ГУ НИИ Биомедицинской химии им. В.Н. Ореховича РАМН (г.Москва).
Публикации по теме работы. Основные результаты работы опубликованы в: Горбань А.Н., Мирнее Е.М., Попова Т.Г., Садовский М.Г. Новый подход к изучению статистических свойств генетических последовательностей // Биофизика, (1993), т.38, № 5, с.762 - 767; Горбань А.Н., Мирнее Е.М., Попова Т.Г., Садовский М.Г. Сравнительная избыточность генов различных организмов и их вирусов // Генетика (1993), т.29, 9, с. 1413 - 1419; Mirkes E.M., Popova T.G., Sadovsky M.G. Investigating Statistical Properties of Genetic Texts: A New Approach // Advances in Modelling & Analysis, ser. B, AMSE Press, (1993) vol.27, № 2, p.l - 13; Горбань А.Н., Попова Т.Г., Садовский М.Г.
-11-
Избыточность генетических текстов и мозаичная структура генома // Мол.биология (1994) т.28, № 2, с.313 - 322; Popova T.G., Sadovsky M.G. Investigating statistical properties of genetic texts: new method to compare two genes // Modelling, Measurement & Control, ser. C, (1994) AMSE Press, vol.45, № 4, p.27 - 36; Popova T.G., Sadovsky M.G. The new measure of relationship between two symbolic sequences // Advances in Modelling & Analysis, ser. A, (1994) AMSE Press, vol.22, № 2, p. 13 - 17; ГорбаньА.Н., Попова Т.Г., Садовский М.Г. Корреляционный подход к сравнению нуклеотидных последовательностей // ЖОБ (1994), т.55, № 4/5, с.420 - 430; Popova T.G., Sadovsky M.G. Investigating statistical properties of genetic texts: local redundancy displays a new structure of genes // Advances in Modelling & Analysis, ser. C, (1995) AMSE Press, vol.48, № 4, p. 17 - 22; Попова Т.Г., Садовский М.Г. Избыточность генов уменьшается в результате сплайсинга // Мол.биология (1995) т.29, № з, с.500 - 506; Попова Т.Г., Садовский М.Г. Интроны отличаются от экзонов по своей избыточности // Генетика (1995) т.31, № 10, с. 1365 — 1369; Бугаенко Н.Н., Горбань А.Н., Садовский М.Г. Об определении информационного содержания нуклеотидных последовательностей // Мол.биология (1996) т.30, № 3, с.529 - 541; Горбань А.Н., Попова Т.Г., Садовский М.Г. Гены вирусов человека менее избыточны, чем гены человека // Генетика (1996) т.32, № 2, с.281 - 294; Бугаенко Н.Н., Горбань А.Н., Садовский М.Г. Метод максимума энтропии для восстановления частотных словарей и определения информационной ёмкости нуклеотидных последовательностей // Вычислительный центр СО РАН в г. Красноярске, Красноярск, 1997. - Деп. в ВИНИТИ 09.04.97, № 1878-В97; Bugaenko N.N., Gorban AM, Sadovsky M.G. Maximum entropy method in analysis of genetic text and measurement of its information content // Open Systems & Information Dynamics, 1998, v.5, № 3, pp.265 - 278; Gorban AM, Popova T.G., Sadovsky M.G. Automatic classification of nucleotide sequences and its relation to natural taxonomy and protein function // Proc. of 1st Int. Conf. on Bioinformatics of Genome Regulation and Structure, Novosibirsk, Aug., 24 - 27, 1998; vol.IL, p.314 - 317; Bugaenko N.N., Gorban AM., Sadovsky M.G. Maximum entropy principle and measurement of information content of genetic texts // Proc. of 1st Int. Conf. on Bioinformatics of Genome Regulation and Structure, Novosibirsk, Aug., 24 - 27, 1998; vol.IL, p.283 - 286; Kirsanova EM., Sadovsky M.G. Entropy approach to a comparison of images // Open Systems & Information Dynamics, 2001, v.8, № 1, pp.183 - 199; Кирсанова Е.Н., Садовский М.Г. Метод статистического сравнения объектов // "Радиоэлектроника. Информатика. Управление." № 2, 2000, стр. 71 - 82; Кирсанова Е.Н., Садовский М.Г. Об информационной значимости цифровых изображений // "Радиоэлектроника. Информатика. Управ-
-12-
ление." № 2, 2001, стр. 88-95; Садовский М.Г. Об информационной ёмкости символьных последовательностей // "Радиоэлектроника. Информатика. Управление." № 1, 2002, стр. 82 - 86; Sadovsky M.G. Comparison of Symbol Sequences: No Editing, No Alignment // Open Systems & Information Dynamics, 2002, v.9, № 1, pp.19 - 36; Sadovsky M.G. Information capacity of symbol sequences // Open Systems & Information Dynamics, 2002, v.9, № 1, pp.37 - 49, Gorban AM, Popova T.G., Sadovsky M.G., Wunsch D.C. Information content of the frequency dictionaries, reconstruction, transformation and classification of dictionaries and genetic texts // Intelligent Engineering Systems through Artificial Neural Netwerks: v.l 1 - Smart Engineering System Design, N.-Y.: ASME Press, 2001, p. 657 - 663; Садовский М.Г. К вопросу об избыточности геномов вирусов и прокариот // Генетика,
2002, т. 38, № 5 с. 695 - 701; Горбань А.Н., Попова Т.Г., Садовский М.Г. Классификация нуклеотидных последовательностей по частотным словарям обнаруживает связь между их структурой и таксономическим положением организмов // ЖОБ, 2003, т. 64, № 1, стр. 51 — 63; Sadovsky M.G. Comparison of real frequencies of strings vs. the expected ones reveals the information capacity of macromoleculae // Journal of Biological Physics,
2003, vol. 29, № 1, pp. 23 - 38; Sadovsky M.G. The method of comparison of nucleotide sequences based on the minimum entropy principle // Bulletine of Mathematical Biology, 2003, vol. 65, № 2, pp. 309 - 322; Мамонова М.А., Садовский М.Г. Информационная ценность различных триплетов некоторых генетических систем // ЖОБ, 2003, т.64, № 5, с.421-433.
Работа выполнена в лаборатории экологической биотехнологии Институт биофизики СО РАН. Результаты, полученные в ходе работы были получены при поддержке Красноярского научного фонда, гранты 1F0390, 3F0190,4F0153, 5F0012 и 11F114C.
Глава 1. Обзор основных проблем биоинформатики и анализа символьных последовательностей
Символьные последовательности как объект исследований встречаются в различных разделах математики и естествознания. При этом основной успех в теоретических исследованиях свойств символьных последовательностей самого разного направления фактически всегда был обусловлен возникновением соответствующих прикладных задач. Одной из таких задач, имеющих различные сферы приложения, является изучение тех свойств символьных последовательностей, которые могут оказаться информативными при исследованиях их функции, либо смысла в различных биологических системах.
Изучение статистических свойств биологических макромолекул началось задолго до появления соответствующих возможностей, предоставляемых современным уровнем развития вычислительной техники [106, 107]. С момента открытия структуры молекулы ДНК с исследованием статистических свойств связывались надежды на скорую "расшифровку" всех свойств, которые кодируются нуклеотидными последовательностями. Дальнейшее развитие молекулярной биологии и смежных дисциплин показало, что эти надежды реализованы не были, по крайней мере, не полностью.
С другой стороны, развитие прикладных исследований, в первую очередь в области биотехнологии, привело к тому, что статистический анализ биологических макромолекул (нуклеотидиых и аминокислотных последовательностей) развился в специфическую область исследований, наиболее важными в которой с точки зрения нашей работы стали исследования, посвященные проблеме организации быстрого поиска аналогов и гомологов для различных (как правило, коротких) последовательностей. Эта сфера исследований в последнее время оформилась в область со своими школами, течениями, направлениями, и получила в науке название биоинформатики [1, 97, 129, 133,134,161].
1.1. Основные задачи в исследованиях символьных последовательностей
Символьные последовательности как объект исследования возникают в весьма различных и порой далёких друг от друга областях науки. Несмотря на это исследователи обнаруживают весьма глубокую и содержательную связь как между подходами к исследованию символьных последовательностей, так и между содержательными результатами, получающимися в этих областях. По-видимому, наиболее активно иссле-
-14-
дования символьных последовательностей начали развиваться после выхода в свет работы К.Шеннона [170], посвященной анализу процесса передачи информации. Работы в этом направлении не прекращаются, однако мы не будем их здесь обсуждать, поскольку они выходят за рамки нашего исследования. Обширен круг исследований символьных последовательностей, посвященных проблемам кодирования и декодирования различных сообщений [146, 180] и вообще — проблемам передачи информации [32, 33, 102,124].
Не останавливаясь подробнее на иных аспектах в прикладных исследованиях свойств символьных последовательностей — например, в теории программирования [2, 34, 41, 124], — остановимся лишь подробнее на таком фундаментальном понятии сложности символьной последовательности. В самом элементарном варианте сложность символьной последовательности может быть представлена как последовательность неких (более или менее) элементарных операций, которые можно совершать с начальным фрагментом исходной последовательности с тем, чтобы построить всю последовательность целиком. Длина такого рода "программы" может рассматриваться как сложность символьной последовательности. Основы для изучения сложностных характеристик символьных последовательностей были заложены в фундаментальных работах А.Н.Колмогорова [32, 33, 34]. Дальнейшее развитие идей Колмогорова было изложено в работе А.Л.Левина, А.К.Звонкина [37], а их более популярный и прикладной вариант — в работе Лемпеля и Зива [140]. Именно это направление в исследованиях сложности символьных последовательностей активно развивалось новосибирскими исследователями [21,22, 52] и некоторыми другими авторами [192, 193]. Именно генетический аспект в исследованиях сложности символьных последовательностей и будет нас интересовать в наибольшей степени [9,23,25, 31,41, 58].
Систематическое исследование сложностных свойств нуклеотидных последовательностей с учётом их конечности приведено в [126]. Нуклеотидная последовательность рассматривается как реализация того или иного случайного процесса, при этом другие реализации такого процесса рассматриваются как суррогатные последовательности с тем же нуклеотидным составом. После чего сложностные характеристики определялись для всего семейства реализаций (включая реальную последовательность) и определялся характер флуктуации сложностных характеристик, на фоне которого изучалась сложностная характеристика реальной нуклеотидной последовательности. Такой подход позволил выделить несколько реальных последовательностей, для которых хорошо строится контекстно свободный язык.
-15-
Идеи изучения степени сложности тех или иных естественных объектов всегда возникают в тех областях естествознания, где освоены и активно применяются методы математического моделирования. Это неудивительно, поскольку описывать сложность того или иного естественного объекта можно лишь постольку, поскольку развит соответствующий модельный объект; как правило, выбор такого объекта обусловлен конкретными задачами того или иного исследования. Из областей исследований, смежных нашему укажем на работы по изучению сложности моделей химических реакций [189], а также на работы в области изучения сложности биологических сообществ [144] и иных биологических систем [101]. Обратимся, однако, подробнее к задачам изучения тех символьных последовательностей, которые соответствуют биологическим макромолекулам — в первую очередь генетическим текстам.
С момента появления методов определения последовательностей нуклеотидов в ДНК возник ряд проблем, связанных с распознаванием структуры последовательности, выделения в них функционально значимых участков, построения филогенетических деревьев и т.д. Рост объема данных первичных структур биополимеров немедленно вовлек в сферу изучения генетических текстов методы теории вероятностей и математической статистики, теории программирования, теории графов, иных разделов чистой и прикладной математики. Первые попытки, исследования генетических текстов статистическими методами были связаны с определением частот встречаемости различных слов и отдельных нуклеотидов и сравнением этих характеристик у различных организмов. В настоящее время методы теории вероятностей и математической статистики широко используются в генетических исследованиях, что привело к установлению большого количества закономерностей и аномальных характеристик, многие из которых еще предстоит объяснить на функциональном уровне. Круг содержательных задач статистического анализа первичных последовательностей ДНК достаточно широк. Остановимся кратко на каждой из них.
1.2. Проблема аннотирования геномов
К настоящему времени количество расшифрованных последовательностей нуклеотидных кислот — носителей наследственной информации любого живого организма — достигает порядка 1012 нуклеотидов. Более точная оценка едва ли возможна, поскольку ежедневно в банки генетических данных помещается до 106 символов новых расшифрованных нуклеотидных последовательностей. Столь существенные скорости
-16-
расшифровки генетических текстов не сопровождаются однако столь же стремительным развитием соответствующих (в первую очередь — вычислительных) методов описания расшифрованных последовательностей. Дело в том, что расшифрованная последовательность не содержит никаких "явных" указаний на то, какую именно функцию выполняет тот или иной участок расшифрованной ДНК. Точное указание тех функций, которые определяет в организме (точнее, в его генетической системе) каждый отдельно взятый участок нуклеотидной последовательности носит название задачи аннотирования генома [1,40, 134, 198].
Задача аннотирования генома является комплексной и требует привлечения методов и подходов, специфичных для самых различных областей знания. Она включает в себя построение таких инструментов для анализа символьной последовательности, как поиск фрагмента по образцу, поиск фрагмента по неточному (с заменами и пробелами) образцу, поиск всех включений того или иного сравнительно короткого) фрагмента, поиск и вьщеление закономерностей в большой последовательности, причём как уже заранее известных, так и неизвестных, а также сравнение последовательностей между собой. Следует особо подчеркнуть, что все эти задачи должны решаться на очень больших (до 10 символов) последовательностях и крайне актуальной становится разработка и реализация в виде программ соответствующих алгоритмов для решения указанных задач, обладающих высокими показателями эффективности [40, 78, 84, 130].
Решение задачи автоматизированного аннотирования геномов в принципе не может быть получено без привлечения различной дополнительной информации, выходящей за рамки собственно анализируемой (и, соответственно, аннотируемой) символьной последовательности. К такого рода дополнительной информации относится как знание (с той или иной степенью достоверности) функционального значения выделяемого и описываемого участка генома — например с помощью ПДРФ (полиморфизма длин рестрикционных фрагментов — см. [9, 23, 40]), либо знания о функции того или иного участка в геноме. Здесь важную роль начинают играть такие показатели алгоритмов, реализующих все этих функции в инструменте для анализа генетических текстов, как его эффективность и оптимальность. Не останавливаясь подробнее на этой проблеме, укажем на работы [7, 103, 111, 162, 164], которые близки тематике нашего исследования. Перейдём к более подробному анализу существующих результатов в связи с проблемой аннотирования геномов — в первую очередь это корректное описание генетических текстов.с помощью математических моделей, которые необходимы для оценки статистической значимости найденных закономерностей, построение ело-
-17-
варей наиболее часто или аномально редко встречающихся подпоследовательностей, выделение зонной структуры геномов, поиск и выявление сходства (гомологии) различных генетических текстов.
Ещё одним направлением, тесно примыкающим к задачам аннотирования генома, является задача сегментирования символьной последовательности. Для случая нуклеотидной последовательности такое сегментирование может давать то или иное приближение в задаче аннотирования генома; задача сегментирования в общем виде не связана с биологическими особенностями рассматриваемых последовательностей. Работы по сегментированию геномов на основе статистических методов ведутся достаточно активно [86]. В этой работе предпринята попытка составить словарь тех цепочек (коротких слов длиной от 6 до 10 нуклеотидов), которые бы надёжно указывали на те или иные функциональные участки анализируемой последовательности. Показано, что несмотря не отсутствие такого универсального словаря, в некоторых случаях декомпозиция оказывается успешной. Словарь содержит около 1200 слов, с помощью которых предпринимается попытка выделить до 6000 регуляторных регионов; эффективность работы составляет 114 успехов их общего числа в 443 региона. Более общий (но и менее продуктивный) подход к этой проблеме на основе изучения необычно часто либо необычно редко встречающихся цепочек нуклеотидов представлен в [64]. Обзор методов и результатов сегментирования в приложении к задачам аннотирования геномов приведён в [183]. Статистические свойства геномов часто удаётся визуализовать; различные методы также выявляют такие структуры, как повторы или тандемы [135, 136, 186]. Выделение таких структур позволяет определить некоторый порядок на нуклео-тидных последовательностях.
1.3. Модели генетических текстов
Не зная полностью язык генетических текстов, исследователь вынужден угадывать некоторые особенности расположения нуклеотидов и пытаться понять, могли ли эти особенности возникнуть случайно или же они связаны с биологическими свойствами. Один их распространенных способов применения статистических моделей генетических текстов связан с изучением "неслучайных" особенностей в последовательности нуклеотидов в ДНК. Суть применяемого метода состоит в следующем. Анализируемый текст интерпретируется как элемент некоторой совокупности текстов. В силу объективных причин эта совокупность может быть недоступной для исследователя, и
Список литературы
Цена, в рублях:
(при оплате в другой валюте, пересчет по курсу центрального банка на день оплаты)
1425
Скачать бесплатно
24242.doc
Найти готовую работу
ЗАКАЗАТЬ
Обратная
связь:
Связаться
Вход для партнеров
Регистрация
Восстановить доступ
Материал для курсовых и дипломных работ
03.11.24
Лексикографический анализ единиц поля
03.11.24
Из истории слова гость и его производных
03.11.24
Семантическое поле гость в русском языке
Архив материала для курсовых и дипломных работ
Ссылки:
Счетчики:
© 2006-2024. Все права защищены.
Выполнение уникальных качественных работ - от эссе и реферата до диссертации. Заказ готовых, сдававшихся ранее работ.