Информация, закодированная в последовательностях ДНК, может быть строго количественно оценена с использованием энтропии Шеннона и связанных с ней мер. Когда эта количественная оценка рассматривается в эволюционном контексте, она предлагает принципиальный, но недостаточно изученный путь к построению генных регуляторных сетей (ГРС) непосредственно из данных последовательностей. В то время как большинство методов вывода ГРС полагаются исключительно на профили экспрессии генов, регуляторный код в конечном счёте записан в самой последовательности ДНК.
В данной работе авторы рассматривают математические основы теории информации в применении к генным последовательностям, анализируют существующие вычислительные методы вывода ГРС с акцентом на информационно-теоретические и основанные на последовательностях подходы, и исследуют, как эволюционная консервативность ограничивает энтропию последовательностей для сохранения биологической функции.
Ключевым предложением исследования является четырёхслойный интегративный фреймворк, который объединяет: профили энтропии Шеннона по позициям, оценку эволюционной консервативности через дивергенцию Дженсена-Шеннона, взаимную информацию и передачу энтропии на основе данных экспрессии, а также эмбеддинги фундаментальных моделей ДНК для построения ГРС из последовательностей.
Через разобранные примеры на субсети SOS-регуляции Escherichia coli авторы демонстрируют, как взвешенная по консервативности взаимная информация улучшает различение рёбер сети и как передача энтропии разрешает направленность регуляции. Фреймворк генерирует проверяемые предсказания: рёбра, поддерживаемые низкоэнтропийными регуляторными регионами, должны показывать более высокие уровни экспериментальной валидации, а межвидовая консервативность профилей энтропии должна предсказывать консервативность топологии ГРС.
Эта работа соединяет три масштаба биологической информации — энтропию на уровне нуклеотидов, паттерны эволюционных ограничений и сетевую регуляторную логику — устанавливая информационную энтропию как естественный математический язык для вывода регуляторных взаимодействий от последовательности к сети.
Традиционные методы построения генных регуляторных сетей существенно ограничены своей зависимостью от данных экспрессии генов, которые требуют дорогостоящих экспериментов и доступны лишь для ограниченного числа условий и тканей. Предлагаемый подход открывает возможность предсказания регуляторных взаимодействий непосредственно из геномных последовательностей, что имеет особое значение для изучения не модельных организмов, для которых данные экспрессии отсутствуют или ограничены.
Использование энтропии Шеннона позволяет количественно оценить неопределённость или информационное содержание в каждой позиции последовательности ДНК. Регионы с низкой энтропией указывают на сильные функциональные ограничения, часто связанные с регуляторными элементами, такими как сайты связывания транскрипционных факторов. Эволюционная консервативность этих регионов через дивергенцию Дженсена-Шеннона позволяет отличить функционально значимые низкоэнтропийные сайты от случайных консервативных участков, возникших по стохастическим причинам.
Интеграция с современными фундаментальными моделями ДНК, такими как базовые модели на основе трансформеров, обученные на массивных геномных данных, добавляет дополнительный слой предсказательной силы. Эти модели способны улавливать сложные, нелинейные зависимости в последовательностях, которые выходят за рамки традиционных позиционных моделей весов матриц.
Применение передачи энтропии — меры направленной информации, заимствованной из теории динамических систем — позволяет различать причинно-следственные регуляторные взаимодействия от простых статистических ассоциаций. Это критически важно для построения ориентированных сетей, где направление регуляции имеет биологическое значение.
Валидация подхода на хорошо изученной SOS-сети регуляции E. coli демонстрирует его практическую применимость. Эта сеть контролирует ответ бактерий на повреждение ДНК и включает ключевые регуляторные белки LexA и RecA. Способность метода корректно идентифицировать известные регуляторные связи в этой системе служит доказательством концепции для более широкого применения.
Предсказательная сила фреймворка открывает пути для экспериментальной валидации. Регуляторные взаимодействия, предсказанные на основе низкоэнтропийных консервативных регионов, должны с большей вероятностью подтверждаться в экспериментах по связыванию белков с ДНК, таких как ChIP-seq или SELEX. Кросс-видовое сравнение профилей энтропии может предсказывать, какие компоненты регуляторных сетей будут консервативны между видами, а какие подвержены дивергенции.
Работа представляет собой значительный шаг к синтезу эволюционной биологии, теории информации и системной биологии. Установление информационной энтропии как универсального языка для описания регуляторной информации в ДНК может унифицировать разрозненные подходы к пониманию геномной регуляции и ускорить открытие новых терапевтических мишеней в регуляторных сетях, ассоциированных с заболеваниями.