Русский

Liubov Makarova

Как избежать ошибок при статистическом анализе биологических экспериментов с помощью простого симулятора многоуровневых данных

, , , , , , ,

Несмотря на обширную литературу по статистическим методам и их корректному применению при обработке биологических данных, неправильный анализ остается критической и широко распространенной ошибкой в исследовательских работах. По своей сути иерархическая (вложенная, кластерная) структура биологических данных часто ошибочно игнорируется, что приводит к псевдорепликации и ложноположительным результатам. Это, в свою очередь, затрудняет правильную оценку статистической мощности и ухудшает оптимальное планирование экспериментов. Чтобы привлечь внимание к этой проблеме и проиллюстрировать важность прямого учета многоуровневой структуры биологических данных, в этой статье мы представляем простой симулятор двухуровневых нормально распределенных стохастических данных с открытым исходным кодом. Задавая «истинные» средние значения и «истинные» внутрикластерные и межкластерные дисперсии смоделированных данных, пользователи симулятора могут проверять различные сценарии, оценивать как важность использования правильного многоуровневого анализа, так и опасность пренебрежения информацией о структуре данных. Здесь мы применяем наш симулятор многоуровневых данных, чтобы обратить внимание на некоторые часто возникающие ошибки при анализе данных и предложить процедуру, которую наш симулятор может использовать для правильного сравнения двух иерархических групп экспериментальных данных и для оптимального планирования новых экспериментов с целью увеличения статистической мощности при необходимости.

Schematic of a typical biological experiment design, generating nested data
1 670
0
#вложенные данные#статистический анализ#p-значение#ложно-положительный#ложно-отрицательный#статистическая сила#симуляционные данные#корреляция внутри кластера