Как избежать ошибок при статистическом анализе биологических экспериментов с помощью простого симулятора многоуровневых данных

Несмотря на обширную литературу по статистическим методам и их корректному применению при обработке биологических данных, неправильный анализ остается критической и широко распространенной ошибкой в исследовательских работах. По своей сути иерархическая (вложенная, кластерная) структура биологических данных часто ошибочно игнорируется, что приводит к псевдорепликации и ложноположительным результатам. Это, в свою очередь, затрудняет правильную оценку статистической мощности и ухудшает оптимальное планирование экспериментов. Чтобы привлечь внимание к этой проблеме и проиллюстрировать важность прямого учета многоуровневой структуры биологических данных, в этой статье мы представляем простой симулятор двухуровневых нормально распределенных стохастических данных с открытым исходным кодом. Задавая «истинные» средние значения и «истинные» внутрикластерные и межкластерные дисперсии смоделированных данных, пользователи симулятора могут проверять различные сценарии, оценивать как важность использования правильного многоуровневого анализа, так и опасность пренебрежения информацией о структуре данных. Здесь мы применяем наш симулятор многоуровневых данных, чтобы обратить внимание на некоторые часто возникающие ошибки при анализе данных и предложить процедуру, которую наш симулятор может использовать для правильного сравнения двух иерархических групп экспериментальных данных и для оптимального планирования новых экспериментов с целью увеличения статистической мощности при необходимости.

#вложенные данные #статистический анализ #p-значение #ложно-положительный #ложно-отрицательный #статистическая сила #симуляционные данные #корреляция внутри кластера