Русский

Как избежать ошибок при статистическом анализе биологических экспериментов с помощью простого симулятора многоуровневых данных

, , , , , , ,

Введение

В биологических экспериментах часто приходится иметь дело с «кластеризованными» или «многоуровневыми» данными. Под этими терминами мы подразумеваем иерархическую группировку отдельных измерений по определенному принципу так, что точки данных в каждом кластере не являются полностью независимыми друг от друга (рис. 1). Представьте себе сценарий, когда какое-то измерение повторяется в течение нескольких экспериментальных дней. Несмотря на попытки экспериментатора каждый раз воспроизводить одни и те же условия, на практике реальные условия могут незначительно изменяться изо дня в день. Следовательно, значения, собранные в определенный день, могут больше коррелировать друг с другом, чем с точками из других дней. Такая группировка данных по дням является одним из распространенных примеров иерархической структуры данных в биологических экспериментах. Другим распространенным примером является сценарий, когда несколько точек данных собираются от маленького количества животных, пациентов, клеток и т. д. В этом случае измерения от одного и того же животного / пациента / клетки могут не быть полностью независимыми, поэтому они образуют кластеры со слегка сдвинутыми средними значениями.
Schematic of a typical biological experiment design, generating nested data
Figure 1. Schematic of a typical biological experiment design, generating nested data
К сожалению, исследователи нередко игнорируют иерархическую структуру своих экспериментальных данных. В этом случае исследователь наивно объединяет все точки данных, собранные при определенных условиях тестирования, предполагая (часто ошибочно!), что они независимы. Затем объединенные данные обычно обрабатываются вместе с использованием некоторых стандартных статистических критериев и методов, таких как t-критерий, регрессионный анализ, ANOVA и т. д., которые применимы только для независимых данных. Рассмотрение статистически зависимых данных как статистически независимых создает проблему псевдорепликации
. Это искусственно увеличивает размер выборки и приводит к невоспроизводимым или лишенным смысла результатам. Из-за псевдорепликации статистический анализ проверяет неверную гипотезу вместо той, которую исследователь действительно намеревался рассмотреть
. Эта проблема описана в нескольких обзорах
. Отличительной чертой псевдорепликации является слишком малое p-значение, полученное в статистических тестах, даже несмотря на значительное перекрытие значений из сравниваемых групп
[
5
SuperPlots: Communicating reproducibility and variability in cell biology.

Lord SJ, Velle KB, Mullins RD, Fritz-Laylin LK.

Journal of Cell Biology. 2020, 219 (6), NaN

]
.
Помимо проблемы ложноположительных результатов, неправильная статистическая обработка данных и игнорирование их многоуровневой структуры также могут увеличить вероятность ложноотрицательных результатов. Например, можно было бы наивно ожидать, что простое добавление дополнительных данных от каждой клетки / животного / пациента / дня должно повысить статистическую мощность анализа. Это не всегда правдиво в случае многоуровневых данных. Поэтому тщательный анализ кластеризации данных очень важен как для оптимального планирования экспериментов, так и для достоверной статистической оценки биологических измерений
[
3
What exactly is “N” in cell culture and animal experiments?

S. E. Lazic, C. J. Clarke-Williams, and M. R. Munafò

PLoS Biology. 2018, 16 (4), NaN

]
.
Правильная обработка многоуровневых биологических данных требует многоуровневого статистического анализа
. Для его реализации были разработаны различные программные пакеты, включая коммерческий инструмент Prism GraphPad
и бесплатные программы, такие как InVivoStat
[
8
Using InVivoStat to perform the statistical analysis of experiments

S. T. Bate, R. A. Clark, and S. C. Stanford

Journal of Psychopharmacology. 2017, 31 (6), 644-652

]
, разработанные специально для планирования и анализа экспериментов с животными. В многоуровневом анализе данные сравниваются на уровне средних значений кластера с учетом разницы между дисперсией внутри кластеров и дисперсией между кластерами. Этот подход объясняет часть вариативности экспериментального эффекта и обеспечивает наибольшую статистическую мощность. Многоуровневый анализ не только обеспечивает правильную статистическую интерпретацию результатов и, следовательно, правильные выводы, но также может предоставить уникальную информацию о собранных данных исследования, которую невозможно получить при использовании стандартных статистических методов для отдельных значений или для сводной статистики
.
Здесь мы представляем простой симулятор данных с открытым исходным кодом, чтобы проиллюстрировать общие проблемы, возникающие при статистическом анализе сгруппированных биологических данных. Мы показываем, как ложные предположения о независимости данных могут привести к неправильной оценке статистической значимости разницы между сравниваемыми группами и как этот результат зависит от степени внутрикластерной корреляции (ICC) данных. Используя наш симулятор, мы также демонстрируем, как статистическая мощность анализа изменяется в зависимости от количества кластеров и количества элементов в них, и предлагаем алгоритм обработки многоуровневых данных и планирования оптимальных экспериментальных измерений.

Методы

Генерация стохастических многоуровневых данных

Мы разработали программу, которая генерирует две нормально распределенные стохастические переменные: «контроль» (x) и «эксперимент» (y), каждая из которых содержит N кластеров данных с n наблюдениями на кластер. Случайные переменные, представляющие «контрольные» и «экспериментальные» значения, генерируются следующим образом:
\begin{equation} \begin{split} x(i,j)=x_{mean}^{intra}\ (i)+\sigma^{intra}\ R(0,1),\\ y(i,j)=y_{mean}^{intra}\ (i)+\sigma^{intra}\ R(0,1), \end{split}\tag{1}\end{equation}
где i – номер кластера от 1 до N; j – номер измерения от 1 до n; \(x_{mean}^{intra}\ (i)\) - среднее значение «контрольных» данных в i-ом кластере; \(y_{mean}^{intra}\ (i)\) - среднее значение «экспериментальных» данных в i-ом кластере; \( \sigma_{intra}^2 \) – внутри кластерная дисперсия; \(R(0,1)\) – случайное нормально распределенное число со средним значением 0 и стандартным отклонением 1.
Внутрикластерные значения \(x_{mean}^{intra}\ (i)\) и \(y_{mean}^{intra}\ (i)\) определяются как:
\begin{equation} \begin{split} x_{mean}^{intra}\ (i)=x^{true}\ (i)+\sigma^{inter}\ R(0,1),\\ y_{mean}^{intra}\ (i)=y^{true}\ (i)+\sigma^{inter}\ R(0,1), \end{split}\tag{2}\end{equation}
где \( x^{true} \) and \( y^{true} \) – «истинные» средние значения «контроля» и «эксперимента»; \( \sigma_{inter}^2 \) – межкластерная дисперсия; R(0,1) – случайное нормально распределенное число со средним значением 0 и стандартным отклонением 1.

Статистическое сравнение "контрольной" и "экспериментальной" групп

Симулятор обрабатывает наборы стохастических данных, используя три метода для проверки нулевой гипотезы о равенстве значений в «контроле» и «эксперименте».
Метод 1: n значений из всех N кластеров объединяются, чтобы сформировать два пула значений: «контроль» и «эксперимент». Затем пулы сравниваются с использованием стандартного непарного двустороннего t-критерия, основанного на оценке t1:
\begin{equation} t_1 = \frac{|\langle x \rangle - \langle y \rangle|}{s\sqrt{\frac{2}{M}}}\tag{3}\end{equation}
где треугольные скобки обозначают усреднение, \(M = N * n\) – общий размер набора данных, а \(s\) – объединенное стандартное отклонение, определяемое как:
\begin{equation} s = \sqrt{\frac{(M-1)\cdot SD_x^2 + (M+1)\cdot SD_y^2}{2M-2}}\tag{4}\end{equation}
где \(SD_x\) и \(SD_y\) – стандартные отклонения значений в объединенных «контрольной» и «экспериментальной» группах, соответственно.
Затем, p-значение вычисляется из t-распределения с \(h = 2M - 2\) степеней свободы при уровне значимости 0,05.
Метод 2: усредняются наблюдения в каждом кластере. Средние значения из каждого кластера используются в качестве входных данных для стандартного непарного t-критерия, основанного на оценке t2:
\begin{equation} t_2 = \frac{|\langle x \rangle - \langle y \rangle|}{s_{mean}\sqrt{\frac{2}{M}}}\tag{5}\end{equation}
здесь треугольные скобки обозначают усреднение, \(N\) - количество кластеров, \(s_{mean}\) - скомбинированное стандартное отклонение средних значений каждого кластера:
\begin{equation} s_{mean} = \sqrt{\frac{(N-1)\cdot SD_{xmean}^2 + (N-1)\cdot SD_{ymean}^2}{2N-2}}\tag{6}\end{equation}
где \(SD_{xmean}\) и \(SD_{ymean}\) – стандартные отклонения внутрикластерных средних значений в «контрольной» и «экспериментальной» группах соответственно.
p-значение находится так же, как и в первом методе, за исключением того что теперь степени свободы уменьшены до \(h = 2N - 2\).
Метод 3: многоуровневая структура наборов данных учитывается путем вычисления скорректированной статистики непарного двустороннего t-теста
[
10
Correcting a Significance Test for Clustering

L. V. Hedges

Journal of Educational and Behavioral Statistics. 2007, 32 (2), 151-179

]
:
\begin{equation} t_3 = c \cdot t_1\tag{7}\end{equation}
где \(c\) - поправочный коэффициент для t-распределения:
\begin{equation} c = \sqrt{\frac{(M-2) - 2(n-l)\cdot ICC}{(M-2)(1+(n-1)\cdot ICC)}}\tag{8}\end{equation}
где M – общее количество данных, n – количество значений на кластер, \(ICC\) – внутрикластерная корреляция, вычисляемая как:
\begin{equation} ICC = \frac{\sigma^2_{inter}}{\sigma^2_{inter} + \sigma^2_{intra}}\tag{9}\end{equation}
Модифицированное р-значение теперь определяется с помощью \(t_3\)-распределения из \(eq. (6)\) с \(h\) степенями свободы, вычисляемыми следующим образом:
\begin{equation} h = \frac{((M-2) - 2(n-1)\cdot ICC)^2}{(M-2)(1-ICC)^2 + n(M-2n)\cdot ICC^2 + 2(M-2n)\cdot ICC\cdot (1-ICC)}\tag{10}\end{equation}

Анализ статистической мощности

При условии, что истинные значения «контроля» и «эксперимента» различны, программа так же вычисляет статистическую мощность, достигаемую каждым методом при заданном наборе параметров моделирования. Для этого стохастическое моделирование повторяется 1000 раз. При уровне значимости 0,05 нулевая гипотеза о равенстве средних отклоняется или принимается на основе вычисленных p-значений в каждом из 1000 запусков. Мощность определяется как процент случаев, в которых ложноотрицательный результат не получен.

Доступность кода

Симулятор многоуровневых данных доступен по адресу https://github.com/juliaLopanskaia/nested_data_simulator

Результаты

Не объединяйте данные в пул при наличии корреляции внутри кластера

В первую очередь применим наш симулятор случайных многоуровневых данных, для того чтобы проиллюстрировать важность учета кластеризации данных. Предположим, что необходимо провести исследование равенства значений некоторой величины при двух различных условиях (“контроль” и “эксперимент”; здесь и везде в дальнейшем нулевая гипотеза состоит в равенстве этих значений). Для этого мы сгенерируем 50 условных “измерений” для каждого из трех кластеров. В первом примере мы будем генерировать данные таким образом, чтобы истинные значения при каждом условии были равны, так что не существует никакой разницы между “контролем” и “экспериментом”. Как описано в разделе Методы, наш симулятор многоуровневых данных заполняет каждый кластер случайными данными с нормальным распределением, которые генерируются так, чтобы пользователем было получено определенное среднее значение и внутрикластерная дисперсия \(\sigma^2_{intra}\). Пользователь также определяет межкластерную дисперсию, \(\sigma^2_{inter}\), описывающую степень разброса средних значений между кластерами.
В зависимости от дисперсий между кластерами и внутри них наблюдения могут быть более или менее независимыми друг от друга. Внутрикластерная корреляция (ICC) служит удобной метрикой для определения степени относительного сходства наблюдений из одного и того же кластера (Ур. 9).
Рассмотрим два случая: (1) смоделированные данные имеют слабую относительную корреляцию внутри кластеров (ICC = 0,01, рис. 2А) и (2) смоделированные данные имеют сильную относительную корреляцию внутри кластеров (ICC = 0,2, рис. 2Б).
Analysis of an example of simulated nested data with equal means in ‘control’ and ‘experimental’ groups
Figure 2. Analysis of an example of simulated nested data with equal means in ‘control’ and ‘experimental’ groups
Чтобы продемонстрировать некоторые подводные камни статистического анализа, мы можем оценить три способа обработки этих данных: 1) наивно объединяя наблюдения из всех кластеров по условию и используя непарный t-критерий для сравнения двух условий; 2) вычисляя средние значения для каждого кластера и обрабатывая их непарным t-критерием; 3) используя модифицированный непарный t-критерий, учитывающий многоуровневую структуру данных
[
10
Correcting a Significance Test for Clustering

L. V. Hedges

Journal of Educational and Behavioral Statistics. 2007, 32 (2), 151-179

]
.
Когда наблюдения почти независимы (ICC = 0,01, рис. 2А), все три способа статистической обработки данных выдают одинаково высокие p-значения. Это указывает на очень высокую вероятность того, что нулевая гипотеза о равенстве средних верна. Такой результат является правильным, поскольку мы знаем, что “истинные” значения действительно были определены пользователем как равные.
Однако в случае сильной внутрикластерной корреляции (ICC = 0,2, рис. 2Б) три статистические обработки приводят к различным результатам. В частности, самый наивный подход объединения всех точек данных вместе и проведения стандартного непарного t-теста дает чрезвычайно маленькое p-значение. Ошибочно это может быть истолковано как указание на то, что “контроль” и “эксперимент” существенно отличаются. Очевидно, что в нашем смоделированном сценарии это не так, поэтому этот тип анализа показывает, как игнорирование многоуровневой структуры данных может привести к ложноположительному результату. Вторая статистическая процедура, то есть усреднение всех наблюдений внутри каждого кластера, а затем использование внутрикластерных средних значений для проведения t-теста, работает лучше и не приводит к неправильному отклонению нулевой гипотезы. Наконец, последняя из рассмотренных статистических процедур также указывает в пользу нулевой гипотезы о равенстве средних.
Чтобы более наглядно показать важность учета кластеризации данных, мы построили график зависимости вероятности получения ложноположительного результата от степени внутрикластерной корреляции ICC (рис. 2В). Этот график показывает, что наивный подход объединения всех данных вместе резко увеличивает вероятность ложноположительных результатов, в то время как два других статистических метода обработки дают более точные результаты в этом случае. Тепловая карта на рис. S1 показывает, как вероятность получения ложноположительного результата зависит от количества кластеров и количества наблюдений в каждом кластере. 

Как правильно спланировать эксперимент и скорректировать обработку данных для выявления истинной разницы между сравниваемыми группами?

Мы надеемся, что из смоделированного нами примера, описанного в предыдущем разделе, ясно, что объединение измерений из всех кластеров в один пул и рассмотрение их как независимых наблюдений, вероятно, приведет к ложноположительным результатам, если внутрикластерная корреляция будет выше 0,01. Поэтому важно распознавать многоуровневую структуру данных и либо вычислять средние значения данных внутри кластеров для проведения их статистического анализа, либо использовать модифицированный непарный t-критерий.
Но если последние два метода дают сопоставимые показатели ложноположительных результатов, есть ли на самом деле предпочтение в использовании того или иного метода? Чтобы ответить на этот вопрос, мы теперь смоделируем другой сценарий, в котором и “контроль”, и “эксперимент” представлены тремя кластерами данных, но “истинные” значения в “контроле” и “эксперименте” немного отличаются (рис. 3А, Б). Какой тип статистического анализа обеспечит меньшую вероятность ложноотрицательного результата?
Начнем с примера, в котором объем данных ограничен: только n = 5 наблюдений на кластер и только N = 3 кластера на условие. Многократно запустив наш симулятор многоуровневых данных с фиксированными пользовательскими параметрами, легко вычислить вероятность получения ложноотрицательного результата β. Соответствующая статистическая мощность (%) определяется как (1 - β)∙100%. Из моделирования становится ясно, что мощность выше, когда одни и те же данные оцениваются с помощью модифицированного t-критерия, по сравнению с t-тестом, основанным на средних значениях по кластерам (рис. 3А, Б). Этот небольшой, но воспроизводимый прирост статистической мощности позволяет более надежно обнаруживать небольшие различия между “контролем” и “экспериментом”. Обратите внимание, что при использовании обоих методов статистическая мощность ниже в случае, если данные имеют более высокий ICC.
Analysis of statistical
power of experiments with different
intra-cluster correlation, numbers
of observations and clusters.
Figure 3. Analysis of statistical power of experiments with different intra-cluster correlation, numbers of observations and clusters.
 
Вероятность получения ложноотрицательного результата зависит как от количества измерений в кластере, так и от количества кластеров (рис. S2). Таким образом, для повышения чувствительности обработки данных необходимо увеличить количество измерений в каждом кластере и/ или количество кластеров. На практике, однако, обычно трудно увеличить количество кластеров (т. е. количество организмов / пациентов / клеток / экспериментальных дней). Поэтому для снижения вероятности получения ложноотрицательного результата проще (а иногда и целесообразнее) увеличить количество измерений внутри кластера. На рис. 3В, Г показаны примеры, в которых количество наблюдений на кластер увеличивается в 10 раз по сравнению с рис. 3А, Б. Как видно, в этом случае статистическая мощность действительно увеличивается, но выигрыш выше при низком ICC (рис. 3В), в то время как при более высоком ICC увеличение статистики внутри каждого кластера не оказывает такого сильного эффекта (рис. 3Г). Добавление большего количества кластеров обычно является более эффективным способом повышения статистической мощности, как показывают смоделированные примеры на рис. 3Д, Е, в которых число кластеров увеличивается в 5 раз по сравнению со случаем, рассмотренным на рис. 3А, Б. На практике исследователи должны делать выбор между добавлением большего количества наблюдений на кластер и добавлением нескольких кластеров, основываясь на понимании ожидаемого прироста мощности (рис. S2) и других факторов, таких как время, стоимость и усилия, необходимые для сбора каждого типа данных.
В любом случае, подробное описание результатов статистического анализа имеет важное значение для правильной интерпретации исследования. К наиболее оптимальным способам отображения результатов статистических сравнений можно отнести визуализацию данных в виде более информативных графиков (SuperPlots)
[
5
SuperPlots: Communicating reproducibility and variability in cell biology.

Lord SJ, Velle KB, Mullins RD, Fritz-Laylin LK.

Journal of Cell Biology. 2020, 219 (6), NaN

]
и предоставление всех деталей о статистическом анализе, таких как формулировка проверяемой нулевой гипотезы; описание используемого статистического метода; указание размера выборки и типа вычисляемого p-значения (односторонний или двусторонний). Помимо статистической значимости следует также сообщать о значительности различий (т.е. о «размере эффекта»
[
11
Using Effect Size–or Why the P Value Is Not Enough

G. M. Sullivan and R. Feinn

Journal of Graduate Medical Education. 2012, 4 (3), 279-282

]
).

Как правильно обрабатывать многоуровневые данные?

В этом заключительном разделе мы предлагаем возможный план экспериментальной обработки, задействующей наш симулятор многоуровневых данных (рис. 4). Он применим, когда экспериментатор стремится сравнить средние значения некоторой величины в двух экспериментальных условиях, которые создают данные с иерархической структурой, такие как наблюдения из разных клеток / организмов / пациентов / экспериментальных дней. Мы предлагаем осуществить исследование следующим образом. Во-первых, следует провести пилотный набор измерений для получения двух минимальных наборов данных (N = 3 кластера, n = 10-20 наблюдений на кластер). Имея эти данные, можно оценить средние значения, дисперсии в каждом кластере и дисперсии средних между кластерами.
Proposed workflow for optimal planning of experiment and data processing
Figure 4. Proposed workflow for optimal planning of experiment and data processing
Заметим, что для простоты мы рассматриваем только тот случай, когда данные распределены нормально, и дисперсии в контрольной и экспериментальной группах существенно не различаются. Так часто бывает с реальными данными, что оправдывает применение t-теста. Если данные не подчиняются нормальному распределению, то могут быть применены непараметрические тесты, такие как U-критерий Манна-Уитни-Уилкоксона
. Принимая средние значения и дисперсии из пилотного эксперимента в качестве входных параметров для моделирования, наш симулятор многоуровневых данных может быть использован для оценки статистической мощности пилотного эксперимента. Допустимое и традиционно используемое значение для статистической мощности составляет 80%
[
13
Handbook of clinical psychology

J. Cohen and B. B. Wolman

McGraw-Hill New York. 1965, None, 95-121

]
.
Если расчетная мощность превышает 80%, пилотный эксперимент считается достаточным для обнаружения разницы между “контролем” и “экспериментом”, поэтому больше экспериментов не требуется. Пользователь может просто использовать p-значения из модифицированного t-критерия, выведенные симулятором, чтобы отклонить или принять нулевую гипотезу о равенстве средних. Если р-значение ниже некоторого порога α, то “эксперимент” статистически отличается от “контроля” с уровнем значимости 1- α.
Если расчетная мощность пилотного эксперимента ниже 80%, мы предлагаем использовать симулятор для прогнозирования того, сколько новых кластеров (N) (т. е. животных / клеток / пациентов / экспериментальных дней) или сколько наблюдений на кластер (n) следует добавить, чтобы увеличить мощность до требуемого уровня. Это можно сделать, просто запустив симулятор многоуровневых данных со средними и отклонениями, оцененными по результатам пилотного эксперимента, но увеличивая число кластеров и наблюдений внутри кластеров до тех пор, пока не будет получен удовлетворительный результат. После того как будет найдена хорошая комбинация, следует провести дополнительные измерения и добавить их к уже существующим данным. Затем новые средние значения и отклонения должны быть оценены в “контрольных” и “экспериментальных” наборах данных, и цикл обработки повторяется заново (рис. 4). Мы предполагаем, что такой алгоритм обеспечит максимальную эффективность, высокую статистическую мощность и правильную оценку значимости разницы средних в “контрольных” и “экспериментальных” условиях. 

Заключение

Одной из сильных сторон такого простого симулятора, как наш, является способность четко проиллюстрировать, как неверные неявные или явные предположения о независимости данных могут привести к неправильному использованию статистических процедур, приводя к ложноположительным или ложноотрицательным результатам. Эти подводные камни особенно очевидны, потому что в смоделированных данных “истинные” ответы известны. По нашему опыту, такого рода упражнения с использованием симулятора многоуровневых данных помогают натренировать интуитивное мышление о статистических методах. Но помимо простой иллюстрации широко распространенных ошибок, симулятор может быть непосредственно включен в экспериментальный процесс, чтобы помочь исследователям планировать и правильно анализировать свои эксперименты. Мы надеемся, что с помощью нашего простого симулятора многоуровневых данных нам удалось привлечь внимание к старой и важной проблеме статистического анализа иерархических биологических данных и убедить читателей в важности учета структуры данных.

Благодарности

Работа выполнена при поддержке гранта Президента РФ No МК-1869.2020.4.

Авторские вклады

В. В. А., М. Н. А., И. А. Е., А. П. К., Ю. Н. Л., Л. О. М., М. А. В. проводили исследования и писали первоначальный проект рукописи, Н. Б. Г. проектировал исследования, получал финансирование и редактировал рукопись.

Конфликт интересов

Авторы заявляют об отсутствии конфликта интересов.

Библиографические ссылки статьи:

  1. Pseudoreplication and the Design of Ecological Field Experiments

    S. H. Hurlbert

    Ecological Monographs. 1984, 54 (2), 187-211

  2. The problem of pseudoreplication in neuroscientific studies: is it affecting your analysis?

    S. E. Lazic

    BMC Neuroscience. 2010, 11, 5

  3. What exactly is “N” in cell culture and animal experiments?

    S. E. Lazic, C. J. Clarke-Williams, and M. R. Munafò

    PLoS Biology. 2018, 16 (4), NaN

  4. The effect of clustering on statistical tests: an illustration using classroom environment data

    J. P. Dorman

    Educational Psychology. 2008, 28 (5), 583-595

  5. SuperPlots: Communicating reproducibility and variability in cell biology.

    Lord SJ, Velle KB, Mullins RD, Fritz-Laylin LK.

    Journal of Cell Biology. 2020, 219 (6), NaN

  6. Multilevel analysis quantifies variation in the experimental effect while optimizing power and preventing false positives

    E. Aarts, C. V. Dolan, M. Verhage, and S. van der Sluis

    BMC Neuroscience. 2015, 16, NaN

  7. https://www.graphpad.com/scientific-software/prism/

    . , ,

  8. Using InVivoStat to perform the statistical analysis of experiments

    S. T. Bate, R. A. Clark, and S. C. Stanford

    Journal of Psychopharmacology. 2017, 31 (6), 644-652

  9. Selection of the experimental unit in teratology studies

    J. K. Haseman and M. D. Hogan

    Teratology. 1975, 12 (2), 165-171

  10. Correcting a Significance Test for Clustering

    L. V. Hedges

    Journal of Educational and Behavioral Statistics. 2007, 32 (2), 151-179

  11. Using Effect Size–or Why the P Value Is Not Enough

    G. M. Sullivan and R. Feinn

    Journal of Graduate Medical Education. 2012, 4 (3), 279-282

  12. Use of the Mann–Whitney U-test for clustered data

    B. Rosner and D. Grove

    Statistics in Medicine. 1999, 18 (11), 1387-1400

  13. Handbook of clinical psychology

    J. Cohen and B. B. Wolman

    McGraw-Hill New York. 1965, , 95-121