Можно ли считать выборки различными или что такое распределение Стьюдента
Давайте представим что у нас в редакции работают 10 авторов, при этом у нас 5 мальчиков и 5 девочек.
У нас есть предположение что девочки работают хуже.
Мы взяли и посчитали сколько текстов пишет каждый автор за неделю.
У нас в среднем мальчики пишут 4,4 материала, а девочки 2,6, похоже что девочки работают хуже мальчиков.
В статистике существует t-критерия Стьюдента, он показывает с какой вероятностью мы ошибемся если будем считать что две выборки одинаковые. Считается он по степеням свободы — это количество значений в выборке минус 2, в нашем случает 10−2=8
t-критерия Стьюдента = (Разница средних) / Корень квадратный(дисперсии 1 распределения/количество элементов 1 распределения+ дисперсии 1 распределения/количество элементов 2 распределения)
=ABS(B8-E8)/SQRT(VAR(B2:B6)/5+VAR(E2:E6)/5)В нашем случае критерий равен 1,9877
Но сам критерий нам не нужен, нам нужно понимать на сколько выборки различные, для этого есть функция которое возвращает распределение, оно считается по критерию, степеням свободы.
=T.DIST(D14;8;TRUE)и в нашем случае он равен 0,9589, что значит что выборки различны на 95,89% или одинаковы на 4,11%
Одураченные случайностью. Все бы ничего, если посмотреть наши данные, то можно увидеть, что наши данные сгенерированы случайно броском кубика.
Давайте попробуем обновить данные и увидим что все критерии изменились, как и данные
Образец таблицы на которой я бросал кубики, копируйте к себе и бросайте
Мастер класс по такому бросанию кубиков очень классно показал Максим Дорофеев.