Домашнее задание к занятию №2 (15.02)
Задание Light
1
Взять длинный текстовый файл
2
Посчитать статистику: средняя длинна предложения, средняя длинна слова, частота буквы: количество буквы 'a' 'b' 'c' и т.д., деленное на количество слов
3
Записать результат в файл
Задание Pro
1
Разбить текст на предложения и использовать массив предложений для приема кросс-валидация
2
Разбить на обучающую и тестовую k раз случайным образом и вывести статистику для каждого k
3
Сильно ли отличается статистика между итерациями кросс-валидации (средние и std для каждого параметра между обучающей и тестовой выборкой и между обучающими выборками для итераций)?
4
А для короткого файла?
5
Кросс-валидацию можно сделать генератором, возвращающим обучающую и тестовую выборки
6
Можно сделать класс в отдельном модуле