3 способа удалить посторонние данные из вашей информации
В сети интернет есть пост о работе со сложными данными автора Filipe Fernandes, так как эта тема не могла оставить его равнодушным, он написал еще одну статью, адаптацией которой мы хотим заняться. Причина создания данного материала такова: это одна из старейших проблем, с которой люди сталкиваются ежедневно.
Недавно была найдена удивительная серия писем от Bugra о том, как обнаружить посторонние данные с использованием преобразования Фурье, медиа-фильтрации, Гауссовских процессов и Марковской цепи Монте-Карло.
Я буду проверять небольшую часть результатов (преобразованием Фурье и медиа-фильтрацией), используя те же данные, что и в первой работе Filipe Fernandes «Dealing with spiky data».
Начиная с get_median_filtered(), мы имеем:
Неплохо. Тем не менее, он пропустил два нижних экстремума. Давайте перейдем к detect_outlier_position_by_fft():
Не уверен, что этот метод подходит лучше всего... Возможно, если бы сигнал не был загрязнен высокочастотным шумом, этот метод работал лучше.
Вдохновленный медиа-фильтром Бугра, попробуем фильтр rolling_median с использованием «pandas».
Знакомый Filipe Fernandes, который знает эти данные, бросил ему вызов использовать ту же технику на $v$. Вот она:
Обратите внимание, что мне пришлось уменьшить порог от 3-х до 2-х, чтобы получить их все.