Подходы к повышению помехоустойчивости нейросети для CV-классификации объектов по кратковременным акустическим сигналам

Автор статьи, к.т.н. Соловьев Аркадий Павлович
Статья является развитием первой статьи [1] автора, написанной в рамках работы в лаборатории Университета искусственного интеллекта (УИИ).

В первой статье рассмотрены вопросы создания нейросетей для классификации объектов по единичным кратковременным (длительностью ~ 50 мс) акустическим или вибрационным сигналам. На примере экспериментов с распознаванием 15 экземпляров наручных кварцевых часов (5, из которых были разных фирм, а 10 – одной фирмы и одной модели) по одному акустическому сигналу часов – «тику». Было показано, что возможно создание нейросети для решения этой задачи. Созданная и обученная нейросеть безошибочно распознавала каждый из 15 объектов (экземпляров часов) по единичному акустическому сигналу.

Было предположено, что такая высокая надежность распознавания может являться признаком потенциальной устойчивости нейросети к воздействию помех.

В данной статье предпринята попытка проверить этот тезис и определить пути повышения надежности работы нейросети в условиях воздействия некоторых видов помех на входной сигнал, по которому осуществляется идентификация объектов.

В качестве внешних воздействий рассмотрены три вида помех. Эти помехи не исчерпывают всех возможных видов, но являются типовыми для акустических и вибрационных сигналов.

Распознавание объектов проводилось с помощью CV-методов. В частности, импульс акустического сигнала длительностью ~ 50 мс (один тик часов) регистрировался с помощью виброметра и записывался в форме акустического WAV-файла (рисунок 1).

Рисунок 1 – акустический импульс тика часов во временном представлении

С помощью быстрого преобразования Фурье (БПФ) этот импульс преобразовывался в спектрограмму – временнýю функцию спектральной плотности мощности сигнала от времени. Спектрограмма представлена в виде тепловой карты: по оси абсцисс откладывается время, по оси ординат – частота, спектральная плотность мощности сигнала отображается цветом. Тепловая карта как изображение (картинка) приводилась к форме, являющейся стандартом де факто для подачи на вход сверточной нейросети – 224 × 224 пикселя с глубиной цвета (RGB) 3 байта (рисунок 2).

Рисунок 2 – спектрограмма одиночного импульса сигнала (тика)

Датасет состоял из ~ 720 тиков для каждого класса (экземпляра часов). Общий размер датасета составил ~ 14 000 примеров.

Создание и обучение нейросетей проводилось с использованием библиотеки AutoKeras в среде CoLab с применением видеокарт Google T4 GPU.

При обучении на вход сверточной нейросети подавались изображения спектрограмм тиков. Обучение проводилось на обучающей выборке с проверкой на валидационной выборке. Конечная оценка качества обучения проводилась на тестовой выборке, которую сеть в процессе обучения не видела.

По результатам обучения сеть правильно (без ошибок) соотнесла все спектрограммы тиков из тестовой выборки (1778 тиков) с 15 экземплярами часов, которым они принадлежали.

Влияние помех

В качестве первой помехи, которая может воздействовать на входной сигнал, была выбрана линейная помеха сенсоров в виде черных и белых точек случайным образом с равномерным законом распределения по площади наносившихся на изображение спектрограмм тиков.

На рисунке 3 представлены исходная спектрограмма и спектрограммы с помехами.
Шум – 0 %
Ошибки – 0
Вероятность P = 1,00000
Шум – 5 %
Ошибки – 10
Вероятность P = 0, 99438
Шум – 10 %
Ошибки – 669
Вероятность P = 0, 62373
Рисунок 3 – исходное и зашумленные изображения спектрограмм при 5% и 10% шуме сенсоров
Зашумленные изображения подавались на вход нейросети, обученной на сигнале без помех. Из 1778 тиков тестовой выборки при 5 % шуме было получено 10 ошибок сети, при 10 % шуме было получено 669 ошибок. Соответственно расчетная вероятность правильного ответа нейросети составила P = 0, 99438 и P = 0, 62373.

Если первое значение вероятности при 5 % шуме можно признать приемлемым, то при 10 % шуме сеть уже фактически неработоспособна.

На рисунке 4 приведена матрица ошибок при подаче на вход нейросети датасета с 10 % шумом.

Рисунок 4 – матрица ошибок при подаче на вход нейросети, обученой на незашумленном сигнале, датасета с 10 % шумом

Таблица 1 – результат обучения нейросети на датасете с 10 % шумом
Trial 1 Complete [00h 04m 20s]
val_loss: 0.005908532068133354

Best val_loss So Far: 0.005908532068133354
Total elapsed time: 00h 04m 20s
Epoch 1/5
206/206 ━━ 23s 100ms/step - accuracy: 0.1012 - loss: 15.5373   - val_accuracy: 0.1368 - val_loss: 2.6999
Epoch 2/5
206/206 ━━ 18s 88ms/step - accuracy: 0.7814 - loss: 0.9693     - val_accuracy: 1.0000 - val_loss: 4.5926e-04
Epoch 3/5
206/206 ━━ 18s 86ms/step - accuracy: 1.0000 - loss: 5.6782e-04 - val_accuracy: 1.0000 - val_loss: 1.7370e-04
Epoch 4/5
206/206 ━━ 20s 85ms/step - accuracy: 0.9999 - loss: 5.3684e-04 - val_accuracy: 1.0000 - val_loss: 6.3437e-05
Epoch 5/5
206/206 ━━ 18s 87ms/step - accuracy: 1.0000 - loss: 1.4721e-04 - val_accuracy: 1.0000 - val_loss: 2.7989e-05

Точность распознавания на тестовой выборке
56/56 ━━━━━━━━━━━━━━━━━━━━ 366s 6s/step - accuracy: 1.0000 - loss: 9.9376e-04
Test accuracy: 1.00
В таблице 2 приведена модель обученной нейросети.
Таблица 2 – модель нейросети, обученной на датасете с 10 % шумом
Model: "functional"
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━┓
┃ Layer (type)                         ┃ Output Shape                ┃         Param # ┃
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━┩
│ input_layer (InputLayer)             │ (None, 224, 224, 3)         │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ cast_to_float32 (CastToFloat32)      │ (None, 224, 224, 3)         │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ normalization (Normalization)        │ (None, 224, 224, 3)         │               7 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ conv2d (Conv2D)                      │ (None, 222, 222, 32)        │             896 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ conv2d_1 (Conv2D)                    │ (None, 220, 220, 64)        │          18,496 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ max_pooling2d (MaxPooling2D)         │ (None, 110, 110, 64)        │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ dropout (Dropout)                    │ (None, 110, 110, 64)        │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ flatten (Flatten)                    │ (None, 774400)              │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ dropout_1 (Dropout)                  │ (None, 774400)              │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ dense (Dense)                        │ (None, 15)                  │      11,616,015 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ classification_head_1 (Softmax)      │ (None, 15)                  │               0 │
└──────────────────────────────────────┴─────────────────────────────┴─────────────────┘
 Total params: 34,906,230 (133.16 MB)
 Trainable params: 11,635,407 (44.39 MB)
 Non-trainable params: 7 (32.00 B)
 Optimizer params: 23,270,816 (88.77 MB)
При подаче на обученную нейросеть датасета с 10 % шумом получена следующая матрица ошибок (рисунок 5). Все 1778 примеров распознаны без ошибок.

Рисунок 5 – матрица ошибок нейросети, обученной на датасете с 10 % шумом при подаче на вход датасета с 10 % шумом

Расчетная вероятность распознавания сигнала возросла с P = 0, 62373 до Р = 1, 00000.

При подаче на вход нейросети, обученной на датасете с 10 % шумом, датасета чистого сигнала (без шума) получен абсолютный результат – сеть безошибочно распознала все 1778 примеров из тестовой выборки. На рисунке 6 приведена матрица ошибок.

Рисунок 6 – матрица ошибок при подаче на вход нейросети, обученной на датасете с 10 % шумом, чистого сигнала – датасета без шума

Такой результат является следствием того, что нейросеть выявила в датасете более устойчивые признаки сигнала. Эти признаки изначально были в исходном датасете, поэтому нейросеть одинаково хорошо распознала и сигнал с 10 % шумом и чистый сигнал.

Для линейной помехи этот результат вполне закономерен.

Более интересным является вопрос, как поведет себя нейросеть при воздействии на входной сигнал нелинейной помехи.

В качестве нелинейной помехи выбрано искажение сигнала при усилении его на 45 дБ и превышение этим сигналом динамического диапазона тракта (выхода амплитуды сигнала за пределы линейного участка нагрузочной характеристики тракта).

На рисунке 7 приведен исходный сигнал тика без искажений во временнóм представлении.

Рисунок 7 – сигнал тика без искажений

На рисунке 8 приведен искаженный сигнал, усиленный на 45 дБ во временнóм представлении.

Рисунок 8 – искаженный сигнал тика, усиленный на 45 дБ

С целью удобства сравнения сигналы приведены к близкому масштабу.

Сравнение сигналов на рисунках 7 и 8 показывает, что исходный и искаженный сигналы во временнóм представлении вряд ли можно назвать похожими.

При преобразовании сигналов в спектрограммы (рисунок 9) видно, что, несмотря на очевидные различия, можно найти и сходные признаки сигналов, но их немного.
Спектрограмма неискаженного сигнала
Спектрограмма сигнала с искажениями

Рисунок 9 – спектрограммы исходного неискаженного сигнала и сигнала с нелинейными искажениями

При подаче на вход нейросети, обученной на неискаженном сигнале искаженного сигнала правильно распознаны только 206 примеров из 1778 сигналов тиков тестовой выборки. Расчетная вероятность правильного распознавания сигнала составила величину P = 206/1778 = 0,11586.

Сеть при таком значении вероятности практически неработоспособна.

На рисунке 10 приведена матрица ошибок, полученная при подаче на вход нейросети, обученной на чистом сигнале, сигнала с искажениями за счет усиления на 45 дБ.

Рисунок 10 – матрица ошибок, полученная при подаче на вход нейросети, обученной на чистом сигнале, сигнала с искажениями за счет усиления на 45 дБ

После этого нейросеть была обучена на датасете с усиленным на 45 дБ и искаженным сигналом. Обучение проведено на 5 эпохах. В таблице 3 представлены результаты обучения.
Таблица 3 – результаты обучения нейросети на датасете с искаженным за счет усиления на 45 дБ сигнале
Best val_loss So Far: 1.465198329242412e-05
Total elapsed time: 02h 02m 36s
Epoch 1/5
206/206 ━ 1446s 7s/step - accuracy: 0.8131 - loss: 5.3641     - val_accuracy: 1.0000 - val_loss: 2.0376e-04
Epoch 2/5
206/206 ━ 1472s 7s/step - accuracy: 1.0000 - loss: 5.6673e-05 - val_accuracy: 1.0000 - val_loss: 7.3024e-05
Epoch 3/5
206/206 ━ 1468s 7s/step - accuracy: 1.0000 - loss: 2.6537e-05 - val_accuracy: 1.0000 - val_loss: 6.4527e-05
Epoch 4/5
206/206 ━ 1447s 7s/step - accuracy: 1.0000 - loss: 1.0302e-05 - val_accuracy: 1.0000 - val_loss: 4.5574e-05
Epoch 5/5
206/206 ━ 1459s 7s/step - accuracy: 1.0000 - loss: 7.6202e-06 - val_accuracy: 1.0000 - val_loss: 4.3176e-05
Точность распознавания на тестовой выборке
56/56 ━━━━━━━━ 287s 5s/step - accuracy: 1.0000 - loss: 1.5448e-04
В результате получена нейросеть (таблица 4)
Таблица 4 – модель нейросети, обученной на искаженном из-за усиления сигнала на 45 дБ
Model: "functional"
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━┓
┃ Layer (type)                         ┃ Output Shape                ┃         Param # ┃
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━┩
│ input_layer (InputLayer)             │ (None, 224, 224, 3)         │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ cast_to_float32 (CastToFloat32)      │ (None, 224, 224, 3)         │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ normalization (Normalization)        │ (None, 224, 224, 3)         │               7 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ conv2d (Conv2D)                      │ (None, 222, 222, 32)        │             896 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ conv2d_1 (Conv2D)                    │ (None, 220, 220, 64)        │          18,496 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ max_pooling2d (MaxPooling2D)         │ (None, 110, 110, 64)        │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ dropout (Dropout)                    │ (None, 110, 110, 64)        │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ flatten (Flatten)                    │ (None, 774400)              │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ dropout_1 (Dropout)                  │ (None, 774400)              │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ dense (Dense)                        │ (None, 15)                  │      11,616,015 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ classification_head_1 (Softmax)      │ (None, 15)                  │               0 │
└──────────────────────────────────────┴─────────────────────────────┴─────────────────┘
 Total params: 11,635,414 (44.39 MB)
 Trainable params: 11,635,407 (44.39 MB)
 Non-trainable params: 7 (32.00 B)
При подаче на вход обученной на датасете с искаженным сигналом нейросети тестовой выборки с искаженным сигналом все примеры распознаны без ошибок – матрица ошибок приведена на рисунке 11.

Рисунок 11 – матрица ошибок, полученная при подаче на нейросеть, обученной на искаженном сигнале, тестовой выборки с искаженным сигналом

При подаче на нейросеть, обученной на датасете с искаженным из-за перегрузки сигналом, чистого сигнала получено всего две ошибки (рисунок 12).

Рисунок 12 – матрица ошибок, полученная при подаче на нейросеть, обученную на искаженном сигнале, тестовой выборки с неискаженным сигналом

Расчетная вероятность составила величину P = 1776/1778 = 0,99888

Вторая линейная помеха – реверберация сигнала, полученная в программе Adobe Audition. На рисунке 13 приведен чистый неискаженный сигнал во временном представлении, а на рисунке 14 искаженный за счет реверберации сигнал.

Рисунок 13 – чистый неискаженный сигнал во временном представлении

Рисунок 14 – сигнал искаженный реверберацией

Сигналы на рисунках 13 и 14 приведены в одном масштабе.

Соответствующие этим сигналам спектрограммы приведены на рисунке 15.
Спектрограмма чистого сигнала
Спектрограмм сигнала с реверберацией

Рисунок 15 – спектрограммы чистого сигнала и сигнала с реверберацией

Спектрограммы чистого сигнала и сигнала с реверберацией визуально имеют определенное сходство.

При подаче на вход нейросети, обученной на чистом сигнале, датасета сигнала с реверберацией получена всего одна ошибка. Расчетная вероятность распознавания составила величину P = 1776/1777 = 0,99944. Матрица ошибок приведена на рисунке 16.

Рисунок 16 – матрица ошибок, полученная при подаче на вход тестовой выборки с искаженным реверберацией сигналом, на нейросеть, обученную на чистом, неискаженном сигнале

После обучение нейросети на искаженном из-за реверберации датасете на 5 эпохах (таблица 5) получена нейросеть, приведенная в таблице 6.
Таблица 5 – обучение нейросети на датасете с сигналом, искаженным реверберацией
Trial 1 Complete [00h 03m 34s]
val_loss: 1.642474853724707e-05

Best val_loss So Far: 1.642474853724707e-05
Total elapsed time: 00h 03m 34s
Epoch 1/5
206/206 ━ 23s 98ms/step - accuracy: 0.8390 - loss: 3.5241     - val_accuracy: 1.0000 - val_loss: 2.1328e-04
Epoch 2/5
206/206 ━ 17s 84ms/step - accuracy: 0.9999 - loss: 4.8699e-04 - val_accuracy: 1.0000 - val_loss: 3.8922e-05
Epoch 3/5
206/206 ━ 17s 84ms/step - accuracy: 1.0000 - loss: 2.1310e-05 - val_accuracy: 1.0000 - val_loss: 1.7235e-05
Epoch 4/5
206/206 ━ 17s 84ms/step - accuracy: 1.0000 - loss: 7.7517e-06 - val_accuracy: 1.0000 - val_loss: 1.1968e-05
Epoch 5/5
206/206 ━ 17s 85ms/step - accuracy: 1.0000 - loss: 4.8597e-06 - val_accuracy: 1.0000 - val_loss: 9.0668e-06
56/56 ━━━━━━━━━━━━━ 321s 6s/step - accuracy: 1.0000 - loss: 2.1892e-05
Test accuracy: 1.00
Таблица 6 – нейросеть, обученная на датасете с сигналом, искаженным реверберацией
Model: "functional"
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━━━━┓
┃ Layer (type)                         ┃ Output Shape                ┃         Param # ┃
┡━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━━━━┩
│ input_layer (InputLayer)             │ (None, 224, 224, 3)         │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ cast_to_float32 (CastToFloat32)      │ (None, 224, 224, 3)         │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ normalization (Normalization)        │ (None, 224, 224, 3)         │               7 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ conv2d (Conv2D)                      │ (None, 222, 222, 32)        │             896 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ conv2d_1 (Conv2D)                    │ (None, 220, 220, 64)        │          18,496 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ max_pooling2d (MaxPooling2D)         │ (None, 110, 110, 64)        │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ dropout (Dropout)                    │ (None, 110, 110, 64)        │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ flatten (Flatten)                    │ (None, 774400)              │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ dropout_1 (Dropout)                  │ (None, 774400)              │               0 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ dense (Dense)                        │ (None, 15)                  │      11,616,015 │
├──────────────────────────────────────┼─────────────────────────────┼─────────────────┤
│ classification_head_1 (Softmax)      │ (None, 15)                  │               0 │
└──────────────────────────────────────┴─────────────────────────────┴─────────────────┘
 Total params: 11,635,414 (44.39 MB)
 Trainable params: 11,635,407 (44.39 MB)
 Non-trainable params: 7 (32.00 B)
При подаче на вход нейросети, обученной на датасете с искаженным реверберацией сигнале, тестовой выборки с сигналом с реверберацией получена расчетная вероятность равная 1. Матрица ошибок приведена на рисунке 17.

Рисунок 17 – матрица ошибок нейросети, обученной на датасете, с искаженным реверберацией сигнале, при подаче на вход тестовой выборки с искаженным реверберацией сигналом

При подаче на вход нейросети, обученной на датасете с искаженным реверберацией сигнале, тестовой выбоки с чистым сигналом получено всего 6 ошибок. Расчетная вероятность составила величину P = 1771/1777 = 0, 99622. Матрица ошибок приведена на рисунке 18.

Рисунок 18 – матрица ошибок при подаче на вход нейросети, обученной на датасете с искаженным реверберацией сигнале, тестовой выборки с чистым сигналом

Обсуждение результатов

Исследованию подвергалась нейросеть, обученная на чистом неискаженном и незашумленном сигнале с вероятностью правильного распознавания сигнала равной 1.

В результате проведенных экспериментов показано, что при подаче на вход нейросети, обученной на чистом сигнале, сигнала с линейной помехой – равномерно распределенного по 10 % площади спектрограммы шума в виде белых и черных точек (пикселей), сеть становится неработоспособной (расчетная вероятность правильного распознавания сигналов Р = 0, 62373).

После обучения сети на датасете с зашумленным сигналом сеть правильно распознала все 1778 примеров тестовой выборки с зашумленным сигналом (расчетная вероятность распознавания равна 1).

Такой результат в принципе ожидаем, так как сеть при обучении на датасете с зашумленным сигналом выделила более устойчивые признаки. А, учитывая то, что эти признаки изначально уже присутствовали в исходном незашумленном сигнале, они были правильно распознаны и на зашумленном датасете.

При нелинейном искажении сигнала из-за превышения сигналом линейного участка нагрузочной характеристики тракта сигналы значительно различаются.

В процессе обучения нейросети на датасете с искаженным сигналом нейросеть выделяет устойчивые признаки искаженного сигнала и после обучения правильно распознает все искаженные сигналы. Если сигналы обладают индивидуальными признаками, то сети не важно, на каком датасете она обучается с искажениями или без них.

То, что сеть, обученная на искаженном сигнале, правильно распознала и неискаженные сигналы может свидетельствовать о том, что в качестве устойчивых признаков сигнала были выбраны те значения амплитуды, которые находились на линейном участке нагрузочной характеристики тракта. Изменение амплитуды сигнала в пределах линейного участка нагрузочной характеристики тракта не оказывает большого влияния на форму спектрограммы.
Значения амплитуды, вышедшие за пределы линейного участка носили, скорее всего, случайных характер, не повторялись от примера к примеру и не выбирались нейросетью в качестве устойчивого признака сигнала.

При искажениях сигнала с помощью реверберации происходит суммирование самого сигнала с его уменьшенной и сдвинутой на небольшое расстояние на временной оси копией. Амплитуда сигнала с реверберацией на рисунке 14 несколько превышает амплитуду неискаженного сигнала на рисунке 13. Но поскольку сдвинут и просуммирован исходный сигнал, то спектрограмма сигнала с реверберацией изменилась незначительно. Ввиду похожести спектрограмм нейросетью хорошо распознался и исходный датасет с неискаженным сигналом.

В целом, для того, чтобы довести распознавание неискаженного сигнала нейросетью, обученной на искаженном сигнале до вероятности равной 1, по-видимому, можно добавить в датасет некоторое количество примеров с неискаженным сигналом.

Проведенные исследования имеют оценочный характер. В целом в данной работе показана принципиальная возможность повышения вероятности распознавания датасета с искаженным сигналом путем обучения нейросети на датасете с искаженным сигналом. При решении конкретных задач с определенными помехами необходимо проводить более детальное исследование.

Полученные результаты, возможно, могут быть использованы при решении задачи программной транскрибации текстов на зашумленном и искаженном речевом сигнале. Такая задача многократно сложнее, но, по мнению автора, определенные предпосылки к движению по этому направлению есть. Может быть, такая работа станет темой следующего исследования.

Выводы

  1. Зашумление и искажение сигнала снижает вероятность распознавания сигналов нейросетью, обученной на чистом сигнале, вплоть до приведения сети в полную неработоспособность.
  2. Обучение нейросети на зашумленном и искаженном сигнале позволяет повысить вероятность правильного распознавания сигналов сети вплоть до абсолютного значения равного 1.
  3. Нейросеть, обученная на зашумленном и искаженном сигнале, сохраняет возможность распознавать чистый сигнал с высокой степенью вероятности.
  4. Полученные результаты исследований, возможно, будут полезны при решении задачи программной транскрибации зашумленного и искаженного речевого сигнала.

Список литературы

  1. Соловьев Аркадий Павлович «CV-классификация объектов по кратковременным акустическим сигналам с помощью нейросетей на примере часовых механизмов» (https://lab.neural-university.ru/cv-klassifikaciya-obektov)
Made on
Tilda