7 padomi biosignālu iepriekšējai apstrādei: kā uzlabot jūsu dziļo mācību klasifikatora noturību

Kāpēc trokšņu un izkropļojumu novēršana ir tik svarīga

Parasti visus klasifikācijas uzdevumus (anomāliju noteikšana), kas saistīti ar biosignāliem, piemēram, elektrokardiogrāfiju (EKG), elektroencefalogrāfiju (EEG), elektromiogrāfiju (EMG) utt., Var uzskatīt par laika rindu atpazīšanas problēmu.

Saskaņā ar Karuša-Kuhna-Tuckera nosacījumiem ieejas signāliem jāatbilst nekustīguma kritērijiem. Vienkārši, ieejas signālu modeļiem jābūt tādiem pašiem vai līdzīgiem kā treniņu komplektā, nemainot signāla sadalījumu laika gaitā.

Parasti jebkuru biosignālu ierakstīšanu ietekmē daudz trokšņu. Šie kropļojumi modelī ievieš papildu dispersiju, jo tiek pārkāpti stacionāra kritēriji.

Šiem trokšņiem var būt atšķirīgs raksturs, un specifiskāku informāciju jūs varat atrast šeit un šeit. Šajos rakstos aprakstīti EKG trokšņi, bet tos var attiecināt arī uz jebkuriem biosignāliem.

Tas nozīmē, ka jūsu DL klasifikatora kopējo veiktspēju nosaka sākotnējās apstrādes metožu efektivitāte.

Apskatīsim, kā praktiski ir iespējams uzlabot dziļās mācīšanās modeļa noturīgumu ar priekšapstrādi.

1. 50% efektīvas digitālā signāla apstrādes ir efektīva analogā apstrāde

Jebkura digitālā signāla apstrāde sākas ar efektīvu analogā signāla kondicionēšanu. Visizplatītākā kļūda ir saistīta ar aliasing problēmu.

Saskaņā ar Nyquist teorēmu, ADC paraugu ņemšanas biežumam jābūt 2 reizes lielākam par ieejas signāla augstāko frekvenci. Jebkurš signāls neatbilst šiem kritēriju aizstājvārdiem galvenā frekvences domēnā un maskē noderīgu signālu kā papildu trokšņus:

Lai novērstu šo problēmu, pirms ADC tiek izmantots analogais zemfrekvences filtrs. Ļoti bieži aparatūras inženieri uzskata, ka šim nolūkam pietiek ar vienkāršu RC shēmu. Bet starp perfektu zemas caurlaidības filtru un reālo ir ļoti atšķirīgas frekvences reakcijās:

Sastāv no ideālā (kreisā) un reālā (kreisā) analogo filtru frekvences raksturlielumiem

Pārliecinieties, vai jūsu Intiialiasing LPF atbilst Nyquist frekvences slāpēšanas prasībām (Lai iegūtu papildinformāciju, es iesaku šo grāmatu):

  • 50 dB 8 bitu ADC
  • 62 biti 10 bitu ADC
  • 74 dB 12 bitu ADC
  • 98dB 16 bitu ADC

2. Apmācībai un prognozēšanai izmantojiet to pašu aparatūru

Dažādas ierīces nosaka dažādus signāla ierakstīšanas apstākļus, piemēram, nelineārus elektronikas traucējumus, atšķirīgu korpusu, sensoru atšķirīgu stāvokli utt.

Tā kā atšķirīgi apstākļi nosaka dažādus signālus, es ieteiktu treniņu modelim un pareģošanai izmantot to pašu aparatūru. Tas var būt iemesls papildu aizspriedumiem treniņu komplektā.

Ja nav iespēju, ir iespējams izmēģināt apmācības komplekta iepriekšēju sagrozīšanu, taču tam ir nepieciešamas papildu zināšanas aparatūras un trokšņu jomās.

3. Nyquist teorēma, lai paātrinātu apmācību

Kā aprakstīts iepriekš, Nyquist teorēma nosaka minimālo ADC izlases ātrumu, lai pēc konvertēšanas saglabātu 100% no analogā signāla informācijas. Tas nozīmē, ja signāla maksimālā frekvence ir zemāka par Fs / 2, tam ir dublēšana, ko var izmantot, lai paātrinātu dziļā tīkla apmācību.

Apsvērsim piemēru.

Ir ECG signāls ar paraugu ņemšanas frekvenci 125 Hz, ko nodrošina Physionet datu bāze (tika izmantots 30 Hz filtrs):

Padoms EKG priekšapstrādei: EKG signāli piešķir 0–100 Hz, bet var izmantot 30 Hz zemfrekvences filtru. Tas neskar P un T viļņus, bet samazina R pīķa amplitūdu par 20-30%. Tas nav kritiski, lai atklātu jebkādas novirzes un sirdsdarbības ātrumu.

Šī signāla jaudas spektra blīvums izskatās šādi:

Kā parādīts iepriekš, galvenā signāla enerģijas daļa ir koncentrēta diapazonā no 0 līdz 30 Hz. Dezimēsim to uz 80Hz un salīdzināsim ar oriģinālo signālu:

Decimācijas efekta demonstrēšana: signāls ar 80Hz (augšējo) un 125Hz (apakšējo) paraugu ņemšanas ātrumu

Sākotnējā forma tiek saglabāta, bet kopējais signāla garums tiek samazināts par 35% no 92 līdz 59 paraugiem. Tas ir vienāds ar 35% apmācības paātrinājumu, nezaudējot precizitāti.

Šīs pieejas efektivitātes pierādīšana ir parādīta manā Github projektā.

Svarīga piezīme: pārliecinieties, vai atšifrējums nezaudē papildu informāciju, ko varētu izmantot atpazīšanai. Eksperimentēšana ir vienīgais veids, kā pierādīt. Bet praktiski divu stack (CNN + LSTM) modeļu apmācība, izmantojot signālus, kuru paraugi ir mazāki, parasti ir ātrāka nekā viena modeļa apmācība ar oriģinālo paraugu ņemšanas ātrumu, nezaudējot veiktspēju.

4. Izprast prasības sistēmai

Pirms izmēģināt sarežģītākus filtrēšanas algoritmus, piemēram, Wavelette vai adaptīvo, es ieteiktu saprast, kādas funkcijas ir nepieciešamas atpazīšanai.

Šis ir piemērs.

Apsvērsim padziļinātas mācīšanās modeļa uzdevumu ir aritmijas noteikšana ejot. Parasti EKG staigāšanas dati satur zemas frekvences troksni:

Tikmēr skaidrs EKG signāls izskatās šādi:

P un T viļņi ir maskēti, un tas ir diezgan nebūtisks uzdevums. Pirms mēģināt izstrādāt sarežģītus algoritmus, apskatīsim, kas patiesībā ir aritmija:

Aritmijas noteikšanai pietiek tikai ar impulsu skaitīšanu, lai izveidotu efektīvu detektoru, taču acīmredzami zemas frekvences pamata klīstot, tiek ievietota papildu dažādība, pārkāpjot nekustīgumu.

Dažādas EKG daļas var piešķirt dažādus spektra apgabalus:

Vienkārši vienkāršs 5–15Hz frekvenču joslas filtrs atrisina jautājumu par ekstrakcijas R-pīķiem. Izmantojot šo filtru, tiek nomākti P un T viļņi (un ar to saistītās novirzes nav atpazīstamas), bet prasības sistēmai ir izpildītas.

Galvenais noteikums: jo vairāk algoritmu ir sarežģīts, jo mazāk izturīgs un tā ieviešanai nepieciešams vairāk resursu (gan laika, gan naudas). Vispirms jācenšas veikt vienkāršāko digitālo filtrēšanu.

5. Izstrādājot cauruļvadus, izmantojiet MiniMax principu

MiniMax princips ir lieliska stratēģija no spēles teorijas.

Galvenā biosignālu problēma ir signālu kvalitātes maiņa laika gaitā:

  • 1. gadījums. Augsta kvalitāte subjekta zemas aktivitātes laikā:
  • 2. gadījums. Slikta datu kvalitāte intensīvas pārvietošanās laikā. P un T ir maskēti, un to nevar izdalīt no trokšņa ar 1 kanālu sistēmu:

Pirmajā gadījumā P, QRS, T ir nosakāmi, tas nozīmē, ka var atpazīt patoloģiskus EKG modeļus (sirdslēkmi, priekškambaru mirdzēšanu utt.).

Otrajā gadījumā varēja atpazīt tikai dažus ar QRS saistītus traucējumus (aritmiju utt.).

Kā parādīts iepriekš, labākais veids, kā iegūt QRS, ir lietot 5–15Hz frekvenču joslas filtru, tikmēr tiek nomākti P un T.

Otrajam gadījumam tas nebūs kritiski, jo troksni maskē P un T, taču tas ierobežo iespējamo atklāto patoloģiju daudzumu, bet ievades laikā augstas kvalitātes dati.

Labākais veids, kā izvairīties no šīs problēmas, ir adaptīvā filtra lietošana, kas maina tā impulsa reakciju uz mainīgo vidi:

Ideja ir vienkārša:

  1. Izgatavojiet datu kvalitātes detektoru (lineārie detektori / CNN);
  2. Definējiet filtru komplektu;
  3. Izveidojiet noteikumu, kā mainīt impulsa reakciju atkarībā no ieejas signāla kvalitātes.

6. Gudrs veids, kā izmantot High-Pass filtrus

Parasti klīstot sākotnējā stāvoklī, nepieciešama augstfrekvences filtrēšana:

EEG ar sākotnējo troksni

Acīmredzamā pieeja apsver augstās caurlaides filtra izmantošanu. Galvenais ierobežojums tam ir ļoti zema izslēgšanas frekvence (0,05Hz) un augsta apturēšanas joslas slāpēšana (> 30dB). Lai izpildītu prasības, filtram jābūt ar augstu pasūtījuma pakāpi, tas nozīmē ilgu kavēšanos, kas var nebūt piemērota reāllaika lietojumiem.

Alternatīvs veids:

  • Atšifrēt ieejas signālu;
  • Izņem sākotnējo troksni, izmantojot zemfrekvences filtru ar izslēgšanas frekvenci 0,05 Hz;
  • Interpolēt signālu;
  • No sākotnējā signāla atņem bāzes līniju

Kodu piemērs (Matlab) ir pieejams šajā GitHub repozitorijā.

7. Iteratīvs eksperimentēšana

Tāpat kā jebkura datu zinātnes problēma, biosignālu klasificēšana ir atkārtots eksperimentāls process, jo dažādām filtrēšanas metodēm var būt piemērotas dažādas lietojumprogrammas.

Es apkopoju īsu filtrēšanas metožu sarakstu, sākot no visdrošākajiem līdz sliktākajiem.

PIEZĪME: Tas ir tikai mans personīgais viedoklis, tas nevar sakrist ar jūsu viedokli.

  • Digitālā filtrēšana (FIR, IIR). FIR ieteicams, jo nav grupas kavēšanās izkropļojumu. Tam ir mērena veiktspēja, ideāli nespecifiskiem apstākļiem, ļoti vienkārša ieviešanai un 100% izturīga.
  • Viļņu filtrēšana. Spēcīga veiktspēja, taču parametru atlases ziņā realizācija var būt sarežģīta.
  • Adaptīvā filtrēšana. Šī metode uzrāda sliktāku veiktspēju nekā Wavelet filtrēšana, taču to ir daudz vienkāršāk ieviest ar labu veiklību un veiktspēju.
  • Neatkarīgu komponentu analīze (ICA) / Neredzīgo avotu atdalīšana (BSS). Šeit pieejama ātrās ICA algoritma ieviešana populārākajās programmēšanas valodās. Es ieteiktu to izmēģināt pēdējo, jo:
  1. Tas darbojas tikai ar daudzkanālu konfigurācijām;
  2. Es uzskatu, ka šīs pieejas noturība ir ļoti vāja, jo konverģence nav garantēta;
  3. Tas prasa salīdzinoši vairāk aprēķināšanas resursu, iespējams, nav piemērots reāllaika lietojumprogrammām.

___________________________________________________________________

Vai raksts bija noderīgs? Lūdzu, atstājiet savas atsauksmes par rakstu, izmantojot šo saiti

___________________________________________________________________

Dmitrijs Šubins, pētniecības un attīstības inženieris, medicīnas ierīces

Toronto, Kanādā

Kontaktinformācija:

E-pasts: shubin.dmitrii.n@gmail.com

LinkedIn, GitHub