Tuesday 7 November 2017

Moving Average Outlier Erkennung


Die Autoren untersuchen, wie Zyklus in Galileo-Trägerphasenmessungen durch vier Frequenzen effektiver erkannt werden kann. INNOVATIONSINSIGHTS mit Richard Langley MEHR SATELLITEN ODER MEHR SIGNALEN Das war die Frage an die Delegierten bei GNSS Election 08, die anregende und amüsante Unterhaltung, die bei der GPS World Leadership Dinner in Verbindung mit dem Institut für Navigations-Treffen in Savannah im September 2008 stattfand. Während der Debatte vor der Wahl stellte die Satellitenpartei fest, dass die GNSS-User-Community besser von mehr Satelliten als mehr Signale bedient werden würde. Sie behaupteten, dass mehr Satelliten (mehr als die in der operativen GPS-Konstellation) eine kontinuierlichere und zuverlässigere Positionierung in Städten, Gebirgsgebieten und anderen schwierigen Umgebungen ermöglichen würden und dass die älteren GPS-Signale ausreichend waren. Greg Turetsky, einer ihrer Kandidaten, stellte fest, dass ich aus ökonomischer Sicht behaupten würde, dass es für unsere Konstituenten weitaus kostengünstiger ist, mehr von denselben Satelliten zu haben, um ihnen mehr von denselben Diensten zu geben, die sie heute in mehr Bereichen genießen , Anstatt neue Dinge zu schaffen, für die sie keinen Gebrauch haben. Die Signalpartei hingegen befürwortete für mehr Signale mit Empfängern, die in der Lage sind, sie zu verwenden, um hohe Genauigkeiten für ein breites Spektrum von GNSS-Anwendungen zu liefern. Signal Party Kandidat Javad Ashjaee dachte, Wir sind die Partei der Bau von Straßen, die Erzeugung von genauen Karten, wächst Ihr Essen durch die Automatisierung der Landwirtschaft, die Synchronisierung Ihrer Kraftwerke. Wir arbeiten sogar an der automatischen Landung von Flugzeugen, um den Luftraum effizienter zu nutzen. Obgleich umstritten, wurde die Wahl von der Satellitenpartei gewonnen, 62 Stimmen bei 46. Aber klar, beide Seiten boten nützliche Fortschritte an die GNSS-Benutzergemeinschaft, also warum nicht zusammenarbeiten, die Parteien in eine Allianz eintreten und beide Satelliten anbieten Und mehr Signale schnell vorwärts bis 2016. Die Allianz ist gekommen und wir haben das Beste aus beiden Welten. Wir haben zwei komplette GNSS-Konstellationen, GPS und GLONASS, mit zwei weiteren, Galileo und BeiDou, auf dem Weg zur Fertigstellung in den nächsten Jahren. Wir haben auch regionale Systeme, die entweder einen unabhängigen lokalen Positionierungsdienst anbieten oder GPS mit NavIC (auch bekannt als das indische regionale Satellitennavigationssystem) bzw. QZSS verstärken. Ganz zu schweigen von einer wachsenden Anzahl von satellitengestützten Satelliten-Satelliten. Als ich den Almanach für die August-Ausgabe kompilierte, gab es über 100 GNSS-Satelliten, die Signale an Benutzer senden. Und nicht nur mehr Signale von mehr Satelliten, sondern technologisch fortgeschrittene Signale auf mehr Frequenzen. Die Fülle von Signalen, die jetzt von GNSS-Satelliten übertragen werden, führt bereits zu weiteren Fortschritten in der Positionierung, Navigation und Timingeven, bevor vollständige Konstellationen, die diese Signale übertragen, vorhanden sind. Ein guter Fall ist Galileos Open Service, der in den E1- und E5-Bands übertragen wird. Eine modifizierte Version der Binär-Offset-Träger (BOC) - Modulation, genannt Alternative BOC oder AltBOC, wird verwendet, um das Breitband-E5-Signal zu erzeugen. Seine Struktur ist so, dass ein Empfänger auf nur den niederfrequenten Teil des Signals, der auf 1176.450 MHz (E5a) zentriert ist, nur die obere Frequenzteil auf 1207.140 MHz (E5b) zentriert ist, wobei das gesamte AltBOC-Signal auf 1191.795 MHz zentriert ist (E5ab), oder jede Kombination von diesen einschließlich aller drei. Mit allen drei zusammen mit dem E1-Signal versorgen wir uns mit einer Vierfrequenz-Positionierfunktion. Was ist der Vorteil der Verwendung von vier Frequenzen Es gibt mehrere, aber in diesem Monat Spalte, ein kürzlich abgestufter preisgekrönten belgischen Studenten und ihre Vorgesetzten sagen uns, wie Zyklus rutscht in Galileo Träger-Phase-Messungen können effektiver und effizienter mit vier Frequenzen erkannt werden. Die Verfügbarkeit der im Galileo GNSS Open Service angebotenen Daten auf vier Trägerfrequenzen eröffnet den Weg zu neuen Multi-Frequenz-Lösungen für zivile Anwender. In der Forschung in diesem Artikel berichtet, konzentrierten wir uns auf eine der Konsequenzen der Signalverfolgung Verlust, das Auftreten von Zyklus-Slips, und wie die Verwendung der vier Frequenzen können bei ihrer Erkennung helfen. Die Cycle-Slip-Erkennung ist ein zentrales Thema für hochpräzise Positionieranwendungen. Alle Benutzer, die eine präzise und zuverlässige Position benötigen, müssen sich der potenziellen Präsenz von Zyklus-Slips in ihren Daten bewusst sein, da sie die Datenqualität beeinträchtigen. Herkömmlicherweise wurden zwei Trägerfrequenzen zum Positionieren verwendet, beispielsweise die GPS L1 und L2 Frequenzen. In jüngster Zeit hat die Drei-Träger-Positionierung eine verbesserte Präzision und Genauigkeit ermöglicht. Obwohl die Verwendung einer dritten Trägerfrequenz erlaubt hat, das Zyklus-Schlupf-Erkennungsproblem teilweise zu lösen, fehlen in einigen Aspekten noch bestehende Verfahren. Eine der heutigen Hauptaufgaben ist die Cycle-Slip-Erkennung unter hoher Ionosphärenaktivität, weshalb wir uns auf diese konkrete Fallstudie konzentrierten. Und da die Verwendung von drei Frequenzen dazu beiträgt, eine zuverlässige Zyklus-Slip-Erkennung zu verbessern, könnte die Verwendung einer zusätzlichen vierten Frequenz die Erfassungsfähigkeit nicht weiter verbessern Da Galileo vier Frequenzen in seinem Open Service liefert, dachten wir, dass wir den Rutschen verbessern können Erkennungsalgorithmus Leistung noch einmal. Rahmen. In diesem Artikel wird ein neuer Quad-Frequenz-Zyklus-Slip-Erkennungsalgorithmus scheinbar eingeführt, ein unerforschter Track in der Literatur bis jetzt. Der Algorithmus verwendet undifferenzierte Trägerphasenbeobachtungen von einem statischen Empfänger mit einer Station. Zuerst für die Nachbearbeitung entwickelt, wurde der Algorithmus auch an Echtzeit-Anwendungen angepasst. Dieser Algorithmus zielt darauf ab, den Cycle-Slip-Nachweis unter hoher Ionosphärenaktivität zu verbessern. CYCLE SLIPS Obwohl Code - (Pseudorange-) Messungen üblicherweise für die Standardpositionierung verwendet werden, muss jede präzise Positionieranwendung aufgrund ihrer besseren Qualität Trägerphasenmessungen verwenden. Leider sind die letzteren potentiell Gegenstand von Zyklus-Slips, wodurch eine konstante Vorspannung in Daten und, wenn unentdeckt und unkorrigiert, Auswirkungen auf die abgeleitete Positionierung. Carrier-Phase-Messungen werden durch Beobachten der Beat-Phase, dh der Differenz zwischen dem empfangenen Träger aus dem Satelliten und einer vom Empfänger erzeugten Replik durchgeführt. Bei der ersten Beobachtungs-Epoche kann nur der Bruchteil dieser Schlagphase gemessen werden, aber der ganzzahlige Versatz zwischen dem Satellitensignal und dem Empfänger-Replikat ist unbekannt. Diese ganzzahlige Anzahl von Zyklen wird als Anfangsphasenmehrdeutigkeit bezeichnet und bleibt während des Beobachtungszeitraums konstant. Die zwischen dem Satelliten i und einem Empfänger p) beobachtete Trägerphase in Metern ist durch die folgende Gleichung gegeben: wobei der Index f k den Termabhängigkeit von der Frequenz und der beobachteten Trägerphase angibt. G ist der geometrische Term (dh eine Funktion des geometrischen Bereichs zwischen dem Empfänger und dem verfolgten Satelliten, der troposphärischen Verzögerung und der Satelliten - und Empfängertaktvorspannung), I ist die ionosphärische Verzögerung, M ist der Multipfadfehler, HW steht für Satelliten-und Empfänger Hardware Verzögerungen, c ist die Vakuumgeschwindigkeit des Lichts, N ist die Anfangsphase Mehrdeutigkeit, und ist die zufällige Fehler (auch als Phasenrauschen). Bei der ersten Beobachtungs-Epoche wird ein Integer-Zähler initialisiert, und wenn das Tracking fortgesetzt wird, wird es um einen Zyklus inkrementiert, wann immer die Beat-Phase von 2 auf 0 wechselt. Wenn der Empfänger sogar kurz die Spur auf dem Signal verliert, wird das Zählen unterbrochen Und eine ganzzahlige Anzahl von Zyklen geht verloren. Dieser Verlust kann aus verschiedenen Ursachen resultieren (Signalobstruktion, schnelle Veränderung der Trägerphase beobachtbar und so weiter). In der Beobachtungsgleichung erscheint der Zyklusschlupf als eine Änderung des Wertes der Anfangsphasenmehrdeutigkeit. Somit beinhaltet ein Ein-Zyklus-Schlupf eine Phasenmessverschiebung von etwa 20 Zentimetern (gleich der Trägerwellenlänge), abhängig von der betroffenen Trägerfrequenz. Die Zyklus-Slip-Größe kann ein beliebiger Wert von ein bis tausend Zyklen sein. Ionosphärenverzögerung ist der einzige Begriff, der mit einem kleinen Zyklus verwechselt werden könnte. In der Tat, während eines ionosphärischen Störungsereignisses, erreicht diese Verzögerungsvariation zwischen zwei Beobachtungs-Epochen (beabstandet in 30-Sekunden-Intervallen, sagen) oft 20 Zentimeter (die Größe eines Ein-Zyklus-Schlupfs in der Phasenmessung) oder mehr. Die Ionosphärenaktivität hat zwei Hauptfolgen. Erstens können, wie bereits erwähnt, Slips in Beobachtungsgeräuschen (einschließlich ionosphärischer Variabilität) versteckt und nicht erkannt werden. Zweitens kann die empfangene Signalvariabilität einen Verlust der Verriegelung verursachen und somit einen Zyklus auslösen. Es können viele verschiedene Konfigurationen auftreten, wenn das Signal verloren geht. Die Signalverfolgung kann auf einem einzigen Träger unterbrochen werden, was zu einem isolierten Zyklusschlupf (ICS) oder gleichzeitig auf mehreren Trägern führt. Im zweiten Fall kann die Schlupfgröße auf den verschiedenen Trägern gleich sein (gleichzeitige Zyklusscheine gleicher Größe oder SCS-SM) oder unterschiedliche (gleichzeitige Zyklusscheine unterschiedlicher Größen oder SCS-DM). Erkennungsgeschichte. Der erste Zyklus-Slip-Erkennungsalgorithmus mit undifferenzierten Beobachtungen, Turbo Edit, wurde 1990 von Geoff Blewitt entwickelt. Code - und Phasenmessungen aus zwei Trägerfrequenzen werden verwendet. Es wurde in vielen Datenvorverarbeitungsprogrammen wie GIPSY-OASIS II, PANDA und Berner umgesetzt. Der Turbo Edit-Algorithmus wurde mehrfach erweitert. In seiner neuesten Version wurde es angepasst, um Zyklus-Slips unter hoher Ionosphären-Aktivität zu erkennen, aber es ist immer noch eine Dual-Frequenz-Technik. Die Verfügbarkeit einer dritten, gleichzeitigen Signalfrequenz erlaubt die Entwicklung neuer Kombinationen von Observablen. Eine geräuscharme Phase-only-Kombination, die sowohl geometrische als auch ionospherische Begriffe erster Ordnung eliminiert, wurde von Andrew Simsky entwickelt und auf die Zyklus-Slip-Detektion angewendet. Es wurden auch Studien durchgeführt, um die besten Kombinationen zu bestimmen, die bei der Tripel-Frequenz-Positionierung verwendet werden sollen, und anschließend in Zyklus-Slip-Erkennungs - und Korrekturalgorithmen. Diese Algorithmen verwenden sowohl Code - als auch Phasenmessungen sowie eine Triple-Frequenz-Methode, die von Maria Clara de Lacy und Kollegen entwickelt wurde. Sorge über Zyklus-Slips und die Beziehung mit der ionosphärischen Signatur in Daten ist Trending. Im Jahr 2011 veröffentlichte Zhizhao Liu ein Papier über die Verwendung der Rate der Änderung der gesamten elektronischen Inhalte, um Zyklus-Slips zu erkennen. Auf der anderen Seite, nach dem Studium der ionosphärischen Zyklus-Slips, schlossen Simon Banville und Richard Langley in einem Papier, das 2013 veröffentlicht wurde, dass das erhöhte Messgeräusch, das mit einer aktiven Ionosphäre verbunden ist, einen Korrekturzyklus auslöst, eine fortwährende Herausforderung, die weitere Untersuchungen erfordert, während Xiaohong Zhang und Kollegen, in einem Papier veröffentlicht im Jahr 2014, kam zu dem gleichen Schluss, während versucht, Zyklus-Slips während Szintillation Veranstaltungen zu reparieren. Siehe weitere Lesung für eine Liste der hervorgehobenen Papiere in der Geschichte der Zyklus-Slip-Erkennung und Korrektur. QUAD-FREQUENCY ALGORITHMUS Cycle-Slip-Erkennungstechniken verwenden Testmengen (wo der Zyklusschlupf durch einen Sprung oder eine signifikante Änderung der Menge repräsentiert wird). Diese sind mit einem Diskontinuitätserfassungsalgorithmus verbunden, der darauf abzielt, den Sprung zu lokalisieren. Prüfmengen. Testmengen sind lineare Kombinationen von Beobachtungen. Sie unterscheiden sich in mehreren Aspekten: die verwendeten Observablen (in unserem Fall nur Phasenmessungen), die Anzahl der verwendeten Trägerfrequenzen und die inneren Eigenschaften der Kombination (geometriefrei, ionosphärenfrei und der Geräuschpegel auf der Kombination). In unserer Studie haben wir Werte für das Rauschen bei Galileo-Trägerphasenmessungen gemäß TABELLE 1 angenommen. Tabelle 1. Frequenzen im Galileo Open Service verfügbar. Triple-Frequency Simsky Kombination. Unser Algorithmus basiert hauptsächlich auf der Ausnutzung der Triple-Frequenz Simsky Kombination. Es ist eine geometriefreie und ionosphärenfreie Trägerphasenkombination in Metern, wie in Gleichung 2 gezeigt. Wenn vier Frequenzen verfügbar sind, können vier Triple-Frequenz-Kombinationen berechnet werden. Zwei von ihnen reichen aus, um Slips auf einer der vier Frequenzen zu erkennen. Die Kombinationswahl muss zunächst von ihrer Präzision abhängen (gegeben durch S in TABELLE 2), die durch Anwendung des Varianz-Kovarianz-Ausbreitungsgesetzes auf Roh-Messrauschen erhalten wird (siehe Tabelle 1). Präzision ist bei der Wahl geeigneter Kombinationen nicht der einzige Faktor zu berücksichtigen. In jeder Kombination haben Trägerfrequenzen aufgrund ihrer unterschiedlichen Wellenlängen unterschiedliche Auswirkungen: Der Einfluss eines Ein-Zyklus-Amplituden-Schlupfs auf die E1-Frequenz ist in der Tat nicht der gleiche wie der auf E5a, E5b oder E5ab (siehe Tabelle 2). Die kleinste Auswirkung auf eine gegebene Kombination ist immer die schwierigste zu erkennen. Tabelle 2. Simsky-Kombinationen. Daher wird der Wirkungsgrad einer gegebenen Kombination sowohl von der Wirkung des kleinsten Zyklusschlupfs als auch von der Kombinationsgenauigkeit abhängen (gegeben durch die Standardabweichung): Je höher das Verhältnis zwischen ihnen, desto effizienter ist die Kombination. Unter den vier Kombinationsmöglichkeiten sind die beiden höchsten Verhältnisse diejenigen, die durch die Kombinationen E5a-E5b-E5ab und E1-E5a-E5b gebildet werden. Diese werden also die in unserem Algorithmus verwendeten. Die Simsky-Kombination ermöglicht es uns, ICS sowie SCS-DM-Zyklus-Slips zu erkennen. Trotzdem ist diese Kombination unempfindlich gegen SCS-SM-Slips auf allen vier Frequenzen (was ein seltenes Phänomen ist). Wir müssen daher unserem Algorithmus eine weitere Testmenge hinzufügen. Dual-Frequency, Geometrie-freie Kombination. Die doppelfrequenz-, geometriefreie (GF) - Kombination in Metern ermöglicht es uns, SCS-SM-Slips zu erkennen. Es kann wie folgt berechnet werden: Leider ist die rohe Dual-Frequenz-, Geometrie-freie Kombination durch ionosphärische Verzögerung beeinflusst. Um den ionosphärischen, glatten Trend zu mildern, wird eine zeitliche Differenz von vierter Ordnung berechnet. Dennoch leidet das Ergebnis an schnellen Variationen der ionosphärischen Verzögerung. Wenn vier Frequenzen verfügbar sind, können sechs Dual-Frequenz-Kombinationen berechnet werden. Man reicht aus, um das Vorhandensein von gleichzeitigen Zyklusschüben gleicher Größe zu detektieren. Die Wahl hängt wiederum von dem Verhältnis zwischen Kombinationsgenauigkeit und dem kleinsten Effekt gleichzeitiger Ein-Zyklus-Slips ab. Einerseits beeinflusst die Differenzierung der Kombinationsergebnisse die Präzision. Andererseits wird der Zyklusschlupf, also der kleinste Effekt zum Erfassen, durch ein höherwertiges Differenzieren verstärkt. Das beste Verhältnis wird mit einer vierten Ordnung (siehe TABELLE 3) erhalten, auch wenn eine glatte Variation aufgrund der Ionosphäre bereits im zweiten Grad differenziert ist (siehe Abbildung 1). TABELLE 3. Geometriefreie Kombinationen. Fig. 1. Zeitdimensionierte geometriefreie Kombination: (a) Rohkombination, (b) Differenz erster Ordnung, (c) Differenz zweiter Ordnung und (d) Differenz der vierten Ordnung Auch wenn eine Kombination ausreicht, wird unser Ansatz zwei von ihnen verwenden, um ihre Ausgänge zu überprüfen: E1-E5a und E1-E5ab, da sie die besten Verhältnisse bieten. Nachweisverfahren. Um eine Diskontinuität aufgrund eines Zyklusschlupfes in der Prüfgröße zu erkennen, ist es notwendig, Erfassungsschwellen festzulegen. Schwellen sind eines der Schlüsselparameter bei der Zyklus-Schlupf-Erkennung, da sie zur Entscheidung über das Vorhandensein eines Zyklusschlupfes führen oder nicht. Wenn die Schwelle zu restriktiv ist, können einige echte Slips verpasst werden (falsch negativ). Auf der anderen Seite, wenn es nicht restriktiv genug ist, können Diskontinuitäten, die nicht mit einem Zyklusschlupf übereinstimmen, missbraucht werden (falsch positiv). Es ist wichtig zu bemerken, wie unsere Studie hervorhebt, dass es keine perfekte Schwelle gibt, die allen Bedürfnissen und Einschränkungen entspricht. Die Wahl muss unter Berücksichtigung der Positionierungsanwendung erfolgen. Die Schwellenwerte, die in diesem Artikel angegeben sind, sind repräsentativ und wurden empirisch bestimmt, um in Bezug auf unser Ziel des Zyklus-Schlupf-Nachweises unter hoher Ionosphärenaktivität optimal zu sein. Ergebnisse und weitere Diskussionen über verschiedene Schwellenwerte finden sich in der ersten Autorenarbeit (siehe Weiterlesen). Zyklus-Slips beeinflussen die rohe Simsky-Kombination durch eine Verschiebung des mittleren Kombinationswertes, während die Zeit-differenzierte eine von einer Spitze beeinflusst wird. Nachweis mit Simsky Kombination. Die Cycle-Slip-Erkennung auf der Triple-Frequenz Simsky-Kombination erfolgt in zwei Kaskadierungsschritten (siehe Abb. 2). ABBILDUNG 2. Nachweisverfahren für die Simsky-Kombination. Die erste verwendet eine zeitlich differenzierte Kombination, um potentielle Zyklus-Slips mit einem 20-Beobachtungs-Größe vorwärts und rückwärts gleitenden Durchschnitt-Fenster zu erkennen, in dem die mittleren und Standardabweichung statistischen Parameter berechnet werden. Die aktuelle Epoche wird mit den vorherigen verglichen, um eine Spitze zu erkennen, die einem Zyklusschlupf entsprechen könnte. Es werden zwei Arten von Schwellen verwendet: statistisch (oder relativ) und absolut. Wie in Fig. 3 gezeigt ist. Mit einer statistischen Schwelle können wir die Erkennung der Trägheit der statistischen Parameter anpassen. Angenommen, der Lärm auf den Beobachtungen (hier die Simsky-Kombination Ergebnisse) folgt einer Normalverteilung, ein Konfidenzintervall von 3-Sigma um den Mittelwert umfasst 95 Prozent der Beobachtungen. Angesichts des Verhältnisses der beiden verwendeten Simsky-Kombinationen (früher berechnet) erreicht die Erfolgsquote für beide Kombinationen 100 Prozent, was bedeutet, dass alle ICS - und SCS-DM-Slips auf Daten sicher erkannt werden (keine falschen Negative). Trotzdem können falsche Positives auftreten, da 5 Prozent der Daten statistisch außerhalb der 3-Sigma-Grenzen liegen. ABBILDUNG 3. Statistische und absolute Schwellenwerte. Um diese Rate zu reduzieren, wird auch eine absolute Schwelle angewendet, die gleich dem 0,4-fachen der kleinsten Auswirkung eines Zyklusschlupfs auf die Kombination ist (siehe Tabelle 2). Wenn wir Abbildung 3 als ein geeignetes Beispiel für eine extreme ionosphärische Störung, die zu einer ungewöhnlich hohen Variabilität in Kombinationen führt, nehmen kann, ist die absolute Schwelle die meiste Zeit weit höher als die statistische und wird dazu beitragen, die Rate der falschen Erkennungen zu reduzieren. Als Ausgang dieses ersten Schrittes wird ein Merkerwert den Epochen mit größeren Werten als beiden Schwellen zugeordnet und die daher potentiell durch Zyklusschlupf beeinflusst werden. Sobald die Orte der potenziellen Slips erreicht sind, besteht der zweite Schritt darin, den Mittelwert vor und nach den möglichen Zyklusscheinen für die markierten Epochen zu vergleichen. Eine zweite absolute Schwelle wird angewendet, gleich dem 0,8-fachen der kleinsten Effekt. Wenn im Erfassungsfenster ein weiterer Zyklusschlupf vorhanden ist, wird die Größe des Erfassungsfensters reduziert, um die Berechnung der statistischen Parameter bei teilweise verschobenen Daten zu vermeiden. Das Ziel des ersten Schrittes ist es, potenzielle Slips zu erkennen. Daher besteht die Priorität darin, zu vermeiden, dass ein echter Slip mit niedrigen Schwellenwerten fehlt, was manchmal zu einer falschen positiven Detektion führt. Auf der anderen Seite zielt der zweite Schritt darauf ab, die potenziellen verbleibenden falsch positiven Ausreißerspitzen in der Rohkombination aus den realen Zyklus-Schlupf-Verschiebungen im Durchschnitt zu trennen. Die theoretische Leistung dieses zweistufigen Ansatzes beträgt 100 Prozent: Es sollten weder falsche Positives noch falsche Negative angetroffen werden. Nachweis mit Geometrie-freie Kombination. Da die vierten Ordnung differenzierte geometriefreie Kombination durch eine verbleibende ionosphärische Verzögerung beeinflusst wird, kann die vorhergehende Prozedur nicht angewendet werden. Wie jede zeitlich differenzierte Testmenge, wird der Slip als Spike in der Kombination erscheinen. Daher gibt es keine Möglichkeit, Zyklus-Slips von Ausreißern durch einen mittleren Pegelvergleich zu unterscheiden (zweiter Schritt). Folglich besteht das Erfassungsverfahren nur aus einem vorwärts und rückwärts gleitenden Durchschnittsfenster, in dem ein 4-Sigma-Konfidenzintervall mit dem aktuellen Epochenkombinationswert verglichen wird. In diesem Fall können wir uns nicht leisten, auf 5 Prozent der Epochen (durch die Verwendung einer 3-Sigma-Schwelle) falsch positiv zu sein, da kein weiterer Schritt zur Beseitigung der verbleibenden falschen Positiven aufgebaut werden kann. Auch die theoretischen Leistungen des geometriefreien Erkennungsverfahrens werden voraussichtlich 100 Prozent erreichen. Wiederum sollten weder falsche Positives noch falsche Negative angetroffen werden. Beachten Sie, dass diese Berechnung nur Verhältnisse berücksichtigt und dabei die Tatsache vernachlässigt, dass die geometriefreie Kombination auch für die Variabilität der Ionosphäre empfindlich ist. VALIDIERUNG Wir haben den Quad-Frequenz-Algorithmus auf 30-Sekunden-Quad-Frequenz-Galileo-Beobachtungen von Stationen GMSD (in Nakatane, Japan) und NKLG (in Libreville, Gabun) getestet. Die GMSD-Beobachtungen wurden verwendet, um die Robustheit des Algorithmus gegenüber simulierten Einzelfällen zu testen, während die NKLG-Daten verwendet wurden, um das Algorithmenverhalten für Fälle zu beurteilen, die im Äquatorbereich erreicht wurden. Methodik. Cycle Slips wurden künstlich in die GMSD-Daten eingefügt und simulierten die folgenden Zyklus-Slip-Szenarien: ICS, SCS-DM und SCS-SM. Der Vorteil eines solchen Simulationsansatzes ist, dass die Algorithmusausgabe leicht mit der bereits bekannten Lösung verglichen werden kann. Darüber hinaus wurden diese Daten verwendet, um zu bestimmen, ob die Verwendung von mehr Trägerfrequenzen die Zyklus-Schlupf-Erkennungsleistung erhöhen könnte. Wir analysierten einen 50-tägigen NKLG-Datensatz, der Beobachtungen vom 6. Januar bis 1. Februar und vom 24. Juni bis 19. Juli 2014 abdeckte. Diese Probe besteht aus verschiedenen ionosphärischen Zuständen: ruhigen und extremen Tagen sowie typischer äquatorialer Aktivität . Da der Solarzyklus im Jahr 2014 passierte, passt die Daten aus diesem Jahr perfekt zu einer Untersuchung der Effekte hoher Ionosphärenaktivität. Wir nutzten NKLG Rohdaten, um ein doppeltes Ziel zu erreichen. Erstens wollten wir den Anteil der Epochen bestimmen, für den kleine Zyklus-Slips (ein, zwei oder fünf Zyklen) nicht unterschieden werden konnten. Dies wurde durch Vergleich der Auswirkungen (in Metern) solcher Szenarien auf die momentane Schwelle, die mit jeder Epoche verbunden ist, durchgeführt. Im Falle einer hohen Zyklus-Schlupf-Erfassungsschwelle können potentiell vorhandene Schlupfe von einem, zwei oder fünf Zyklen nicht detektiert werden. Der Bruchteil der Epochen an einem Tag, für den diese kleinen Zyklus-Slips nicht erkannt wurden, für jede im Algorithmus verwendete Kombination schien ein geeigneter Indikator für die Effektivität des Algorithmus im Äquatorbereich zu sein. Zweitens analysierten wir die Ergebnisse durch visuelles Beurteilen der Algorithmusausgabe unter Verwendung von Kombinationsgrafiken und versuchten, die folgenden Fragen zu beantworten: Markierte Epochen scheinen durch Zyklus-Slips betroffen zu sein. Gibt es aktuelle Zyklus-Slips, die unentdeckte Ergebnisse bleiben. Wir haben die Ergebnisse unserer Simulationen und die Analyse der Rohdaten genau untersucht. Simulation bestimmter Fälle Im Vergleich zu äquivalenten Dual - und Triple-Frequenz-Methoden lieferte unser neuer Quad-Frequenz-Algorithmus bessere Ergebnisse: Alle eingefügten Zyklus-Slips wurden erfolgreich erkannt und es wurden keine falschen Positiven festgestellt. NKLG Rohdatensatzanalyse. Der Validierungsprozess mit NKLG-Rohdaten hebt mehrere Trends im Algorithmus hervor. Zunächst ist es interessant zu bemerken, dass die Erkennung von isolierten Slips sowie Slips unterschiedlicher Größenordnung (mit den Simsky-Kombinationen) für jede Beobachtungs-Epoche jedes analysierten Tages garantiert wurde. In der Tat, Simsky momentane Schwellen nie überschritten die Wirkung eines Slip von Ein-Zyklus-Amplitude. Darüber hinaus könnte in 25 Prozent der analysierten Tage auch die Erkennung von Zyklus-Slips gleicher Größenordnung gewährleistet werden. Für die verbleibenden Tage konnte die Erkennung von gleichzeitigen Zyklus-Slips, deren Amplituden weniger als fünf Zyklen betragen, für einige Beobachtungs-Epochen nicht garantiert werden, was aufgrund der sehr geringen Wahrscheinlichkeit, solche Ausnahmefälle zu erleben, vernünftigerweise vernachlässigt werden kann. Dies ist auf den Einfluss der ionosphärischen Variabilität auf die geometriefreie Kombination zurückzuführen, wodurch hohe momentane Schwellenwerte induziert werden. Allerdings leiden sowohl die Simsky - als auch die geometriefreien Kombinationen unter einer falschen positiven Detektion unter extremen ionosphärischen Ereignissen: Wenn ein Zyklusschlupf erkannt wird, entspricht er manchmal einem Ausreißer. Dieser Nebeneffekt ist auf die Schwellenwahlen zurückzuführen, die wir gemacht haben, um unseren ursprünglichen Zweck zu erfüllen, alle Zyklus-Slips sicher zu erkennen, anstatt zu riskieren, eine von ihnen zu fehlen, auch wenn falsche Positives Teil der Ergebnisliste sind. WEITERE VERBESSERUNGEN Neben Postverarbeitungsanwendungen haben wir auch eine Echtzeitanpassung des Algorithmus berücksichtigt. Die Echtzeit-Einschränkung wirkt sich sowohl auf die Simsky - als auch auf die geometriefreien Erkennungsmethoden aus. In dieser Konfiguration kann sich das statistische Fenster zwar nur nach vorne bewegen, was die Zyklus-Schlupf-Erkennung an den ersten 20 Epochen vernachlässigt. Weiterhin kann der mittlere Pegelvergleich (siehe das zuvor beschriebene Simsky-Erkennungsverfahren) nicht mehr berücksichtigt werden, da der Mittelwert nach einem potentiellen Zyklusschlupf bei der Echtzeitverarbeitung nicht berechnet werden kann. Auch wenn unser Quad-Frequenz-Erkennungsalgorithmus von der Echtzeit-Einschränkung leidet, erweist es sich immer noch als effizient, wenn dieser für geeignete Schwellenwerte berücksichtigt wird. Die Cycle-Slip-Erkennung ist in der Tat nur ein erster Schritt, und die Zyklus-Schlupf-Korrektur sollte das Verfahren abschließen, um Diskontinuitäten zu vermeiden. Es sollte jedoch darauf hingewiesen werden, dass einfach das Bewusstsein der Anwesenheit eines Zyklusschlupfes in einem Datensatz ist wertvolle Informationen für einen Benutzer, und in der entsprechenden Epoche können die Parameter in der Lösung neu initialisiert werden. Mit einem geeigneten Zyklus-Slip-Korrektur-Verfahren und einem Echtzeit-Feature konnte unser Algorithmus direkt in einen Software-Receiver integriert werden, so dass die Bereitstellung von kontinuierlichen und korrigierten Daten an den Benutzer ermöglicht wird. SCHLUSSFOLGERUNG In diesem Artikel haben wir den ersten Quad-Frequenz-Zyklus-Slip-Erkennungsalgorithmus eingeführt, mit einer Effizienz, die eindeutig ein Schritt vorwärts ist. Diese innovative Erkennungsmethode eröffnet neue Türen für zahlreiche Forschungs - und kommerzielle Anwendungen. Jeder Galilei-Benutzer, ob zivile oder militärische, wird in der Lage sein, von einer besseren Positionierung zu profitieren, vor allem unter harten ionosphärischen Bedingungen: nicht nur dort, wo die Ionosphäre besonders ruhelos ist, wie etwa in äquatorialen und polaren Regionen, sondern auch in beliebiger Breite während eines Ionosphärische Störung. Im Hinblick auf eine präzise Positionierung ist dies ein weiterer Schritt, der die Wettbewerbsfähigkeit von Galileos gegenüber anderen Dual - oder Triple-Frequenz-Systemen verstärkt. ERKENNTNISSE Dieser Artikel basiert auf dem Papier Cycle Slips Detection im Quad-Frequency-Modus: Galileos Beitrag zu einem effizienten Ansatz unter hoher Ionosphären-Aktivität, die Gewinner-Einreichung an die 20142015 Studenten Contest der Comit de Liaison des Gomtres Europens in der Galileo, EGNOS, Kopernikus-Kategorie, die von der GSA, der European Global Navigation Satellite Systems Agentur, gesponsert wurde. LAURA VAN DE VYVERE erhielt einen M. Sc. In geomatik und geometrologie von der Universit de Lige, Belgien, im Jahr 2015. Ihre Master-These wurde Galileo Zyklus-Slip-Erkennung unter extremen ionosphärischen Aktivität gewidmet. Im Jahr 2015 trat sie M3 Systems Belgium in Wavre als Radionavigation Projektingenieur und ist derzeit in GNSS Reflektometrie und GNSS Hybridisierung Projekte beteiligt. REN WARNANT erhielt einen M. Sc. In der Physik im Jahr 1988 und ein Ph. D. In der Physik mit einer Spezialität in GNSS im Jahr 1996, sowohl von der Universit catholique de Louvain, Louvain-la-Neuve, Belgien. Er begann seine Karriere als Geodätiker am Königlichen Observatorium von Belgien im Jahr 1988. Seit Juni 2011 ist er Vollzeitprofessor und Leiter des Geodäsie - und GNSS-Labors an der Universität Lige, wo er für die Ausbildung im Bereich der Raumgeodäsie und GNSS. WEITER LESUNG Erste Autoren Dissertation und preisgekröntes Papier Dingktion des sauts de Zyklen en mode multirequenz pour le systme Galileo von L. Van de Vyvere, mmoire (These) für den Master en sciences gographiques orientierung gomatique et gomtrologie, Universit de Lige, Belgien, Juni 2015. Cycle Slips Detection im Quad-Frequency-Modus: Galileos Beitrag zu einem effizienten Ansatz unter hoher Ionosphären-Aktivität von L. Van de Vyvere, die Sieger-Einreichung zum 20142015 Studentenwettbewerb des Comit de Liaison des Gomtres Europens im Galileo , EGNOS, Kopernikus-Kategorie, die von der GSA, der European Global Navigation Satellite Systems Agentur, gesponsert wurde. Einige frühere Arbeiten zur Zyklus-Slip-Erkennung und Reparaturen Eine effiziente Dual - und Triple-Frequency-Preprocessing-Methode für Galileo und GPS-Signale von M. Lonchay, B. Bidaine und R. Warnant, in Proceedings of the 3. Internationales Kolloquium über wissenschaftliche und fundamentale Aspekte der Galileo-Programm Kopenhagen, Dänemark, Aug. 31 Sept. 2, 2011. Eine neue automatisierte Zyklus-Slip-Erkennung und Reparatur-Methode für einen einzigen Dual-Frequency GPS-Empfänger von Z. Liu in Journal of Geodesy. Vol. 85, Nr. 3, März 2011, S. 171183, doi: 0.1007s00190-010-0426-y. Sofortige Echtzeit-Zyklus-Rutsch-Korrektur von Dual-Frequency-GPS-Daten von D. Kim und R. Langley in Proceedings of KIS 2001. Das Internationale Symposium über Kinematische Systeme in Geodäsie, Geomatik und Navigation, Banff, Alberta, Juni 58, 2001, S. 255264. Ein automatisierter Bearbeitungsalgorithmus für GPS-Daten von G. Blewitt in geophysikalischen Forschungsbriefen. Vol. 17, Nr. 3, März 1990, S. 199202, doi: 10.1029GL017i003p00199. Verbesserte Präzise Punktpositionierung in Gegenwart der Ionosphären-Szintillation von X. Zhang, F. Guo und P. Zhou in GPS-Lösungen. Vol. 18, Nr. 1, Jan. 2014, S. 5160, doi: 10.1007s10291-012-0309-1. Cycle Slip Detection und Reparatur für undifferenzierte GPS-Beobachtungen unter hoher Ionosphärenaktivität von C. Cai, Z. Liu, P. Xia und W. Dai in GPS-Lösungen. Vol. 17, Nr. 2, April 2013, S. 247260, doi: 10.1007s10291-012-0275-7. Abschwächung der Auswirkungen von Ionosphären-Zyklus-Slips in GNSS-Beobachtungen von S. Banville und R. B. Langley in Journal of Geodesy. Vol. 87, Nr. 2, Feb. 2013, S. 179193, doi: 10.1007s00190-012-0604-1. Echtzeit-Erkennung und Reparatur von Zyklus-Slips in Triple-Frequency GNSS Messungen von Q. Zhao, B. Sun, Z. Dai, Z. Hu, C. Shi und J. Liu in GPS-Lösungen. Vol. 19, Nr. 3, Juli 2015, S. 381391, doi: 10.1007s10291-014-0396-2. Real-Time Cycle Slip Detection in Triple-Frequency GNSS von M. C. De Lacy, M. Reguzzoni und F. Sans in GPS-Lösungen. Vol. 16, Nr. 3, Juli 2012, S. 353362, doi: 10.1007s10291-011-0237-5. Teilen Sie diese: Tawani - sie sind nicht alle fehlen der Punkt. Was Sie sagen, muss mit generischen Begriffen definiert werden. Sie können nicht mit einem einzigen Beispiel gehen. Ohne allgemeine Definitionen, wenn 400 ist 30 ist es immer noch ein Ausreißer Und wenn es ist 14 Und 9 Wo stoppen Sie Sie brauchen stddev39s, Bereiche, Quartile, um das zu tun. Ndash Daniel Daranas Feb 2 09 um 17:05 Im Trimmen Sie don39t entfernen Ausreißer Sie nur don39t gehören sie in die Berechnung. QuotRemovequot könnte darauf hindeuten, dass Punkte nicht mehr im Dataset sind. Und du wirst sie nicht entfernen oder ignorieren, weil sie Ausreißer sind, das Kriterium ist (normalerweise) nur, dass sie in einem extremen Bruchteil der Daten sind. Ein Wert, der nicht in einem getrimmten Mittel enthalten ist, ist oft nur etwas mehr (oder weniger) als der höchste (niedrigste) Wert eingeschlossen. Ndash Nick Cox Dec 3 14 at 16:48 Ich weiß nicht, ob es einen Namen hat, aber man könnte ganz einfach mit einer Reihe von Algorithmen, um Ausreißer zu verwerfen: Finden Sie alle Zahlen zwischen dem 10. und 90. Perzentile (dies durch Sortierung dann Ablehnung Die ersten N10 und die letzten N10 Zahlen) und nehmen Sie den Mittelwert der verbleibenden Werte an. Sort values, reject high and low values as long as by doing so, the meanstandard deviation change more than X. Sort values, reject high and low values as long as by doing so, the values in question are more than K standard deviations from the mean. The most common way of having a Robust (the usual word meaning resistant to bad data) average is to use the median . This is just the middle value in the sorted list (of half way between the middle two values), so for your example it would be 90.5 half way between 90 and 91. If you want to get really into robust statistics (such as robust estimates of standard deviation etc) I would recommend a lost of the code at The AGORAS group but this may be too advanced for your purposes. answered Feb 13 09 at 9:22 If all you have is one variable (as you imply) I think some of the respondents above are being over critical of your approach. Certainly other methods that look at things like leverage are more statistically sound however that implies you are doing modeling of some sort. If you just have for example scores on a test or age of senior citizens (plausible cases of your example) I think it is practical and reasonable to be suspicious of the outlier you bring up. You could look at the overall mean and the trimmed mean and see how much it changes, but that will be a function of your sample size and the deviation from the mean for your outliers. With egregious outliers like that, you would certainly want to look into te data generating process to figure out why thats the case. Is it a data entry or administrative fluke If so and it is likely unrelated to actual true value (that is unobserved) it seems to me perfectly fine to trim. If it is a true value as far as you can tell you may not be able to remove unless you are explicit in your analysis about it. answered Dec 3 14 at 13:58 My statistics textbook refers to this as a Sample Mean as opposed to a Population Mean. Sample implies there was a restriction applied to the full dataset, though no modification (removal) to the dataset was made. answered Mar 26 16 at 3:13 0. Welcome to the site. 1. Which book Please give a reference. 2. quotSample meanquot does not typically refer to a mean obtained after removing outliers. ndash Juho Kokkala Mar 26 16 at 8:06 It can be the median. Not always, but sometimes. I have no idea what it is called in other occasions. Hope this helped. (At least a little.)I am working with a large amount of time series. Diese Zeitreihen sind grundsätzlich Netzwerkmessungen, die alle 10 Minuten kommen, und einige von ihnen sind periodisch (d. h. die Bandbreite), während einige andere Arent (d. h. die Menge des Routing-Verkehrs). Ich möchte einen einfachen Algorithmus für eine Online-Ausreißer-Erkennung. Grundsätzlich möchte ich die ganze historische Daten für jede Zeitreihe im Speicher (oder auf Festplatte) behalten und ich möchte jeden Ausreißer in einem Live-Szenario erkennen (jedes Mal, wenn ein neues Sample erfasst wird). Was ist der beste Weg, um diese Ergebnisse zu erreichen Im derzeit mit einem gleitenden Durchschnitt, um etwas Lärm zu entfernen, aber dann was als nächstes Einfache Dinge wie Standardabweichung, verrückt. Gegen den ganzen Datensatz funktioniert nicht gut (ich kann nicht annehmen, dass die Zeitreihen stationär sind), und ich möchte etwas genaueres, idealerweise eine Black Box wie: double outlierdetection (double vector, double value) wobei vector das Array von doppelten enthält Die historischen Daten und der Rückgabewert ist die Anomalie für den neuen Stichprobenwert. Fragte am 2. August um 20:37 Ja, ich habe angenommen, dass die Frequenz bekannt und spezifiziert ist. Es gibt Methoden, um die Frequenz automatisch abzuschätzen, aber das würde die Funktion erheblich erschweren. Wenn du die Häufigkeit abschätzen musst, versuchst du, eine eigene Frage darüber zu stellen - und ich werde wahrscheinlich eine Antwort geben. Aber es braucht mehr Platz, als ich in einem Kommentar zur Verfügung habe. Ndash Rob Hyndman Eine gute Lösung wird mehrere Zutaten haben, einschließlich: Verwenden Sie eine resistente, bewegte Fenster glatt, um Nichtstationarität zu entfernen. Die ursprünglichen Daten so ausdrücken, dass die Reste in Bezug auf die Glattheit etwa symmetrisch verteilt sind. Angesichts der Natur Ihrer Daten, ist es wahrscheinlich, dass ihre Quadratwurzeln oder Logarithmen symmetrische Residuen geben würde. Tragen Sie Kontroll-Chart-Methoden, oder zumindest Kontrolle Diagramm Denken, um die Residuen. Soweit das letzte Mal geht, zeigt das Kontroll-Diagramm-Denken, dass herkömmliche Schwellen wie 2 SD oder das 1,5-fache des IQR jenseits der Quartile schlecht funktionieren, weil sie zu viele falsche Out-of-Control-Signale auslösen. Die Leute benutzen gewöhnlich 3 SD in der Kontrollkarte Arbeit, wo 2,5 (oder sogar 3) mal die IQR jenseits der Quartile wäre ein guter Ausgangspunkt. Ich habe mehr oder weniger die Art der Rob-Hyndmans-Lösung umrissen und dabei zwei Hauptpunkte hinzugefügt: das Potenzial, die Daten wiederzugeben und die Weisheit, bei der Signalisierung eines Ausreißers konservativer zu sein. Im nicht sicher, dass Loess ist gut für einen Online-Detektor, obwohl, weil es nicht gut funktioniert an den Endpunkten. Sie könnten stattdessen etwas so einfaches wie ein bewegliches Medianfilter verwenden (wie bei Tukeys resistenten Glättung). Wenn Ausreißer nicht in Bursts kommen, können Sie ein schmales Fenster benutzen (5 Datenpunkte, vielleicht, die nur mit einem Burst von 3 oder mehr Ausreißern innerhalb einer Gruppe von 5 brechen). Sobald Sie die Analyse durchgeführt haben, um eine gute Re-Expression der Daten zu bestimmen, ist es unwahrscheinlich, dass Sie den Re-Ausdruck ändern müssen. Daher muss Ihr Online-Detektor wirklich nur die aktuellsten Werte (das neueste Fenster) verweisen, weil es nicht die früheren Daten überhaupt verwenden wird. Wenn Sie wirklich lange Zeitreihen haben, können Sie weiter gehen, um Autokorrelation und Saisonalität zu analysieren (wie wiederkehrende tägliche oder wöchentliche Schwankungen), um das Verfahren zu verbessern. Antwortete Aug 26 10 at 18:02 John, 1.5 IQR ist Tukey39s ursprüngliche Empfehlung für die längsten Whiskers auf einem Boxplot und 3 IQR ist seine Empfehlung für die Markierung von Punkten als Quoten outliersquot (ein Riff auf einer beliebten 6039s Phrase). Dies ist in viele Boxplot-Algorithmen eingebaut. Die Empfehlung wird theoretisch in Hoaglin, Mosteller, amp Tukey, Understanding Robust und Exploratory Data Analysis analysiert. Ndash w huber 9830 Oct 9 12 at 21:38 Dies bestätigt Zeitreihendaten, die ich versucht habe zu analysieren. Fensterdurchschnitt und auch Fensterfensterabweichungen. ((X - avg) sd) gt 3 scheinen die Punkte zu sein, die ich als Ausreißer markieren möchte. Nun zumindest warnen als Ausreißer, ich fasse etwas höher als 10 sd als extreme Fehler Ausreißer. Das Problem, in das ich hineingehe, ist, was eine ideale Fensterlänge ist, die mit etwas zwischen 4-8 Datenpunkten spielt. Ndash NeoZenith Jun 29 16 um 8:00 Neo Ihre beste Wette kann sein, mit einer Teilmenge Ihrer Daten zu experimentieren und bestätigen Sie Ihre Schlussfolgerungen mit Tests auf dem Rest. Sie könnten auch eine formellere Cross-Validierung durchführen (aber aufgrund der Interdependenz aller Werte ist besondere Aufmerksamkeit mit Zeitreihendaten erforderlich). Ndash w huber 9830 Jun 29 16 at 12:10 (Diese Antwort antwortete auf eine doppelte (jetzt geschlossene) Frage bei Erkennung von herausragenden Ereignissen, die einige Daten in grafischer Form vorstellten.) Die Ausreißererkennung hängt von der Art der Daten und von dem ab, was du bist Sind bereit, über sie zu übernehmen. Allzweck-Methoden beruhen auf robusten Statistiken. Der Geist dieses Ansatzes besteht darin, den Großteil der Daten in einer Weise zu charakterisieren, die nicht von Ausreißern beeinflusst wird und dann auf irgendwelche individuellen Werte hinweist, die nicht in diese Charakterisierung passen. Weil dies eine Zeitreihe ist, fügt es die Komplikation hinzu, um die Ausreißer laufend zu ermitteln. Wenn dies geschehen soll, wenn die Serie entfaltet ist, dann dürfen wir nur ältere Daten für die Erkennung verwenden, nicht zukünftige Daten. Darüber hinaus möchten wir als Schutz gegen die vielen wiederholten Tests eine Methode verwenden, die eine sehr niedrige falsche hat Positive Rate. Diese Überlegungen schlagen vor, einen einfachen, robusten bewegten Fensterausreißertest über die Daten zu führen. Es gibt viele Möglichkeiten, aber eine einfache, leicht verständliche und leicht umsetzbare basiert auf einer laufenden MAD: median absolute Abweichung vom Median. Dies ist ein stark robustes Maß an Variation innerhalb der Daten, verglichen mit einer Standardabweichung. Eine ausgedehnte Spitze wäre mehrere MADs oder mehr größer als der Median. Es gibt noch etwas Tuning. Wie viel von einer Abweichung von der Masse der Daten sollte als outlying und wie weit zurück in der Zeit sollte man aussehen Lets verlassen diese als Parameter für Experimente. Heres a R-Implementierung auf Daten x (1,2, ldots, n) angewendet (mit n1150, um die Daten zu emulieren) mit entsprechenden Werten y: Angewendet auf einen Datensatz wie die in der Frage dargestellte rote Kurve ergibt sich das Ergebnis: Die Daten Sind rot dargestellt, das 30-Tage-Fenster von median5MAD-Schwellen in grau und die Ausreißer - die sind einfach die Datenwerte über der grauen Kurve - in schwarz. (Die Schwelle kann nur am Ende des Anfangsfensters berechnet werden. Für alle Daten innerhalb dieses Anfangsfensters wird die erste Schwelle verwendet: Das ist der Grund, warum die graue Kurve zwischen x0 und x30 flach ist.) Die Auswirkungen der Änderung der Parameter sind (A) Erhöhung des Wertes des Fensters neigt dazu, die graue Kurve zu glätten und (b) die Erhöhung der Schwelle erhöht die graue Kurve. Wenn man das kennt, kann man ein erstes Segment der Daten nehmen und schnell die Werte der Parameter identifizieren, die die auslaufenden Peaks am besten aus dem Rest der Daten teilen. Wenden Sie diese Parameterwerte an, um den Rest der Daten zu überprüfen. Wenn ein Diagramm zeigt, dass sich die Methode im Laufe der Zeit verschlechtert, bedeutet dies, dass sich die Daten der Daten ändern und die Parameter möglicherweise neu eingestellt werden müssen. Beachten Sie, wie wenig diese Methode von den Daten übernimmt: Sie müssen nicht normal verteilt sein, sie müssen keine Periodizität ausstellen, die sie nicht einmal nicht negativ sein müssen. Alles, was davon ausgeht, ist, dass sich die Daten in angemessener Weise über die Zeit verhalten und dass die äußeren Peaks sichtbar höher sind als der Rest der Daten. Wenn jemand experimentieren möchte (oder eine andere Lösung mit dem hier angebotenen vergleichen), hier ist der Code, den ich verwendet habe, um Daten wie die in der Frage gezeigten zu produzieren. Ich vermute, anspruchsvolle Zeitreihe Modell wird nicht für Sie arbeiten, weil der Zeit, die es braucht, um Ausreißer mit dieser Methode zu erkennen. Daher ist hier ein Workaround: Erstens eine Basislinie normalen Verkehrsmuster für ein Jahr auf der Grundlage der manuellen Analyse der historischen Daten, die für die Zeit des Tages, Wochentag vs Wochenende, Monat des Jahres etc. verwenden. Verwenden Sie diese Grundlinie zusammen mit einigen einfachen Mechanismus (ZB gleitender Durchschnitt von Carlos vorgeschlagen), um Ausreißer zu erkennen. Sie können auch die statistische Prozesskontrollliteratur für einige Ideen überprüfen. Ja, das ist genau das, was ich tue: bis jetzt habe ich das Signal manuell in Perioden aufgeteilt, so dass für jeden von ihnen kann ich ein Konfidenzintervall definieren, in dem das Signal stationär sein soll, und deshalb kann ich Standardmethoden verwenden Als Standardabweichung. Das eigentliche Problem ist, dass ich das erwartete Muster für alle Signale, die ich zu analysieren habe, nicht entscheiden kann, und warum suchst du etwas Intelligenteres. Ndash gianluca Aug 2 10 at 21:37 Hier ist eine Idee: Schritt 1: Implementieren und Schätzen eines generischen Zeitreihenmodells auf einer einmaligen Basis basierend auf historischen Daten. Dies kann offline erfolgen. Schritt 2: Verwenden Sie das resultierende Modell, um Ausreißer zu erkennen. Schritt 3: Bei einer gewissen Frequenz (vielleicht jeden Monat) das Zeitreihenmodell neu kalibrieren (dies kann offline geschehen), so dass Ihr Schritt 2 Erkennung von Ausreißern nicht zu viel aus dem Schritt mit aktuellen Verkehrsmustern geht. Würde das für deinen Kontext arbeiten ndash user28 Aug 2 10 um 22:24 Ja, das könnte funktionieren. Ich dachte an einen ähnlichen Ansatz (Replizierung der Grundlinie jede Woche, die CPU-intensiv sein kann, wenn Sie Hunderte von univariate Zeitreihen zu analysieren haben). BTW die echte schwierige Frage ist quotwhat ist der beste Blackbox-Stil Algorithmus für die Modellierung eines völlig generischen Signal, unter Berücksichtigung von Lärm, Trend Schätzung und Saisonalität. AFAIK, jeder Ansatz in der Literatur erfordert eine wirklich harte quotparameter tuningquot Phase, und die einzige automatische Methode, die ich gefunden habe, ist ein ARIMA Modell von Hyndman (robjhyndmansoftwareforecast). Bin ich vermisse etwas ndash gianluca Auch hier geht es gut gut, wenn das Signal soll eine Saisonalität wie das haben, aber wenn ich eine ganz andere Zeitreihe (dh die durchschnittliche TCP Rundreise Zeit im Laufe der Zeit verwenden ), Wird diese Methode nicht funktionieren (da es besser wäre, diese mit einem einfachen globalen Mittelwert und Standardabweichung mit einem Schiebefenster mit historischen Daten zu behandeln). Wenn Sie bereit sind, ein allgemeines Zeitreihenmodell (das in seine Nachteile in Bezug auf Latenz usw. bringt) zu implementieren, bin ich pessimistisch, dass Sie eine allgemeine Implementierung finden, die zur gleichen Zeit einfach genug ist. Deutsch:. Englisch: v3.espacenet. com/textdoc? DB = EPODOC & ... PN = Für alle möglichen Zeitreihen arbeiten. Ndash user28 Aug 2 10 at 22:06 Ein weiterer Kommentar: Ich kenne eine gute Antwort könnte auch sein, du könntest die Periodizität des Signals abschätzen und den Algorithmus nach itquot entscheiden, aber ich habe keine echte gute Lösung für dieses andere gefunden Problem (ich spielte ein bisschen mit Spektralanalyse mit DFT und Zeitanalyse mit der Autokorrelationsfunktion, aber meine Zeitreihe enthält viel Lärm und solche Methoden geben einige verrückte Ergebnisse die meisten der Zeit) ndash gianluca Aug 2 10 um 22:06 A Kommentieren Sie zu Ihrem letzten Kommentar: that39s warum I39m auf der Suche nach einem generischeren Ansatz, aber ich brauche eine Art von quadratischen boxquot, weil ich canuldt irgendeine Annahme über das analysierte Signal machen kann, und deshalb kann ich den Questsatz für den Lernalgorithmus erstellen. Ndash gianluca Aug 2 10 at 22:09 Da es sich um eine Zeitreihe handelt, wird ein einfacher Exponentialfilter en. wikipedia. orgwikiExponentialsmoothing die Daten glätten. Es ist ein sehr guter Filter, da Sie nicht brauchen, um alte Datenpunkte zu akkumulieren. Vergleichen Sie jeden neu geglätteten Datenwert mit seinem ungehinderten Wert. Sobald die Abweichung eine bestimmte vordefinierte Schwelle überschreitet (je nachdem, was Sie glauben, dass ein Ausreißer in Ihren Daten ist), dann kann Ihr Ausreißer leicht erkannt werden. Beantwortet Apr 30 15 at 8:50 Du könntest die Standardabweichung der letzten N Messungen verwenden (du musst eine passende N auswählen). Eine gute Anomalie Ergebnis wäre, wie viele Standardabweichungen eine Messung aus dem gleitenden Durchschnitt ist. Beantwortet am 2. August 10 um 20:48 Vielen Dank für Ihre Antwort, aber was ist, wenn das Signal eine hohe Saisonalität aufweist (dh viele Netzwerkmessungen zeichnen sich durch ein tägliches und wöchentliches Muster zur gleichen Zeit aus, zB Nacht vs Tag oder Wochenende Vs Arbeitstage) Ein Ansatz, der auf Standardabweichung basiert, funktioniert in diesem Fall nicht. Ndash gianluca Zum Beispiel, wenn ich eine neue Probe alle 10 Minuten zu bekommen, und I39m eine Ausreißer Erkennung der Netzwerk-Bandbreite Nutzung eines Unternehmens, im Grunde um 18 Uhr diese Maßnahme wird fallen (dies ist ein erwartet Ein total normales Muster), und eine Standardabweichung, die über ein Schiebefenster berechnet wird, wird fehlschlagen (weil es eine Warnung sicher auslöst). Zur gleichen Zeit, wenn die Maßnahme um 4pm abfällt (abweichend von der üblichen Grundlinie), ist dies ein echter Ausreißer. Ndash gianluca Was ich tue, gruppiere die Messungen um Stunde und Wochentag und vergleiche Standardabweichungen davon. Immer noch nicht korrigieren Dinge wie Feiertage und Sommerwinter Saisonalität aber seine korrekte die meiste Zeit. Der Nachteil ist, dass Sie wirklich brauchen, um ein Jahr oder so von Daten zu sammeln, um genug zu sammeln, damit stddev beginnt Sinn zu machen. Spektralanalyse erkennt Periodizität in stationären Zeitreihen. Der Frequenzbereich Ansatz auf der Grundlage der spektralen Dichte Schätzung ist ein Ansatz, den ich als Ihren ersten Schritt empfehlen würde. Wenn für bestimmte Perioden Unregelmäßigkeit eine viel höhere Spitze als für diese Zeit typisch ist, dann wäre die Reihe mit solchen Unregelmäßigkeiten nicht stationär und die spektrale Anlsyse wäre nicht angemessen. Aber vorausgesetzt, Sie haben die Periode identifiziert, die die Unregelmäßigkeiten aufweist, die Sie in der Lage sein sollten, ungefähr zu bestimmen, was die normale Höhepunkthöhe sein würde, und kann dann eine Schwelle auf irgendeinem Niveau über diesem Durchschnitt setzen, um die unregelmäßigen Fälle zu bezeichnen. Antwortete am 3. September um 14:59 Ich schlage vor, das Schema unten, die sollte implementiert werden in einem Tag oder so: Sammeln Sie so viele Samples, wie Sie im Speicher halten können Entfernen Sie offensichtliche Ausreißer mit der Standardabweichung für jedes Attribut Berechnen und speichern Sie die Korrelationsmatrix Und auch der Mittelwert jedes Attributes Berechnen und speichern Sie die Mahalanobis Entfernungen aller Ihrer Proben Berechnen Ausreißer: Für die einzelne Probe, von der Sie wissen wollen, ihre Ausreißer: Abrufen der Mittel, Kovarianz Matrix und Mahalanobis Abstand s aus der Ausbildung Berechnen Sie die Mahalanobis Abstand d Für deine Probe Rückgabe des Perzentils, in dem d fällt (unter Verwendung der Mahalanobis-Distanzen vom Training) Das wird dein Outlier-Score sein: 100 ist ein extremer Ausreißer. PS Bei der Berechnung der Mahalanobis Entfernung. Verwenden Sie die Korrelationsmatrix, nicht die Kovarianzmatrix. Dies ist robuster, wenn die Probenmessungen in Einheit und Anzahl variieren.

No comments:

Post a Comment