Guide d’introduction aux données de séries chronologiques



La dimension temporelle est un facteur déterminant dans la collecte de données. Dans l’analyse des séries chronologiques, le temps constitue un aspect fondamental de l’information.

Que sont les données de séries chronologiques ?

Les données de séries chronologiques se présentent comme une séquence de points de données ordonnés selon le temps. Elles introduisent une relation de dépendance temporelle entre les différentes observations. Dans notre environnement actuel fortement axé sur les données, les séries chronologiques sont omniprésentes. Étant donné que chaque événement se déroule selon le cours du temps, nous sommes constamment exposés à une multitude de données de ce type.

On considère généralement que les séries chronologiques sont produites à intervalles réguliers, et on parle alors de séries chronologiques régulières. Cependant, ces données n’ont pas systématiquement besoin d’être générées de manière régulière. Les séries chronologiques irrégulières correspondent aux cas où les données suivent une séquence temporellement échelonnée. Cela implique que les mesures peuvent ne pas être effectuées à intervalles égaux. Toutefois, les données peuvent être générées à intervalles de temps discrets ou en rafales. Les retraits ou dépôts effectués sur un compte bancaire en sont des exemples typiques.

D’un point de vue technique, une série chronologique se caractérise par le changement d’une ou plusieurs variables sur une période donnée. Si une seule variable évolue au fil du temps, on parle de série chronologique univariée. Imaginons, par exemple, un capteur mesurant la température d’une pièce chaque seconde. Dans ce cas, seule une valeur de température unidimensionnelle est produite à chaque instant. À l’inverse, lorsqu’il y a plusieurs variables qui changent avec le temps, on se trouve face à une série chronologique multivariée. Prenons l’exemple de l’économie bancaire : on utilise des séries chronologiques multivariées pour analyser comment les modifications de politique d’une variable, comme le taux de refinancement, peuvent impacter d’autres variables, telles que l’octroi de prêts par les banques commerciales.

Les données de séries chronologiques sont utilisées dans de multiples disciplines, allant de la finance, la géologie et la météorologie à l’industrie manufacturière, l’informatique, l’Internet des objets, les sciences physiques et sociales. Elles permettent de suivre des évolutions telles que les changements climatiques, les taux de natalité et de mortalité, les variations du marché, les performances des réseaux, et bien d’autres applications. Parmi leurs principales utilisations, on peut citer la surveillance, la prévision et la détection d’anomalies. La prévision de séries chronologiques, par exemple, joue un rôle déterminant dans l’évaluation de la popularité des systèmes de gestion de bases de données. Le graphique ci-dessous illustre l’augmentation de la popularité des SGBD de 2019 à 2021 sous forme de série chronologique.

https://www.influxdata.com/time-series-database/

Éléments constitutifs des séries chronologiques

Les facteurs influençant les valeurs d’une observation dans une série chronologique sont considérés comme ses éléments constitutifs. Ces éléments se répartissent en trois grandes catégories :

  • Tendance ou mouvements à long terme
  • Mouvements à court terme
  • Variations saisonnières
  • Variations cycliques
  • Mouvements aléatoires ou irréguliers
  • La tendance

    La tendance d’une série de données, qui décrit une augmentation ou une diminution sur une période prolongée, est également appelée composante à long terme. Il est cependant important de noter que l’orientation ascendante ou descendante ne doit pas forcément rester constante sur l’ensemble de cette période.

    La tendance peut être à la hausse, à la baisse ou stable selon les périodes. Toutefois, la tendance globale doit toujours être classée comme ascendante, descendante ou stable. On observe ce type de tendances dans des exemples comme la production agricole, les taux de mortalité, le volume d’appareils manufacturés ou le nombre d’usines.

    Tendance linéaire et non linéaire

    La représentation des valeurs de séries chronologiques en fonction du temps sur un graphique permet de mettre en évidence le type de tendance en fonction de la manière dont les données se regroupent. Si les données sont plus ou moins alignées autour d’une droite, on parle de tendance linéaire. Dans le cas contraire, on parle de tendance non linéaire, car le rapport de changement entre deux variables n’est pas stable ou constant. On parle également de corrélations curvilignes dans ce cas.

    Mouvements à court terme

    Dans une série chronologique, ces composantes tendent à se répéter sur une période de temps. Elles se manifestent par de courtes impulsions irrégulières qui affectent les variables étudiées. On distingue deux catégories de mouvements à court terme :

    Variations saisonnières

    Ces variations se produisent de manière régulière et périodique sur une période de moins d’un an. Elles ont tendance à se répéter de manière similaire ou quasi identique sur une période de 12 mois. Ces variations font partie d’une série chronologique si les données sont enregistrées de façon régulière, à l’heure, au jour, à la semaine, au mois ou au trimestre.

    Les variations saisonnières peuvent être d’origine humaine ou naturelle. Les saisons et les conditions climatiques jouent un rôle important dans ces variations. Par exemple, la production agricole est entièrement dépendante des saisons. De même, la demande pour les parapluies ou les imperméables augmente pendant la saison des pluies, alors que les ventes de climatiseurs ou de rafraîchisseurs d’air atteignent leur pic pendant la saison estivale.

    Les événements créés par l’homme, tels que les festivals, les fêtes ou les occasions comme les mariages, font également partie de ces variations. Ces événements à court terme se répètent d’une année sur l’autre.

    Variations cycliques

    Les variations de séries chronologiques qui tendent à se produire sur une période de plus d’un an sont appelées variations cycliques. Dans le contexte d’une entreprise, une période complète est considérée comme un « cycle économique ». Les pics et les baisses de performance d’une entreprise dépendent de divers facteurs tels que la structure économique, la gestion et d’autres forces en interaction. Ces variations cycliques d’activité peuvent être régulières, mais non périodiques. Généralement, les entreprises passent par un cycle en quatre phases : prospérité, récession, dépression et reprise.

    Ces variations cycliques sont une composante essentielle d’un modèle de série chronologique, car le développement d’une entreprise est fortement dépendant des « points de données séquentiels » générés.

    Mouvements aléatoires ou irréguliers

    Les composantes aléatoires entraînent une variation significative de la variable observée. Il s’agit de fluctuations purement irrégulières, sans aucun modèle défini. Ces forces sont imprévues, imprévisibles et erratiques par nature, comme les tremblements de terre, les inondations, les famines et autres catastrophes.

    Les événements aléatoires mentionnés ci-dessus sont analysés à l’aide des données de séries chronologiques afin de mieux comprendre et anticiper ces scénarios réels qui pourraient se produire à l’avenir.

    Types de séries chronologiques

    Les données de séries chronologiques peuvent être classées en quatre types : déterministes, non déterministes, stationnaires et non stationnaires. Examinons chaque type plus en détail.

    #1. Série chronologique déterministe

    Une série temporelle déterministe peut être décrite à l’aide d’une expression analytique. Elle n’implique aucun aspect aléatoire ou probabiliste. Mathématiquement, elle peut être exprimée de manière exacte pour tous les intervalles de temps sous la forme d’un développement en série de Taylor. Cela est possible si toutes ses dérivées sont connues à un moment arbitraire. Ces dérivées spécifient explicitement le passé et le futur à ce moment précis. Si toutes les conditions sont réunies, il est possible de prévoir avec précision son comportement futur et d’analyser comment elle s’est comportée dans le passé.

    #2. Séries chronologiques non déterministes

    Une série temporelle non déterministe est associée à un aspect aléatoire qui empêche sa description explicite. Par conséquent, les expressions analytiques ne constituent pas des solutions suffisamment réalistes pour représenter ce type de série chronologique. Une série chronologique peut être non déterministe pour les raisons suivantes :

  • Les informations nécessaires à sa description ne sont pas entièrement disponibles. Bien que des données puissent exister en principe, elles ne peuvent pas être traitées de manière explicite comme des données quantifiables.
  • Le processus de génération des données est de nature aléatoire.
  • En raison de ce facteur aléatoire, la série temporelle non déterministe est soumise à des lois probabilistes. Par conséquent, les données sont traitées en termes statistiques, ce qui signifie qu’elles sont définies par des distributions de probabilité et des moyennes de diverses formes. On utilise notamment des moyennes et des mesures de dispersion comme les variances.

    #3. Série chronologique stationnaire

    Dans une série chronologique stationnaire, les propriétés statistiques telles que la moyenne, la variance et d’autres ne dépendent pas de la variable temporelle. Une série chronologique stationnaire est plus facile à prévoir, car on peut supposer que ses propriétés statistiques resteront identiques à celles observées dans le passé. C’est pourquoi de nombreuses méthodes de prévision statistique reposent sur le principe que la série chronologique est plus ou moins stationnaire. Cela implique que la série temporelle peut être considérée comme stationnaire par approximation en appliquant de simples transformations mathématiques.

    #4. Séries chronologiques non stationnaires

    Dans une série non stationnaire, les propriétés statistiques varient avec le temps. Par conséquent, les séries chronologiques présentant des tendances ou une saisonnalité appartiennent à la catégorie des séries non stationnaires, car la tendance et la saisonnalité peuvent influencer la valeur de la série chronologique à différents intervalles de temps. Les séries chronologiques non stationnaires décrivent des données imprévisibles, ce qui rend leur modélisation ou leur prévision difficile.


    https://www.oreilly.com/library/view/hands-on-machine-learning/9781788992282/15c9cc40-bea2-4b75-902f-2e9739fec4ae.xhtml

    Analyse et prévision des séries chronologiques

    L’analyse et la prévision des séries chronologiques sont des outils précieux pour observer, étudier et analyser l’évolution et la dynamique de processus et d’objets de divers types. Examinons ces deux aspects plus en détail.

    Analyse des séries chronologiques

    L’analyse de séries chronologiques se définit comme un processus d’examen des données collectées sur une période de temps. Les analystes de données enregistrent des données à intervalles réguliers sur une période donnée. La fréquence d’observation des données, ou intervalle de temps, peut varier de quelques secondes à plusieurs années.

    Les données de séries chronologiques décrivent les variables étudiées en fournissant une analyse détaillée de leur modèle fluctuant sur une période spécifique. Les paramètres nécessaires à l’analyse peuvent varier selon les domaines et les disciplines. Voici quelques exemples :

    • Instruments scientifiques : données enregistrées quotidiennement
    • Site commercial : visites des clients par jour
    • Bourse : valeur des actions par semaine
    • Saison : nombre de jours de pluie par an

    Pour garantir cohérence et fiabilité, l’analyse de séries chronologiques s’appuie sur de grands volumes de points de données. Une taille d’échantillon suffisante est un indicateur important de l’authenticité d’une tendance ou d’un modèle identifié.

    L’analyse de séries chronologiques est également utilisée pour prévoir des événements futurs sur la base des données enregistrées dans le passé.

    Prévision de séries chronologiques

    L’analyse de séries chronologiques permet aux organisations d’identifier les causes des fluctuations des tendances au fil du temps. En se basant sur ces données, les entreprises peuvent étudier plus en profondeur et essayer de comprendre comment anticiper des tendances inconnues et prévoir les événements futurs. Les entreprises utilisent souvent des techniques de visualisation de données pour identifier les anomalies.

    La prévision des séries chronologiques repose sur deux éléments essentiels :

  • Anticiper les événements futurs à partir du comportement passé des données.
  • Supposer que les tendances futures ressembleront au modèle des données passées.
  • L’objectif principal de la prévision est de prédire comment les points de données continueront à évoluer ou à rester stables dans le futur. Voici quelques exemples d’applications dans différents secteurs industriels pour mieux comprendre les nuances de l’analyse et de la prévision des séries chronologiques.

    • Marché boursier : prévoir le cours de clôture des actions chaque jour.
    • Ventes : prévoir les ventes de produits d’un magasin chaque jour.
    • Prix : prévoir le prix moyen du carburant chaque jour.

    Parmi les techniques statistiques courantes utilisées pour la prévision des séries chronologiques, on peut citer la moyenne mobile simple (SMA), le lissage exponentiel simple (SES), la moyenne mobile intégrée autorégressive (ARIMA) et les réseaux neuronaux (NN).

    Données de séries chronologiques dans le cloud

    Pour exploiter tout le potentiel des données de séries chronologiques, les entreprises doivent pouvoir stocker et interroger rapidement ces données. Les acteurs du marché des capitaux s’appuient sur de gros volumes de données historiques et en continu pour réaliser des analyses de données en temps réel et prendre des décisions commerciales importantes. Cela peut impliquer de prévoir la vulnérabilité des cours boursiers, de déterminer les besoins nets en capital ou de prévoir les taux de change. Afin de gagner en flexibilité et de pouvoir traiter les données de manière transparente, de nombreuses entreprises optent pour la migration de leurs bases de données de séries chronologiques vers le cloud.

    Avec la migration des bases de données de séries chronologiques vers le cloud, les organisations peuvent accéder à des ressources illimitées à la demande. Elles peuvent ainsi utiliser des centaines de cœurs pour accomplir leurs tâches et maximiser le débit du réseau sans problèmes de latence.

    Les bases de données de séries chronologiques dans l’infrastructure cloud sont adaptées aux charges de travail nécessitant une puissance de calcul importante. Il peut s’agir d’effectuer des calculs de risque en réponse aux tendances du marché en temps réel. Les sociétés financières peuvent ainsi supprimer les coûts liés aux centres de données et se concentrer sur l’utilisation des ressources pour améliorer la productivité de leurs charges de travail.

    Les fournisseurs de services cloud tels qu’AWS proposent Amazon Timestream, un service de base de données de séries chronologiques qui facilite le chargement, le stockage et l’analyse de gros volumes de données de séries chronologiques. Ils offrent un stockage adapté aux charges de travail nécessitant une forte capacité transactionnelle, des outils d’analyse en temps réel et une fonctionnalité de diffusion de données permettant de visualiser les événements au fur et à mesure qu’ils se produisent.

    En résumé, l’infrastructure cloud permet d’amplifier et d’étendre les avantages des données de séries chronologiques.

    Applications des séries chronologiques

    Les modèles de séries chronologiques ont deux objectifs :

  • Comprendre les facteurs sous-jacents ayant produit un certain modèle de données.
  • Sur la base de l’analyse, adapter un modèle pour prévoir et surveiller.
  • Voici quelques exemples d’applications concrètes des données de séries chronologiques.

    #1. Séries chronologiques dans les domaines de la finance et du commerce

    Toutes les décisions financières, commerciales et d’investissement sont prises en tenant compte des tendances actuelles du marché et des prévisions de la demande. Les données de séries chronologiques permettent d’expliquer, de corréler et de prévoir l’évolution du marché financier. Les experts financiers peuvent étudier les données financières pour élaborer des prévisions qui aident à atténuer les risques, stabiliser les prix et les échanges.

    L’analyse des séries chronologiques joue un rôle essentiel dans l’analyse financière. Elle est utilisée pour la prévision des taux d’intérêt, la prévision de la volatilité des marchés boursiers, et bien d’autres applications. Les responsables et les décideurs d’entreprise peuvent prendre des décisions éclairées concernant la production, les achats, l’allocation des ressources et l’optimisation de leurs opérations commerciales.

    Cette analyse est également utilisée dans le secteur de l’investissement pour surveiller les taux de sécurité et leurs fluctuations dans le temps. Le prix d’un titre peut être observé à court terme (données enregistrées par heure ou par jour) ou à long terme (observations sur plusieurs mois ou années). L’analyse de séries chronologiques est un outil utile pour suivre les performances d’un titre, d’un actif ou d’une variable économique sur une longue période.

    #2. Séries chronologiques dans le domaine médical

    La santé est en train de devenir un domaine fortement axé sur les données. En plus des secteurs de la finance et du commerce, le domaine médical tire un grand avantage de l’analyse des séries chronologiques.

    Prenons l’exemple d’un scénario qui nécessite une synergie entre données de séries chronologiques, procédures médicales et techniques d’exploration de données dans le traitement des patients atteints de cancer. Un tel cadre hybride peut être utilisé pour exploiter les fonctionnalités d’extraction de caractéristiques à partir de données de séries chronologiques (par exemple, les images radiographiques du patient) afin de suivre les progrès du patient et sa réaction aux traitements.

    Dans le secteur de la santé, il est essentiel de pouvoir tirer des conclusions à partir des données de séries chronologiques en constante évolution. Les pratiques médicales avancées exigent que les dossiers des patients soient consultables dans le temps afin d’avoir une meilleure vue d’ensemble de leur état de santé. De plus, les paramètres de santé du patient doivent être enregistrés avec précision à intervalles réguliers pour avoir une image plus claire de son état de santé.

    Avec l’apparition d’instruments médicaux avancés, l’analyse de séries chronologiques a pris une place prépondérante dans le domaine de la santé. Voici quelques exemples :

    • Appareils ECG : appareils conçus pour surveiller les conditions cardiaques en enregistrant les impulsions électriques du cœur.
    • Appareils EEG : appareils utilisés pour quantifier l’activité électrique du cerveau.

    Ces dispositifs ont permis aux praticiens médicaux d’utiliser l’analyse de séries chronologiques pour effectuer des diagnostics plus rapides, efficaces et précis.

    De plus, grâce à l’essor des appareils IoT, tels que les capteurs portables et les appareils de santé connectés, les individus peuvent désormais effectuer des mesures régulières de leurs variables de santé au fil du temps avec un minimum d’intervention. Cela permet de collecter de manière cohérente des données médicales en fonction du temps, aussi bien pour les personnes malades que pour les personnes en bonne santé.

    #3. Séries chronologiques en astronomie

    L’astronomie et l’astrophysique sont deux disciplines modernes où les données de séries chronologiques sont utilisées de manière significative.

    L’astronomie consiste principalement à étudier les trajectoires des objets cosmiques et des corps célestes et à effectuer des mesures précises afin de mieux comprendre l’univers au-delà de l’atmosphère terrestre. C’est pourquoi les experts en astronomie sont compétents dans le traitement des données de séries chronologiques, tant pour l’étalonnage et la configuration d’instruments complexes que pour l’étude d’objets d’intérêt astronomique.

    Les données de séries chronologiques sont utilisées depuis longtemps dans le domaine de l’astronomie. Dès 800 avant J.-C., on a commencé à collecter des données de séries chronologiques sur les taches solaires à intervalles réguliers. Depuis lors, l’analyse de séries chronologiques a été utilisée pour :

    • Découvrir des étoiles lointaines en fonction des distances stellaires,
    • Observer les événements cosmiques, tels que les supernovas, afin de mieux comprendre l’origine de notre univers.

    Dans ce cas, les données de séries chronologiques concernent les longueurs d’onde et les intensités de la lumière émise par les étoiles, les corps célestes ou les objets. Les astronomes surveillent en continu ces données de diffusion en direct pour détecter les événements cosmiques en temps réel, au fur et à mesure qu’ils se produisent.

    Ces derniers temps, des domaines de recherche tels que l’astro-informatique et l’astro-statistique ont vu le jour, qui combinent diverses disciplines comme l’exploration de données, l’apprentissage automatique, l’intelligence artificielle et les statistiques. Dans ces nouveaux domaines de recherche, les données de séries chronologiques sont utilisées pour détecter et classer les objets astronomiques de manière rapide et efficace.

    #4. Séries chronologiques dans les prévisions météorologiques

    Aristote a étudié les modèles météorologiques en détail afin de mieux comprendre les causes et les effets observés dans les changements météorologiques dans les temps anciens. Au fil du temps, les scientifiques ont commencé à enregistrer des données météorologiques à l’aide d’instruments tels que le « baromètre » pour calculer les variables atmosphériques. Les données ont été collectées à intervalles réguliers et conservées à différents endroits.

    Au fil du temps, les prévisions météorologiques ont commencé à apparaître dans les journaux. Aujourd’hui, des stations de prévision météorologique sont installées dans de nombreuses zones géographiques à travers le monde pour collecter des variables météorologiques précises.

    Ces stations sont équipées d’instruments de pointe qui sont interconnectés pour collecter et corréler les données météorologiques de divers endroits. Les données corrélées sont utilisées pour prévoir les conditions météorologiques à chaque instant en fonction des besoins.

    #5. Séries chronologiques dans le développement commercial

    Les données de séries chronologiques permettent aux entreprises de prendre des décisions commerciales. Cela est possible lorsque le processus analyse les données passées pour prévoir les événements futurs et les possibilités probables. Le modèle des données passées est utilisé pour déduire les paramètres suivants :

    • Croissance de l’entreprise : pour évaluer la performance financière et commerciale globale et mesurer la croissance, les données de séries chronologiques constituent la ressource la plus pertinente et la plus fiable.
    • Estimation de la tendance : diverses méthodes d’analyse de séries chronologiques peuvent être utilisées pour estimer les tendances émergentes. Par exemple, ces méthodes peuvent analyser les observations de données sur une période donnée pour mettre en évidence une augmentation ou une diminution des ventes d’un appareil électronique particulier.
    • Mise en évidence des modèles saisonniers : les points de données enregistrés peuvent révéler des fluctuations et des modèles saisonniers qui peuvent être utiles pour la prévision. Les informations obtenues à partir des données jouent un rôle essentiel sur les marchés où les prix des produits fluctuent de manière saisonnière. Ces données peuvent aider les entreprises à mieux planifier et développer leurs produits.

    Conclusion 👨‍🏫

    En résumé, les données de séries chronologiques peuvent être considérées comme des données complexes collectées à intervalles réguliers sur une période donnée. L’analyse, la modélisation et la prévision des séries chronologiques font désormais partie intégrante de notre vie quotidienne, grâce à l’essor des appareils IoT, des appareils électroménagers intelligents et des appareils portables. Les données de séries chronologiques sont utilisées dans de nombreux domaines, notamment la santé, l’astrophysique, l’économie, l’ingénierie, le commerce, et bien d’autres encore.