Comment mettre à jour les lignes et les colonnes à l’aide de Python Pandas



Introduction

Pandas, une bibliothèque Python de premier plan pour la manipulation et l’analyse de données, offre une multitude d’outils pour altérer et actualiser les informations au sein d’un DataFrame. Cet article explore les diverses méthodes permettant de modifier les lignes et les colonnes à l’aide de Python Pandas, en abordant les approches simples comme les plus complexes.

Mise à jour des lignes

Remplacement d’une seule ligne

Pour remplacer une ligne spécifique par de nouvelles données, la méthode loc, associée à l’index de la ligne cible, est la solution :

import pandas as pd

df = pd.DataFrame({‘Nom’: [‘Alice’, ‘Bob’, ‘Charles’], ‘Âge’: [20, 25, 30]})

#Remplacer la ligne d’index 1

df.loc[1] = [‘David’, 22]

print(df)

Résultat :

NomÂge
Alice20
David22
Charles30

Modification de plusieurs lignes

Pour modifier plusieurs lignes simultanément, utilisez la méthode loc avec une liste ou un tableau contenant les index des lignes :

# Mettre à jour les lignes d'indices 0 et 2
df.loc[[0, 2], 'Nom'] = ['Alice Martin', 'Charles Dubois']

print(df)

Résultat :

NomÂge
Alice Martin20
David22
Charles Dubois30

Ajout d’une nouvelle ligne

Pour insérer une ligne à un emplacement spécifique, employez la méthode insert :

# Insérer une nouvelle colonne 'Ville' à l'index 1
df.insert(1, 'Ville', ['Paris', 'Londres', 'Berlin'])

print(df)

Résultat :

NomÂgeVille
Alice Martin20Paris
David22Londres
Charles Dubois30Berlin

Suppression d’une ligne

Pour retirer une ligne, la méthode drop est appropriée :

# Supprimer la ligne d'index 1
df.drop(1, inplace=True)

print(df)

Résultat :

NomÂgeVille
Alice Martin20Paris
Charles Dubois30Berlin

Mise à jour des colonnes

Remplacement d’une colonne

Pour remplacer une colonne unique par une nouvelle série de données, utilisez la méthode assign :

# Remplacer la colonne "Âge"
df = df.assign(Âge=df['Âge'] + 1)

print(df)

Résultat :

NomÂgeVille
Alice Martin21Paris
Charles Dubois31Berlin

Modification de plusieurs colonnes

Pour modifier plusieurs colonnes en même temps, employez la méthode assign avec un dictionnaire :

# Mettre à jour les colonnes "Nom" et "Ville"
df = df.assign(
Nom=df['Nom'].str.upper(),
Ville=df['Ville'].str.title()
)

print(df)

Résultat :

NomÂgeVille
ALICE MARTIN21Paris
CHARLES DUBOIS31Berlin

Ajout d’une nouvelle colonne

Pour insérer une nouvelle colonne, la méthode insert est la solution :

# Insérer une nouvelle colonne "Pays"
df.insert(2, 'Pays', ['France', 'Allemagne'])

print(df)

Résultat :

NomÂgePaysVille
ALICE MARTIN21FranceParis
CHARLES DUBOIS31AllemagneBerlin

Suppression d’une colonne

Pour retirer une colonne, utilisez la méthode drop :

# Supprimer la colonne "Ville"
df.drop('Ville', axis=1, inplace=True)

print(df)

Résultat :

NomÂgePays
ALICE MARTIN21France
CHARLES DUBOIS31Allemagne

Conclusion

L’actualisation des lignes et des colonnes dans Pandas est une procédure fréquente dans le traitement des données. Cet exposé a exploré les différentes techniques pour effectuer ces mises à jour, allant des opérations fondamentales aux plus avancées. En maîtrisant ces méthodes, vous serez en mesure d’adapter efficacement vos DataFrames Pandas à vos besoins spécifiques d’analyse et de transformation de données.

FAQ

  • Comment modifier une valeur unique dans une cellule ?
    Utilisez la méthode at pour accéder à une cellule spécifique et la modifier.
  • Comment actualiser plusieurs cellules simultanément ?
    Employez la méthode loc avec une liste d’index de lignes et de colonnes.
  • Comment ajouter une nouvelle ligne à la fin du DataFrame ?
    La méthode append permet d’ajouter une nouvelle ligne au DataFrame.
  • Comment supprimer plusieurs lignes à la fois ?
    Utilisez la méthode drop avec une liste d’index de lignes ou un tableau booléen.
  • Comment modifier les colonnes en fonction des valeurs d’autres colonnes ?
    Des fonctions lambda peuvent être utilisées avec la méthode assign pour réaliser des mises à jour conditionnelles.
  • Comment renommer une colonne ?
    La méthode rename est dédiée à cette tâche.
  • Comment éliminer les doublons de lignes ?
    La méthode drop_duplicates permet de retirer les lignes en double.
  • Comment regrouper les données par une colonne spécifique et effectuer des modifications ?
    Utilisez la méthode groupby pour regrouper les données et appliquer des mises à jour sur chaque groupe.