BLOG

Mengenal Pandas Python: Panduan Awal untuk Analisis Data

Mengenal Pandas Python: Panduan Awal untuk Analisis Data

Analisis data merupakan elemen sangat penting dalam pengambilan keputusan di berbagai bidang, mulai dari bisnis hingga ilmu pengetahuan. Python adalah bahasa pemrograman yang telah menjadi salah satu alat utama dalam analisis data.

Python adalah alat yang kuat bagi  yang ingin menjelajahi dunia analisis data, menggali wawasan, dan membuat keputusan yang didasarkan pada bukti. Artikel ini akan menjelaskan tentan library Pandas Python untuk analisis data.

Apa Itu Pandas?

Pandas adalah sebuah library Python yang populer digunakan untuk manipulasi dan analisis data. Istilah “Pandas” berasal dari kata “Panel Data” yang digunakan dalam ekonomi dan statistik. Library ini menyediakan struktur data dan fungsi-fungsi yang kuat untuk bekerja dengan data terstruktur, seperti data dalam bentuk tabel atau spreadsheet, yang sering digunakan dalam analisis data.

Pandas dikembangkan pertama kali oleh Wes McKinney pada tahun 2008 saat bekerja di AQR Capital Management. Motivasi utama untuk menciptakan Pandas adalah untuk menyederhanakan dan mempercepat tugas-tugas pemrosesan data dalam analisis keuangan. Pandas kemudian menjadi open-source dan mendapatkan popularitas pesat di komunitas data science dan analisis data.

Pandas diciptakan untuk mengatasi beberapa kelemahan dalam pengolahan data menggunakan library NumPy, yang merupakan library dasar untuk komputasi numerik di Python. NumPy tidak memiliki struktur data yang cocok untuk data tabular, sehingga Pandas menyediakan dua struktur data inti: Series (untuk data satu dimensi) dan DataFrame (untuk data dua dimensi). Pandas juga menawarkan berbagai fungsi untuk membaca dan menulis data dari berbagai format, seperti CSV, Excel, SQL, dan lainnya.

Pandas adalah library yang sangat penting dalam analisis data menggunakan Python karena menyediakan alat yang kuat dan fleksibel untuk mengelola, memproses, dan menganalisis data tabular dengan efisien. Ini telah menjadi fondasi dalam ekosistem Python untuk analisis data.

Baca juga : 10 Contoh Program Python Terbaik untuk Mempermudah Pemrograman Anda

Instalasi Pandas

Anda dapat menginstal library Pandas di Python menggunakan pip atau conda. Berikut adalah langkah-langkah sederhana untuk menginstal Pandas menggunakan keduanya:

1. Menggunakan pip

  • ¬†Buka terminal atau command prompt Anda.
  • .Ketik perintah “pip instal pandas” dan tekan Enter:
    Ini akan mengunduh dan menginstal library Pandas serta semua dependensinya.

2. Menggunakan conda

  • Buka terminal atau Anaconda Prompt jika Anda menggunakan Anaconda sebagai manajer paket.
  • Ketik perintah “conda install pandas” dan tekan Enter:
    Jika Anda menggunakan Anaconda, ini akan mengunduh dan menginstal Pandas dari repositori Anaconda.

Setelah menyelesaikan langkah-langkah di atas, library Pandas akan diinstal di lingkungan Python Anda. Anda dapat mengimpor dan menggunakannya dalam proyek dengan menambahkan pernyataan import pandas di skrip atau notebook Python Anda.

Struktur Data dalam Pandas

Pandas memiliki dua struktur data utama: Series dan DataFrame.

1. Series

Series adalah struktur data satu dimensi yang mirip dengan array atau list di Python. Ini adalah objek yang mengandung data berseri (serangkaian data) dan memiliki label atau indeks yang dapat disesuaikan. Anda dapat membuat Series dengan perintah pd.Series(data), dimana data dapat berupa list, array NumPy, atau dictionary. 

Contoh:

python

import pandas as pd 

data = [1, 2, 3, 4, 5] 

series = pd.Series(data) 

Anda dapat mengakses elemen-elemen dalam Series dengan indeks seperti dalam list atau array. Anda juga dapat menggunakan label indeks yang telah ditentukan jika ada. 

Contoh:

python

print(series[0]) # Mengakses elemen pertama 

print(series[1:4]) # Mengakses elemen dari indeks 1 hingga 3 

2. DataFrame

DataFrame merupakan struktur data dua dimensi yang mirip dengan tabel atau spreadsheet dalam Excel. Ini adalah objek yang terdiri dari baris dan kolom, di mana setiap kolom dapat berisi tipe data yang berbeda. Anda dapat membuat DataFrame dengan perintah pd.DataFrame(data), di mana data dapat berupa dictionary, list, atau array NumPy. 

Contoh:

import pandas as pd 

data = {‘Nama’: [‘John’, ‘Alice’, ‘Bob’], ‘Usia’: [28, 24, 22]}¬†

df = pd.DataFrame(data) 

Anda dapat mengakses data dalam DataFrame dengan berbagai cara, seperti mengakses kolom berdasarkan nama kolom atau mengakses baris berdasarkan indeks. 

Contoh:

print(df[‘Nama’]) # Mengakses kolom ‘Nama’

print(df.loc[1]) # Mengakses baris kedua dengan menggunakan label indeks

Penggunaan Series dan DataFrame dalam analisis data sangat luas. Contoh-contoh penggunaannya meliputi: pemrosesan dan pembersihan data, analisis statistik, visualisasi data, menggabungkan data, dan menganalisa data temporal.

Membaca dan Menulis Data

Pandas menyediakan cara untuk membaca dan menulis data dari berbagai sumber dan ke berbagai format file. Berikut  contoh cara membaca data dari sejumlah sumber dan menulis data ke berbagai format file:

Membaca Data dari Sumber Berbeda:

  1. Membaca Data dari CSV
    import pandas as pd df = pd.read_csv(‘data.csv’) # Membaca data dari file CSV
  1. Membaca Data dari Excel
    import pandas as pd df = pd.read_excel(‘data.xlsx’, sheet_name=’Sheet1′) # Membaca data dari file Excel
  1. Membaca Data dari SQL Database
    import pandas as pd
    import sqlite3
    conn = sqlite3.connect(‘database.db’) # Membuat koneksi ke database SQL query = ‘SELECT * FROM table_name’
    df = pd.read_sql(query, conn) # Membaca data dari tabel SQL conn.close() # Menutup koneksi
  1. Membaca Data dari JSON
    import pandas as pd
    df = pd.read_json(‘data.json’) # Membaca data dari file JSON
  1. Membaca Data dari Clipboard (Salinan dan Tempel):
    import pandas as pd
    df = pd.read_clipboard() # Membaca data dari clipboard (data yang disalin)

Menulis Data ke Berbagai Format File:

  1. Menulis Data ke CSV
    df.to_csv(‘output.csv’, index=False) # Menulis DataFrame ke file CSV
  1. Menulis Data ke Excel:
    df.to_excel(‘output.xlsx’, sheet_name=’Sheet1′, index=False) # Menulis DataFrame ke file Excel
  1. Menulis Data ke SQL Database:
    import sqlite3
    conn = sqlite3.connect(‘new_database.db’) # Membuat koneksi ke database SQL
    df.to_sql(‘new_table’, conn, index=False) # Menulis DataFrame ke tabel SQL conn.close() # Menutup koneksi
  1. Menulis Data ke JSON
    df.to_json(‘output.json’, orient=’records’) # Menulis DataFrame ke file JSON

Contoh Penggunaan:

Misalkan Anda memiliki file CSV yang berisi data penjualan, dan Anda ingin membacanya, melakukan analisis, dan menyimpan hasilnya kembali ke CSV:

import pandas as pd

# Membaca data dari CSV

sales_data = pd.read_csv(‘sales_data.csv’)

# Melakukan analisis data (contoh: menghitung total penjualan)

total_sales = sales_data[‘Total’].sum()

# Menyimpan hasil analisis ke file CSV baru

summary_data = pd.DataFrame({‘Total Penjualan’: [total_sales]})

summary_data.to_csv(‘summary.csv’, index=False)¬†

Baca juga : Perbandingan Aspek Penting Bahasa Pemrograman Java Dan Python

Pengindeksan dan Seleksi Data

Mengindeks dan memilih data dalam Series dan DataFrame adalah tugas penting dalam analisis data. Pandas menyediakan berbagai metode dan teknik untuk melakukan ini. Berikut beberapa cara mengindeks dan memilih data, serta penggunaan operator logis untuk seleksi data:

Mengindeks dan Memilih Data dalam Series:

1. Menggunakan Label Indeks

Anda dapat menggunakan label indeks untuk mengakses elemen dalam Series.

import pandas as pd
series = pd.Series([10, 20, 30, 40], index=[‘A’, ‘B’, ‘C’, ‘D’]) print(series[‘B’]) # Mengakses elemen dengan label indeks ‘B’

2. Menggunakan Slicing

Anda dapat menggunakan slicing untuk memilih sejumlah elemen dalam Series.

print(series[‘A’:’C’]) # Memilih elemen dari ‘A’ hingga ‘C’ inklusif

Mengindeks dan Memilih Data dalam DataFrame:

1. Menggunakan Nama Kolom

Anda dapat menggunakan nama kolom untuk mengakses data dalam kolom tertentu.

import pandas as pd

data = {‘Nama’: [‘Alice’, ‘Bob’, ‘Charlie’],¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†

¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†‘Usia’: [25, 30, 35]}

df = pd.DataFrame(data)

print(df[‘Nama’]) # Mengakses kolom ‘Nama’¬†

2. Menggunakan .loc[]

Anda dapat menggunakan .loc[] untuk memilih data berdasarkan label indeks baris dan kolom.

print(df.loc[0, ‘Nama’]) # Mengakses data di baris pertama dan kolom ‘Nama’¬†

Penggunaan Operator Logis untuk Seleksi Data: Anda dapat menggunakan operator logis seperti ==, >, <, >=, <=, dan & (and) atau | (or) untuk melakukan seleksi data berdasarkan kondisi tertentu.

  1. Contoh penggunaan operator logis dalam DataFrame untuk memilih baris dengan usia di atas 30:

selected_rows = df[df[‘Usia’] > 30]

  1. Contoh penggunaan operator logis dalam DataFrame untuk memilih baris dengan nama ‘Alice’ atau ‘Bob’:

selected_rows = df[(df[‘Nama’] == ‘Alice’) | (df[‘Nama’] == ‘Bob’)]¬†

  1. Contoh penggunaan operator logis dalam Series untuk memilih elemen yang lebih besar dari 20:

selected_elements = series[series > 20] 

Dengan menggunakan operator logis, Anda mudah melakukan pemilihan data berdasarkan kondisi tertentu. Pandas akan menghasilkan Series atau DataFrame baru yang hanya berisi data yang memenuhi kondisi tersebut.

Pemrosesan Data dengan Pandas

Pemrosesan data dasar adalah langkah penting dalam analisis data, dan Pandas menyediakan berbagai fungsi built-in untuk melakukan tugas-tugas pemrosesan tersebut. Berikut adalah cara melakukan pemrosesan data dasar dan beberapa contoh penggunaannya:

1. Penggantian Nilai yang Hilang (Missing Values):

Anda dapat menggunakan metode .isnull() atau .isna() untuk mengidentifikasi nilai yang hilang dalam DataFrame atau Series. Ini akan mengembalikan DataFrame/Series baru dengan nilai True di lokasi-nilai yang hilang dan False di lokasi-nilai yang valid.

import pandas as pd

import numpy as np

data = {‘A’: [1, 2, np.nan, 4],

¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†‘B’: [np.nan, 2, 3, 4]}

df = pd.DataFrame(data)

missing_values = df.isnull() # Mengidentifikasi nilai yang hilang 

2. Menggantikan Nilai yang Hilang

Anda dapat menggunakan metode .fillna() untuk mengganti nilai yang hilang dengan nilai tertentu. Misalnya, Anda dapat menggantinya dengan rata-rata kolom atau nilai tertentu.

# Menggantikan nilai yang hilang dengan rata-rata kolom ‘A’ df[‘A’].fillna(df[‘A’].mean(), inplace=True)¬†

3. Filtering

Anda dapat menggunakan operator logis seperti ==, >, <, >=, <=, dan & (and) atau | (or) untuk melakukan filtering berdasarkan kondisi tertentu.

# Mengambil baris dengan nilai ‘Usia’ lebih besar dari 30 selected_rows = df[df[‘Usia’] > 30]¬†

4. Fungsi-fungsi Built-in dalam Pandas:

Pandas memiliki banyak fungsi built-in yang berguna untuk pemrosesan data, termasuk fungsi statistik seperti mean(), sum(), min(), max(), dan lainnya. Anda juga dapat menggunakan fungsi seperti groupby(), pivot_table(), dan merge() untuk melakukan operasi yang lebih kompleks.

Contoh Aplikasi Pemrosesan Data dalam Analisis Data Nyata:

Misalkan Anda memiliki data penjualan produk dan ingin melakukan pemrosesan data untuk menghitung total penjualan per produk dan mengganti nilai yang hilang dengan nol:

import pandas as pd

import numpy as np

data = {‘Produk’: [‘A’, ‘B’, ‘A’, ‘C’, ‘B’],¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†

¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†‘Penjualan’: [100, np.nan, 200, 150, 120]}

df = pd.DataFrame(data) 

# Mengganti nilai yang hilang dengan nol df[‘Penjualan’].fillna(0, inplace=True)

# Menghitung total penjualan per produk total_penjualan = df.groupby(‘Produk’)[‘Penjualan’].sum().reset_index()

Dalam contoh ini, kami mengidentifikasi dan mengganti nilai yang hilang dengan nol, dan kemudian menggunakan groupby() untuk menghitung total penjualan per produk. Ini adalah contoh sederhana dari bagaimana pemrosesan data dapat digunakan dalam analisis data nyata untuk mendapatkan wawasan yang lebih baik dari data Anda.

Baca juga : Python: 8 Alasan Mengapa Bahasa Pemrograman Ini Layak Dipelajari

Penggabungan dan Pengelompokan Data

Menggabungkan dua DataFrame atau lebih menggunakan groupby() untuk mengelompokkan data adalah teknik penting dalam analisis data yang lebih kompleks. Berikut adalah penjelasan singkat tentang cara menggabungkan DataFrame dan penggunaan groupby():

Menggabungkan DataFrame:

Pandas menyediakan beberapa metode untuk menggabungkan DataFrame, yang paling umum adalah concat(), merge(), dan join(). Berikut contoh penggunaannya:

  1. concat(): Menggabungkan DataFrame berdasarkan indeks atau sumbu tertentu.

import pandas as pd

df1 = pd.DataFrame({‘A’: [‘A0’, ‘A1’, ‘A2’],¬†

¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†‘B’: [‘B0’, ‘B1’, ‘B2’]})

df2 = pd.DataFrame({‘A’: [‘A3’, ‘A4’, ‘A5’],¬†

¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†‘B’: [‘B3’, ‘B4’, ‘B5’]})

combined_df = pd.concat([df1, df2], axis=0) # Menggabungkan berdasarkan baris (indeks) 

  1. merge(): Menggabungkan DataFrame dengan cara yang mirip dengan penggabungan tabel SQL.

combined_df = pd.merge(df1, df2, on=’key_column’, how=’inner’) # Menggabungkan berdasarkan kolom ‘key_column’¬†

  1. join(): Menggabungkan DataFrame menggunakan operasi join, seperti dalam SQL.

combined_df = df1.join(df2, how=’inner’) # Menggabungkan berdasarkan indeks

Menggunakan groupby():

groupby() digunakan untuk mengelompokkan data berdasarkan kolom atau kriteria tertentu. Ini adalah langkah awal untuk melakukan operasi agregasi pada data yang dikelompokkan.

import pandas as pd

data = {‘Kategori’: [‘A’, ‘B’, ‘A’, ‘B’, ‘A’],¬†

¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†‘Nilai’: [10, 15, 20, 25, 30]}¬†

df = pd.DataFrame(data)

# Mengelompokkan data berdasarkan kolom ‘Kategori’ dan menghitung rata-rata nilai grouped = df.groupby(‘Kategori’)[‘Nilai’].mean()

Contoh Penggunaan dalam Analisis Data yang Lebih Kompleks:

Misalkan Anda memiliki data penjualan produk dari beberapa toko, dan Anda ingin menggabungkan data dari beberapa sumber (misalnya, beberapa file CSV yang berbeda) menjadi satu DataFrame besar. Setelah itu, Anda ingin mengelompokkan data berdasarkan kategori produk dan menghitung total penjualan per kategori. Berikut adalah langkah-langkahnya:

import pandas as pd 

# Membaca data dari beberapa file CSV

data1 = pd.read_csv(‘data1.csv’)

data2 = pd.read_csv(‘data2.csv’)

# Menggabungkan data dari berbagai sumber menjadi satu DataFrame combined_data = pd.concat([data1, data2], axis=0)

# Mengelompokkan data berdasarkan ‘Kategori Produk’ dan menghitung total penjualan result = combined_data.groupby(‘Kategori Produk’)[‘Penjualan’].sum().reset_index()¬†

Dalam contoh ini, kita menggabungkan data dari beberapa sumber menjadi satu DataFrame besar menggunakan concat(), dan kemudian menggunakan groupby() untuk mengelompokkan data berdasarkan kategori produk dan menghitung total penjualan per kategori. Ini adalah contoh penggunaan yang lebih kompleks dari teknik ini dalam analisis data.

Visualisasi Data dengan Pandas

Pandas memiliki kemampuan visualisasi data yang kuat melalui integrasinya dengan library grafik seperti Matplotlib. Ini memungkinkan Anda untuk dengan mudah membuat visualisasi data yang informatif dan dapat membantu Anda memahami pola dan tren dalam data Anda.

Pandas menyediakan metode .plot() yang memungkinkan Anda membuat berbagai jenis plot, seperti bar chart, line chart, scatter plot, histogram, dan sebagainya, secara langsung dari DataFrame atau Series. Berikut adalah contoh sederhana pembuatan plot menggunakan Pandas:

import pandas as pd 

import matplotlib.pyplot as plt 

# Membuat DataFrame sederhana 

data = {‘Bulan’: [‘Jan’, ‘Feb’, ‘Mar’, ‘Apr’, ‘Mei’],

¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†¬†‘Penjualan’: [100, 120, 140, 110, 130]} df = pd.DataFrame(data)

# Membuat bar chart 

df.plot(x=’Bulan’, y=’Penjualan’, kind=’bar’, title=’Grafik Penjualan Bulanan’)

# Menampilkan plot

 plt.show()

Visualisasi data adalah alat penting untuk menjadikan data lebih bermakna, memudahkan pemahaman, dan mendukung proses pengambilan keputusan dalam analisis data. Pandas, dengan kemampuannya untuk mengintegrasikan dengan Matplotlib dan library visualisasi lainnya, adalah alat yang sangat berguna dalam pembuatan plot dan visualisasi data dalam proyek analisis data.

Sumber Daya Tambahan

Untuk belajar lebih lanjut tentang Pandas, Anda dapat menggunakan berbagai referensi dan sumber daya belajar online berikut:

  1. Dokumen resmi Pandas : https://pandas.pydata.org/pandas-docs/stable/index.html
  2. Pandas Cheat Sheet
  3. Pandas cookbook : https://pandas.pydata.org/pandas-docs/stable/user_guide/cookbook.html
  4. Video Tutorial Pandas di Youtube
  5. Python Data Science Handbook : https://jakevdp.github.io/PythonDataScienceHandbook/

Baca juga : Rahasia Gaji Software Developer : Mengungkap Potensi Penghasilan Anda

Pandas merupakan fondasi yang sangat penting dalam analisis data dengan Python. Ini memungkinkan Anda untuk mengelola, memproses, dan menganalisis data dengan efisien, serta membuat visualisasi data yang kuat. Kemampuannya untuk membaca data dari berbagai sumber, menggabungkan dataset, dan melakukan pemrosesan data kompleks menjadikannya alat yang tak ternilai dalam dunia analisis data.

Dengan berbagai sumber daya yang tersedia, mulailah dengan membaca dokumentasi resmi Pandas dan berlanjutlah dengan latihan-latihan praktis, proyek-proyek analisis data, dan tutorial online. Pandas adalah alat yang hebat untuk membantu Anda menguasai tingkat keahlian yang lebih tinggi dalam analisis data.

 

Biztech Academy menyelenggarakan

Pelatihan tentang bahasa pemograman PYTHON!

Segera Daftarkan diri anda ke Contact Person Kami

5/5 - (1 vote)
Facebook
Twitter
LinkedIn
WhatsApp
Telegram

Leave a Reply

Your email address will not be published. Required fields are marked *

Fill out this field
Fill out this field
Please enter a valid email address.
You need to agree with the terms to proceed

This site uses Akismet to reduce spam. Learn how your comment data is processed.