Biaya UKT di Negara Bagian Amerika Serikat

Latihan Analisis Data Eksploratif (ADE)

Dataset

Data diambil dari repository TidyTuesdayR.

Simpan file Excel
Buka dataset menggunakan Microsoft Excel atau Google Spreadsheet

Catatan

Microsoft Excel dan Spreadsheet mungkin akan ada perbedaan sedikit dari segi data direpresentasikan. Saya akan fokus ke Microsoft Excel.

Pembersihan Data

Analisis data perlu data yang bersih dan rapi. Alur kerja yang biasa dilakukan adalah sebagai berikut:

Impor data.
Cek penamaan setiap kolom; ubah penamaan jika kurang sesuai
Cek tipe data masing-masing kolom; sesuaikan data jika kurang/tidak sesuai
Cek summary statistics dari tiap kolom; gunakan skala Log pada kolom tertentu rentang satu kolom tersebut terlalu ekstrim.
Visualisasi
Validasi
Verifikasi
Interpretasi

Pada konteks ini, dataset memiliki kolom (1) State dan (2) 2004-05 sampai 2015-16.

Penamaan/Pelabelan

Kolom 2004-05 sampai 2015-16 bisa disederhanakan menjadi 2004, 2005, 2006, …, 2015, dan memang akan labih logis dan lebih baik seperti ini karena setiap kolom akan merepresentasikan hasil agregasi per satu tahun. Data di setiap sel (cell) merupakan hasil agregasi sehingga ini tidak perlu direpresentasikan sebagai 2005-06 (atau seterusnya), bisa direpresentasikan sebagai 2005 saja supaya lebih ringkas dan komputer bisa merekognisi angka ini sebagai tahun dengan lebih lancar ketimbang 2005-06.

Di sini, saya menggunakan teknik “Autofill” ke kanan untuk mengubah kolom tahun.

Ubah 2004-05 menjadi 2004
Ubah 2005-06 menjadi 2005
Autofill ke kanan sampai 2015-16

Tipe Data

Semua sel di kolom B sampai M (kecuali sel B2) memiliki format tipe data “Custom” (bawaan dari sumber file). Saya mengubah format sel B2 menjadi Accounting untuk melihat apakah ada perubahan data. Biasanya notasi untuk big mark atau kelipatan ribuan selalu berbeda dari satu tempat ke tempat lain. Sebagian orang ada yang menggunakan . tapi sebagian ada yang menggunakan , untuk memisahkan kelipatan ribuan. Dalam konteks kali ini, sel B2 terlihat berbeda namun nilai aslinya tidak berubah (lihat Formula Bar).

Data dengan tipe "Custom" (kiri) dan data dengan tipe "Accounting" (kanan) tidak ada perubahan pada nilai asli di Formula Bar.

Saya akan membiarkan data apa adanya, perubahan ke tipe data “Accounting” saya kembalikan ke “Custom” menggunakan “Undo”.

Summary Statistics

Tidak terdeteksi adanya nilai ekstrim dalam dataset ini. Saya lanjutkan ke tahap nomor 5.

Visualisasi

Line chart akan sangat berguna untuk melihat tren yang muncul.

Pada tahap ini, saya membuat Line chart untuk melihat apakah ada tren unik yang muncul.

Select semua kolom dan baris yang memiliki data.
Insert -> Chart -> Line -> 2-D Line.
Pada Line chart yang muncul, klik kanan lalu pilih Select Data.
Pilih Switch Row/Column.

Perpanjang (vertikal) Line chart untuk visibilitas lebih baik.
Identifikasi tren secara visual.

Kurang lebih ada 2 negara bagian Amerika Serikat dengan tren yang cenderung rata atau menaik sedikit.

Validasi

Menggunakan statistika untuk memvalidasi temuan visual.

Saya membuat kolom baru bernama korelasi di samping kanan kolom 2015. Setelah itu, saya menggunakan fungsi correlation untuk melihat korelasi dan perubahan biaya UKT seiring berjalannya waktu.

=CORREL(B2:M2;$B$1:$M$1)

Argumen kedua menggunakan simbol `$` untuk mempatenkan lokasi sel sehingga tidak ikut berubah ketika melakukan Autofill ke bawah.

Setelah itu, saya menggunakan “Autofill” secara vertikal ke bawah untuk mempersingkat dan menyederhanakan proses kalkulasi.

Di kolom N, gunakan Conditional Formatting lalu pilih Color Scale untuk mwengidentifikasi mana yang negatif, stagnan, atau positif. Spesifiknya, saya menggunakan Red-Yellow-Green Color Scale lalu mengambil keputusan berdasarkan warna. Pada kasus ini, saya tertarik pada kemunculan warna hijau (Green) karena ini menunjukkan pergerakan yang cenderung stagnan, dan ini merupakan sesuatu yang unik relatif dengan group negara bagian AS yang lain.

Terdeteksi dua negara bagian AS yang cenderung stagnan.

Tips

Untuk mempermudah dan mempercepat proses identifikasi, bisa juga menggunakan Filter pada kolom korelasi dan urutkan dari yang terkecil ke terbesar (Sort A -> Z atau Sort Smallest to Largest).

Verifikasi

Periksa kembali seluruh alur yang telah dikerjakan. Pastikan tidak ada kesalahan atau miskalkulasi.

Interpretasi

Tahap Interpretasi adalah tahap yang sangat bergantung pada audiens. Jika kita ingin memberikan insight ini untuk calon mahasiswa, maka kita pandu audiens kita menggunakan narasi yang dilengkapi data hasil analisis. Jika audiens kita adalah pejabat negara atau pejabat pemerintah, maka kita harus mengubah dan menyesuaikan narasinya. Tentu kita tidak bisa membahas “negara bagian mana yang paling worth it untuk kita lamar” jika audiens nya pejabat negara. Mereka tidak memiliki kepentingan untuk berkuliah. Akan tetapi, jika kita buat narasinya sedemikian rupa sehingga selaras dan sejalan dengan apa yang audiens inginkan, misal tentang pertumbuhan ekonomi atau GDP (Gross Domestic Product) sedang audiens kita pejabat pemerintah, maka hasil analisis kita akan lebih bermanfaat.

Singkatnya, interpretasi bisa berbeda-beda tergantung dari siapa audiens kita.

Enjoy Reading This Article?

Here are some more articles you might like to read next:

Arduino R3 Second Circuit

Traffic Lights in Arduino Uno R3

Rekomendasi Jurusan Fisika Terapan

Bahasa sebagai Alat Social Engineering

Self-Join in DBMS