Latihan Analisis Data Eksploratif (ADE)
Data diambil dari repository TidyTuesdayR.
Catatan
Microsoft Excel dan Spreadsheet mungkin akan ada perbedaan sedikit dari segi data direpresentasikan. Saya akan fokus ke Microsoft Excel.
Analisis data perlu data yang bersih dan rapi. Alur kerja yang biasa dilakukan adalah sebagai berikut:
Pada konteks ini, dataset memiliki kolom (1) State dan (2) 2004-05 sampai 2015-16.
Kolom 2004-05 sampai 2015-16 bisa disederhanakan menjadi 2004, 2005, 2006, …, 2015, dan memang akan labih logis dan lebih baik seperti ini karena setiap kolom akan merepresentasikan hasil agregasi per satu tahun. Data di setiap sel (cell) merupakan hasil agregasi sehingga ini tidak perlu direpresentasikan sebagai 2005-06 (atau seterusnya), bisa direpresentasikan sebagai 2005 saja supaya lebih ringkas dan komputer bisa merekognisi angka ini sebagai tahun dengan lebih lancar ketimbang 2005-06.
Di sini, saya menggunakan teknik “Autofill” ke kanan untuk mengubah kolom tahun.
2004-05 menjadi 2004 2005-06 menjadi 2005 2015-16
Semua sel di kolom B sampai M (kecuali sel B2) memiliki format tipe data “Custom” (bawaan dari sumber file). Saya mengubah format sel B2 menjadi Accounting untuk melihat apakah ada perubahan data. Biasanya notasi untuk big mark atau kelipatan ribuan selalu berbeda dari satu tempat ke tempat lain. Sebagian orang ada yang menggunakan . tapi sebagian ada yang menggunakan , untuk memisahkan kelipatan ribuan. Dalam konteks kali ini, sel B2 terlihat berbeda namun nilai aslinya tidak berubah (lihat Formula Bar).
Saya akan membiarkan data apa adanya, perubahan ke tipe data “Accounting” saya kembalikan ke “Custom” menggunakan “Undo”.
Tidak terdeteksi adanya nilai ekstrim dalam dataset ini. Saya lanjutkan ke tahap nomor 5.
Line chart akan sangat berguna untuk melihat tren yang muncul.
Pada tahap ini, saya membuat Line chart untuk melihat apakah ada tren unik yang muncul.
Select Data.Switch Row/Column.
Menggunakan statistika untuk memvalidasi temuan visual.
Saya membuat kolom baru bernama korelasi di samping kanan kolom 2015. Setelah itu, saya menggunakan fungsi correlation untuk melihat korelasi dan perubahan biaya UKT seiring berjalannya waktu.
=CORREL(B2:M2;$B$1:$M$1)
Setelah itu, saya menggunakan “Autofill” secara vertikal ke bawah untuk mempersingkat dan menyederhanakan proses kalkulasi.
Di kolom N, gunakan Conditional Formatting lalu pilih Color Scale untuk mwengidentifikasi mana yang negatif, stagnan, atau positif. Spesifiknya, saya menggunakan Red-Yellow-Green Color Scale lalu mengambil keputusan berdasarkan warna. Pada kasus ini, saya tertarik pada kemunculan warna hijau (Green) karena ini menunjukkan pergerakan yang cenderung stagnan, dan ini merupakan sesuatu yang unik relatif dengan group negara bagian AS yang lain.
Tips
Untuk mempermudah dan mempercepat proses identifikasi, bisa juga menggunakan Filter pada kolom
korelasidan urutkan dari yang terkecil ke terbesar (Sort A -> Z atau Sort Smallest to Largest).
Periksa kembali seluruh alur yang telah dikerjakan. Pastikan tidak ada kesalahan atau miskalkulasi.
Tahap Interpretasi adalah tahap yang sangat bergantung pada audiens. Jika kita ingin memberikan insight ini untuk calon mahasiswa, maka kita pandu audiens kita menggunakan narasi yang dilengkapi data hasil analisis. Jika audiens kita adalah pejabat negara atau pejabat pemerintah, maka kita harus mengubah dan menyesuaikan narasinya. Tentu kita tidak bisa membahas “negara bagian mana yang paling worth it untuk kita lamar” jika audiens nya pejabat negara. Mereka tidak memiliki kepentingan untuk berkuliah. Akan tetapi, jika kita buat narasinya sedemikian rupa sehingga selaras dan sejalan dengan apa yang audiens inginkan, misal tentang pertumbuhan ekonomi atau GDP (Gross Domestic Product) sedang audiens kita pejabat pemerintah, maka hasil analisis kita akan lebih bermanfaat.
Singkatnya, interpretasi bisa berbeda-beda tergantung dari siapa audiens kita.
Here are some more articles you might like to read next: