Buat kamu yang udah sering bermain dengan data, kamu pasti nggak asing dengan data set. Tapi apa, sih, data set, dan apa contohnya?Data adalah komponen penting dalam bisnis dan perusahaan di era digital ini. Di dunia data science, bagaimana kita berinteraksi dengan data tidak terlepas dari penggunaan data set. Di artikel ini, MinDi bakal jelasin, apa itu data set, dan apa saja contoh-contoh data set yang bisa kita gunakan. Baca sampai habis, ya!
Daftar Isi Artikel
ToggleApa itu Data Set?
Data set merupakan kumpulan data yang diatur dalam format yang terstruktur, seperti tabel atau file, dan berisi informasi dari berbagai sumber. Data set dapat berupa data numerik, teks, gambar, atau gabungan dari semuanya. Keberagaman jenis data set ini memungkinkan aplikasi dalam berbagai industri dan disiplin ilmu.
Data set dikumpulkan oleh profesional di bidang data, seperti data analyst. Untuk bisa digunakan, data set perlu melewati beberapa tahapan pengolahan data, seperti data cleaning dan kategorisasi. Sehingga, data set yang dapat digunakan oleh profesional biasanya terkumpul berdasarkan kategorinya masing-masing, dan di dalamnya terdapat variabel-variabel yang saling berhubungan.
Jenis-jenis Data Set
Berikut jenis data set yang dapat Anda pilih untuk memudahkan pekerjaan:
Numerical Data Set
Numerical Data set merupakan data yang terdiri dari data numerik. Data numerik merupakan data yang dapat dihitung, diukur dan diolah menggunakan penghitungan matematik. Contoh dari numerical data set yaitu jumlah siswa laki-laki dan siswa perempuan dalam satu kelas. Kemudian dijumlahkan untuk mendapatkan jumlah keseluruhan siswa dalam kelas tersebut.
Correlation Data Set
Correlation data set merupakan data yang terdiri dari dua entitas atau variabel yang menunjukkan suatu bentuk hubungan satu sama lain. Contoh dari data correlation data set yaitu adanya asumsi bahwa orang yang tinggi cenderung lebih berat daripada orang yang pendek, di sini variabel berat badan dan tinggi badan saling berkaitan satu sama lain.
Categorical Data Set
Categorical data set merupakan data yang terdiri dari kumpulan informasi yang dapat dibagi menjadi beberapa kelompok. Data yang dihasilkan dikatakan categorical karena dapat dikelompokkan berdasarkan variabel yang sama. Contohnya, dalam biodata seperti jenis kelamin, negara tempat tinggal dan lain sebagainya.
Multivariate Data Set
Multivariate data set merupakan sekumpulan data yang terdiri dari dua variabel atau lebih. Contoh dari data multivariate data set yaitu kumpulan data tinggi badan dan berat badan siswa dalam satu kelas. Mengapa dikatakan multivariate data set karena terdapat dua variabel yaitu, tinggi badan dan berat badan siswa.
Bivariate Data Set
Bivariate Data Set merupakan data yang dikumpulkan ke dalam dua variabel dan dalam setiap titik variabel memiliki data yang sesuai dengan nilainya. Contohnya, Anda dapat mengumpulkan data suhu luar dengan penjualan es campur.Â
Contoh Data Set
Biar kamu makin paham tentang data set, yuk kita lihat contoh-contoh berikut.
Populasi Ternak
| No. | Kecamatan | Sapi | Kerbau | Kuda |
| 1 | Sanga Desa | 1769 | 62 | 0 |
| 2 | Babat Toman | 1412 | 400 | 0 |
| 3 | Batanghari Leko | 734 | 57 | 0 |
| 4 | Plakat Tinggi | 4675 | 0 | 0 |
| 5 | Lawang Wetan | 1308 | 0 | 0 |
Data set di atas menggambarkan populasi ternak dari berbagai kecamatan di suatu wilayah. Dalam data set tersebut, terdapat nama-nama kecamatan, dan populasi dari hewan-hewan ternak seperti sapi, kerbau, dan kuda.
Dari data set tersebut, kamu bisa mengambil beberapa informasi, seperti populasi ternak total pada suatu kecamatan, atau mencari kecamatan mana yang memiliki populasi hewan tertentu paling banyak.
Netflix Userbase
| User ID | Subscription Type | Join Date | Last Payment Date | Country | Age | Device |
| 1 | Basic | 15-01-22 | 10/6/2023 | United States | 28 | Smartphone |
| 2 | Premium | 5/9/2021 | 22-06-23 | Canada | 35 | Tablet |
| 3 | Standard | 28-02-23 | 27-06-23 | United Kingdom | 42 | Smart TV |
| 4 | Standard | 10/7/2022 | 26-06-23 | Australia | 51 | Laptop |
| 5 | Basic | 1/5/2023 | 28-06-23 | Germany | 33 | Smartphone |
Data set selanjutnya adalah contoh userbase dari Netflix, yang dapat diunduh pada situs Kaggle. Pada userbase tersebut, ada beberapa dimensi yang tercakup, seperti jenis langganan, tanggal berlayanan pertama dan terbaru, negara asal, umur, dan perangkat penggunaan.
Dari kategori yang banyak ini, kamu bisa mengambil banyak informasi pula. Misalnya, kamu dapat mencari informasi tentang retention rate. Dari kolom country, kamu juga bisa membuat peta data. Masih banyak lagi informasi yang bisa kamu gali.
Selain itu, kamu juga bisa lihat bahwa pada data set di atas, format penanggalan berbeda-beda untuk setiap barisnya. Hal itu menandakan bahwa kamu perlu memberlakukan formatting terlebih dahulu agar data lebih mudah diolah.
Kegiatan Radiologi dan Pelayanan Rumah Sakit
| Bulan | Foto tanpa bahan kontras | Foto dengan bahan kontras | Foto gigi | USG | CT Scan di kepala | CT Scan di luar kepala |
| Januari | 210 | 9 | 0 | 103 | 0 | 0 |
| Februari | 199 | 5 | 0 | 88 | 0 | 0 |
| Maret | 235 | 10 | 0 | 81 | 0 | 0 |
| April | 201 | 4 | 0 | 97 | 0 | 0 |
Contoh data set terakhir adalah data set tentang kegiatan radiologi di suatu rumah sakit dari bulan Januari hingga April. Di dalam data set, ada beberapa layanan, dan banyaknya akses terhadap layanan tersebut tiap bulannya.
Seperti data set populasi ternak di atas, data set ini juga memberikan informasi numerik untuk berbagai layanan dan bulan yang berbeda-beda. Kamu bisa menyimpulkan layanan mana yang paling banyak diakses, juga bulan apa yang paling banyak aktivitas.
Public Data Set yang Bisa Kamu Akses
Kalau kamu ingin mencoba mengolah data set secara mandiri, ada beberapa situs yang memberikan data set publik dan dapat kamu akses. Berikut adalah beberapa contohnya.
- Kaggle. Kaggle merupakan situs yang berisi beragam data set untuk berbagai kondisi dan kasus.
- Google Dataset Search. Yang satu ini sama seperti search engine Google pada umumnya, namun dikhususkan untuk pencarian data set. Kamu menulis informasi yang ingin kamu cari, dan Google Dataset Search akan memberikan link ke situs yang menyediakan data set buat kamu.
- Datahub.io. Situs ini juga menyediakan banyak data, khususnya yang berhubungan dengan bisnis. Namun kamu perlu membuat akun, dan beberapa data set juga memerlukan akses khusus.
- Data.go.id. Kalau kamu ingin mencari data-data dalam negeri yang dikumpulkan oleh pemerinthan, kamu bisa periksa situs ini.
Apabila Anda yang tertarik mempelajari lebih dalam mengenai penggunaan data set, Anda dapat mengikuti kursus IT online di Coding Studio, untuk informasi lebih lanjutnya Anda dapat menghubungi link resmi ITBOX.


