Kerugian dari Regresi Linier

Posted on
Pengarang: Peter Berry
Tanggal Pembuatan: 19 Agustus 2021
Tanggal Pembaruan: 12 Boleh 2024
Anonim
perhitungan rmse sederhana, kesimpulan, dan kelemahan
Video: perhitungan rmse sederhana, kesimpulan, dan kelemahan

Isi

Regresi linier adalah metode statistik untuk menguji hubungan antara variabel dependen, dilambangkan sebagai y, dan satu atau lebih variabel independen, dilambangkan sebagai x. Variabel dependen harus kontinu, karena dapat mengambil nilai apa pun, atau setidaknya mendekati kontinu. Variabel independen dapat dari jenis apa pun. Meskipun regresi linier tidak dapat menunjukkan sebab akibat dengan sendirinya, variabel dependen biasanya dipengaruhi oleh variabel independen.

Regresi Linier Terbatas untuk Hubungan Linier

Secara alami, regresi linier hanya melihat hubungan linear antara variabel dependen dan independen. Artinya, diasumsikan ada hubungan garis lurus di antara mereka. Terkadang ini salah. Misalnya, hubungan antara pendapatan dan usia melengkung, yaitu, pendapatan cenderung meningkat di bagian awal masa dewasa, rata di masa dewasa nanti dan menurun setelah orang pensiun. Anda dapat mengetahui apakah ini merupakan masalah dengan melihat representasi grafis dari hubungan tersebut.

Regresi Linier Hanya Memandang Mean dari Variabel Dependen

Regresi linier melihat hubungan antara rata-rata variabel dependen dan variabel independen. Misalnya, jika Anda melihat hubungan antara berat lahir bayi dan karakteristik ibu seperti usia, regresi linier akan melihat berat rata-rata bayi yang dilahirkan oleh ibu dari berbagai usia. Namun, kadang-kadang Anda perlu melihat ekstrem dari variabel dependen, misalnya, bayi berisiko ketika beratnya rendah, jadi Anda ingin melihat ekstrem dalam contoh ini.

Sama seperti rata-rata bukan deskripsi lengkap dari satu variabel, regresi linier bukan deskripsi lengkap tentang hubungan antar variabel. Anda dapat mengatasi masalah ini dengan menggunakan regresi kuantitatif.

Regresi Linier Peka terhadap Pencilan

Pencilan adalah data yang mengejutkan. Pencilan dapat berupa univariat (berdasarkan satu variabel) atau multivarian. Jika Anda melihat usia dan pendapatan, outlier univariat akan menjadi hal-hal seperti orang yang berusia 118 tahun, atau orang yang menghasilkan $ 12 juta tahun lalu. Penggemar multivarian adalah remaja berusia 18 tahun yang menghasilkan $ 200.000. Dalam hal ini, baik usia maupun pendapatannya tidak terlalu ekstrem, tetapi sangat sedikit orang berusia 18 tahun yang menghasilkan uang sebanyak itu.

Pencilan dapat memiliki efek besar pada regresi. Anda dapat mengatasi masalah ini dengan meminta statistik pengaruh dari perangkat lunak statistik Anda.

Data Harus Independen

Regresi linier mengasumsikan bahwa data tersebut independen. Itu berarti bahwa skor dari satu subjek (seperti seseorang) tidak ada hubungannya dengan yang lain. Ini sering, tetapi tidak selalu, masuk akal. Dua kasus umum di mana tidak masuk akal adalah pengelompokan dalam ruang dan waktu.

Contoh klasik pengelompokan dalam ruang adalah nilai tes siswa, ketika Anda memiliki siswa dari berbagai kelas, nilai, sekolah dan distrik sekolah. Siswa di kelas yang sama cenderung serupa dalam banyak hal, yaitu, mereka sering berasal dari lingkungan yang sama, mereka memiliki guru yang sama, dll. Dengan demikian, mereka tidak mandiri.

Contoh pengelompokan waktu adalah studi mana pun Anda mengukur mata pelajaran yang sama beberapa kali. Misalnya, dalam studi diet dan berat badan, Anda mungkin mengukur setiap orang beberapa kali. Data-data ini tidak independen karena apa yang ditimbang seseorang pada satu kesempatan terkait dengan apa yang ia timbang pada kesempatan lain. Salah satu cara untuk mengatasinya adalah dengan model bertingkat.