หน้าแรก » สถิติ » Correlation คืออะไร? เข้าใจพื้นฐานความสัมพันธ์ทางสถิติ

Correlation คืออะไร? เข้าใจพื้นฐานความสัมพันธ์ทางสถิติ

บทความโดย safesiri
Correlation คือ สหสัมพันธ์ คือ ค่า Correlation Coefficient คือ สถิติ วิจัย

Correlation และ Correlation Coefficient เป็นเครื่องมือทางสถิติที่ใช้ในการวัดความสัมพันธ์ระหว่างตัวแปร 2 ตัวแปรขึ้นไป ที่สามารถพบได้บ่อยในงานวิจัย การลงทุน และการศึกษาพฤติกรรมของผู้บริโภคทางการตลาด ในบทความนี้เราจะพาไปปูพื้นฐานของ Correlation หรือ สหสัมพันธ์ ที่อาจดูซับซ้อนแต่ไม่ได้ยากอย่างที่คิด

Correlation คือ อะไร?

Correlation คือ สหสัมพันธ์ เป็นการศึกษาความสัมพันธ์ทางสถิติระหว่าง 2 ตัวแปรขึ้นไปว่าตัวแปรที่ศึกษามีความสัมพันธ์ระหว่างกันมากน้อยแค่ไหน และตัวแปรดังกล่าวมีความสัมพันธ์กันในทิศทางใด

การศึกษา Correlation ของความสัมพันธ์ระหว่างตัวแปรทางสถิติจะวัดออกมาเป็น ค่าสัมประสิทธิ์สหสัมพันธ์ หรือ Correlation Coefficient ที่เป็นหน่วยวัดทางสถิติซึ่งมีค่าอยู่ระหว่าง -1 ถึง 1 ที่แสดงระดับและทิศทางของความสัมพันธ์ของตัวแปรว่ามีความสัมพันธ์กันในทิศทางใดมากแค่ไหน

ทั้งนี้ Correlation Coefficient สามารถหาได้จากหลายวิธีการทางสถิติตามความเหมาะสมของข้อมูลและความสัมพันธ์ที่ต้องการทราบ ซึ่งวิธีการหา Correlation ที่ได้รับความนิยมมากที่สุด คือ Pearson Correlation สำหรับความสัมพันธ์เชิงเส้นตรง (ตัวแปรแบบ Interval Scale หรือ Ratio Scale) และ Spearman Correlation สำหรับความสัมพันธ์ของตัวแปรที่สามารถนำมาเรียงลำดับได้ (ตัวแปรแบบ Ordinal Scale หรือ Interval Scale)

โดยค่า Correlation Coefficient ที่เป็นบวก คือ การที่ตัวแปรมีความสัมพันธ์ไปในทิศทางเดียวกัน (Positive Correlation) และในทางกลับกันค่า Correlation Coefficient (r) ที่เป็นลบ คือ การที่ตัวแปรมีความสัมพันธ์ไปในทิศทางตรงกันข้ามกัน (Negative Correlation)

ในขณะที่ค่า Correlation Coefficient (ค่า r) ที่ใกล้กับ 0 หมายถึง ความสัมพันธ์ระหว่างตัวแปร (ในทิศทางก็ตาม) ที่ต่ำกว่า และ Correlation Coefficient ที่เท่ากับ 0 หมายถึง การที่แต่ละตัวแปรไม่มีความสัมพันธ์กันอย่างสิ้นเชิง

ในบทความนี้เราจะอธิบาย Correlation ด้วย Pearson Correlation เป็นหลัก ซึ่งเป็นรูปแบบความสัมพันธ์ที่นิยมใช้มากที่สุด เนื่องจากมีวิธีการคำนวนที่ไม่ซับซ้อนและง่ายต่อการทำความเข้าใจความสัมพันธ์ (และเพียงพอต่อความเข้าใจในหลักการของ Correlation เบื้องต้น)

Pearson Correlation คืออะไร?

Pearson’s Product-moment Correlation Coefficient (PPMCC) หรือที่รู้จักกันในชื่อ Pearson Correlation คือ เครื่องมือสำหรับการหา Correlation หรือ ค่าสหสัมพันธ์ ของตัวแปรที่มีความสัมพันธ์เชิงเส้นตรงที่ใช้ตัวแปรแบบ Interval Scale หรือ Ratio Scale ซึ่งเมื่อนำข้อมูลแต่ละคู่มาเรียงกันโดยพลอตข้อมูลตามแกน x และแกน y ของข้อมูลแต่ละตัว แล้วถ้าหากข้อมูลมีความสัมพันธ์กัน (ไม่ว่าจะเชิงบวกหรือเชิงลบ) จะพบว่าจุดที่ได้พลอตลงไปเป็นกราฟจะเรียงกันเข้าใกล้ความเป็นเส้นตรงมากตามระดับความสัมพันธ์

หากข้อมูลมีความสัมพันธ์กันในระดับที่ Correlation Coefficient = 1 จุดที่พล็อตจะเรียงกันเป็นเส้นตรงพอดี ในทางกลับกันหากข้อมูล 2 ชุดระหว่างตัวแปร x และ y ไม่มีความสัมพันธ์กันอย่างสิ้นเชิง ในระดับที่ Correlation Coefficient = 0 พอดี จุดที่ทำการพลอตจะกระจัดกระจายอย่างสิ้นเชิงแสดงถึงความไม่เกี่ยวข้องกัน

ทั้งนี้ เราไม่จำเป็นที่จะต้องพลอตกราฟข้อมูลที่ละคู่ไปจนครบ แต่สามารถคำนวณด้วยสูตรคำนวณต่าง ๆ เพื่อหาค่าสัมประสิทธิ์สหสัมพันธ์ หรือ Correlation Coefficient หรือ ค่า r ของข้อมูลด้วยเครื่องมือทางสถิติที่มีอยู่มากมายในปัจจุบัน ซึ่งมีที่มาจากสมการต่อไปนี้

r = ∑(xi – x̅)(yi – ȳ) ÷ √ ∑(xi – x̅)2 ∑(yi – ȳ)2

โดยที่

  • r คือ ค่า Correlation Coefficient หรือ ค่าสัมประสิทธิ์สหสัมพันธ์ ที่เราต้องการ
  • xi คือ ค่าของตัวแปร x ของชุดข้อมูลที่ i
  • yi คือ ค่าของตัวแปร y ของชุดข้อมูลที่ i
  • x̅ คือ ค่า Mean ของตัวแปร x ทั้งหมด
  • ȳ คือ ค่า Mean ของตัวแปร y ทั้งหมด

แต่อย่างไรก็ตาม การนำ Pearson Correlation มาใช้กับตัวแปรที่ไม่ได้มีลักษณะความสัมพันธ์โดยมีแนวโน้มเป็นเส้นตรงจะนำไปสู่ความคลาดเคลื่อนที่แม้ว่า Correlation Coefficient จะมีค่าเท่ากัน แต่เมื่อนำข้อมูลมาพลอตเป็นกราฟจะพบว่าการกระจายของข้อมูลจะไม่ได้มีความสัมพันธ์กันอย่างที่ควร

โดยค่า Correlation Coefficient หรือ ค่า r ที่ได้จากการคำนวณตามสูตร Pearson Correlation ในเบื้องต้นจะสามารถแปลความหมายได้ ดังนี้

  • r = 1 มีความสัมพันธ์ในทิศทางเดียวกันอย่างสมบูรณ์ (Perfect Positive Correlation)
  • r = 0.8 มีความสัมพันธ์ในทิศทางเดียวกันอย่างมาก (Highly Positive Correlation)
  • r = 0.2 มีความสัมพันธ์ในทิศทางเดียวกันต่ำ (Low Positive Correlation)
  • r = 0 ไม่มีความสัมพันธ์กันอย่างสิ้นเชิง (No Correlation)
  • r = -0.2 มีความสัมพันธ์ในทิศทางตรงต่ำ (Low Negative Correlation)
  • r = -0.8 มีความสัมพันธ์ในทิศทางตรงข้ามอย่างมาก (Highly Negative Correlation)
  • r = -1 มีความสัมพันธ์ในทิศทางตรงข้ามกันอย่างสมบูรณ์ (Perfect Negative Correlation)

เมื่อเขียนเป็นแผนภาพการกระจาย (Scatter Chart) เพื่อแสดง Correlation ของตัวแปรให้เห็นภาพจะมีหน้าตาประมาณนี้

Correlation คือ สหสัมพันธ์ Correlation Coefficient คือ ตัวอย่าง การกระจายของข้อมูล
ตัวอย่าง (สมมติ) การกระจายของข้อมูลของ Correlation แต่ละรูปแบบ

Coefficient Correlation นำไปใช้อย่างไร

Correlation คือ สิ่งที่นิยมใช้ในการอธิบายความสัมพันธ์เชิงเส้นในทางสถิติของตัวแปร 2 ตัวแปร อย่างเช่น การศึกษาความสัมพันธ์ระหว่างปริมาณความต้องการสินค้า A เมื่อสินค้า B ขาดแคลน และความสัมพันธ์ระหว่างของราคาสินทรัพย์ทางการเงินมุมมองของการลงทุน

ในมุมมองของนักลงทุน มักจะใช้ Correlation อธิบายความสัมพันธ์ของราคาสินทรัพย์ 2 รายการที่ราคามีการเคลื่อนไหวสัมพันธ์กัน (ไม่ว่าจะในทิศทางใดก็ตาม) ซึ่งนักลงทุนมักจะใช้ Correlation เป็นเครื่องมือในการมองหาการลงทุนที่ให้ผลตอบแทนที่ไม่สัมพันธ์กัน (No Correlation) หรือ มีความสัมพันธ์ในทิศทางตรงข้ามกัน (Negative Correlation) เพื่อกระจายพอร์ตการลงทุนไปยังสินทรัพย์ประเภทต่าง ๆ ที่ทิศทางราคาไม่ได้ไปในทิศทางเดียวกัน

โดยตัวอย่างของสินทรัพย์ที่มีความสัมพันธ์แบบ Negative Correlation คือ ราคาหุ้น และ พันธบัตรรัฐบาล เมื่อตลาดหุ้นอยู่ในช่วงขาขึ้นซึ่งเหมาะกับการกอบโกยนักลงทุนมักจะย้ายเงินออกจากพันธบัตรและไปลงทุนในหุ้นซึ่งทำให้ราคาพันธบัตรลดลง แต่เมื่อผลตอบแทนจากตลาดหุ้นไม่ดีนักลงทุนมักจะย้ายเงินออกจากหุ้นและไปลงทุนในพันธบัตรซึ่งเป็นสินทรัพย์ที่ความเสี่ยงต่ำทำให้ราคาพันธบัตรและ Bond Yield พุ่งสูงขึ้น

ข้อควรระวังของ Correlation

ข้อควรระวังที่ควรรู้ของ Correlation คือ การวิเคราะห์ Correlation ทำให้ทราบความสัมพันธ์ระหว่างตัวแปรในเชิงแนวโน้มของข้อมูล แต่ไม่ได้บ่งชี้ว่าตัวแปรหนึ่งเป็นสาเหตุของอีกตัวแปรหนึ่งเสมอไป เนื่องจากอาจมีปัจจัยที่ไม่ทราบซึ่งมีอิทธิพลต่อตัวแปรและส่งผลให้ตัวแปร (ที่ได้รับผลจากอีกปัจจัย) เกิดความสัมพันธ์ระหว่างกัน

ตัวอย่างเช่น ความสัมพันธ์ระหว่างจำนวนผู้ป่วยโรคหัวใจกับจำนวนร้านขายไอศกรีมในเมืองหนึ่ง พบว่ามีความสัมพันธ์กันในเชิงบวก กล่าวคือ เมืองที่มีร้านขายไอศกรีม มักจะมีผู้ป่วยโรคหัวใจมากตามไปด้วย จะเห็นว่าความสัมพันธ์นี้ไม่ได้หมายความว่าร้านขายไอศกรีมเป็นสาเหตุของโรคหัวใจ แต่อาจจะเป็นเพราะปัจจัยอื่น เช่น สภาพอากาศ อาหารการกิน ฯลฯ ที่ส่งผลต่อทั้ง 2 ตัวแปร

อีกประเด็นหนึ่งคือ Correlation ไม่ได้บอกว่าที่สัมพันธ์กันนั้นส่งผลต่อกันมากแค่ไหน จากตัวอย่างเดิมที่เคยกล่าวถึง “ปริมาณความต้องการสินค้า A เมื่อสินค้า B ขาดแคลน” Correlation Coefficient คือ ตัวเลขที่จะบอกว่าสัมพันธ์กันอย่างไร แต่ไม่ได้บอกว่าจะมีความต้องการ B เพิ่มแค่ไหนเมื่อสินค้า A ขาดแคลน

บทความที่เกี่ยวข้อง

เว็บไซต์ของเราใช้คุกกี้ (Cookies) เพื่อมอบประสบการณ์ใช้งานที่ดียิ่งขึ้น ปรับตั้งค่าปฏิเสธ Cookies ยินยอม ดูรายละเอียด