Introduction to Statistics
Cheatsheet Content
### សេចក្តីផ្តើមនៃស្ថិតិ (Introduction to Statistics) #### ១.១ តើស្ថិតិជាអ្វី? (What is Statistics?) ស្ថិតិគឺជាវិទ្យាសាស្ត្រនៃការប្រមូល ការរៀបចំ ការបង្ហាញ ការវិភាគ និងការបកស្រាយទិន្នន័យដើម្បីជួយក្នុងការធ្វើសេចក្តីសម្រេចចិត្តឱ្យមានប្រសិទ្ធភាព។ - ដំណាក់កាលដំបូងនៃស្ថិតិ គឺត្រូវប្រមូលទិន្នន័យដែលពាក់ព័ន្ធនឹងបញ្ហាណាមួយ។ ការប្រមូលទិន្នន័យអាចធ្វើឡើងតាមរយៈការអង្កេត (observation study) ការស្ទង់មតិ (survey) ឬរៀបចំពិសោធន៍ (designed experiment)។ - បន្ទាប់មក ទិន្នន័យនេះត្រូវបានគេរៀបចំក្នុងទម្រង់ជាតារាង (tables) ក្រាប (graphs) គំនូសតាង (charts) ឬសង្ខេបដោយប្រើរង្វាស់លេខ (numerical measures)។ នៅពេលទិន្នន័យនេះ ត្រូវបានរៀបចំហើយទើបយើងអាចវិភាគ និងបកស្រាយវាបាន។ ##### ឧទាហរណ៍ 1. លទ្ធផលនៃការប្រឡងសញ្ញាបត្រមធ្យមសិក្សាទុតិយភូមិ 06/11/2023 បេក្ខជនប្រឡងជាប់ 72.89% (ប្រភព៖ MOEY 23/11/2023) 2. ការលក់សរុប (total sales) នៃហាងលក់គ្រឿងអលង្ការនៅសហរដ្ឋអាមេរិកមានតម្លៃ 27.4 ពាន់លានដុល្លារ ($27.4 billion) នៅឆ្នាំ 2004 (ប្រភព៖ New York Time Magazine, 12/04/2005) 3. ពេជ្រឆេះនៅសីតុណ្ហភាពចន្លោះ 1,400 °F និង 1,600 °F (ប្រភព៖ “The Book of Answers “by Barbara Berliner, 01/01/1990) 4. បម្រែបម្រួលថ្លៃហ៊ុន (price of share) នៃប័ណ្ណភាគហ៊ុនរបស់ក្រុមហ៊ុន Apple រវាងថ្ងៃទី 31 ខែ ធ្នូ ឆ្នាំ 2007 និងថ្ងៃទី 01 ខែ តុលា ឆ្នាំ 2008 ស្មើ –89% (ប្រភព៖ Yahoo Finance, 10/03/2008) 5. នៅឆ្នាំ 2008 ស្ត្រីជប៉ុនដែលស្ថិតនៅក្នុងវ័យ 20 ឆ្នាំមាន 12 ភាគរយបរិភោគត្រីបាឡែន (ប្រភព៖ Agence France Press 22/06/2006) - នៅក្នុងឧទាហរណ៍ទាំងនេះ ស្ថិតិគឺជាតម្លៃ ឬភាគរយ។ #### ១.២ មូលហេតុនៃការសិក្សាស្ថិតិ (Reasons to Study Statistics) មូលហេតុសំខាន់ៗបីយ៉ាងគឺ៖ - **ព័ត៌មានដែលមានរូបភាពជាតួលេខមាននៅគ្រប់ទីកន្លែង។** ប្រសិនបើអ្នកអានកាសែត ទស្សនាវដ្តី អ្នកនឹងជួបប្រទះព័ត៌មានដែលមានរូបភាពជាតួលេខ។ អ្នកត្រូវចេះកំណត់ថា តើសេចក្តីសន្និដ្ឋានដែលត្រូវបានគេរាយការណ៍សមហេតុផល ឬអត់។ តើសំណាកមានទំហំគ្រប់គ្រាន់ឬទេ? អ្នកត្រូវចេះអាន និងបកស្រាយគំនូសតាង និងក្រាបផ្សេងៗដែលគេបង្ហាញ។ - **វិធីសាស្ត្រស្ថិតិ ត្រូវបានគេប្រើដើម្បីធ្វើការសម្រេចចិត្តដែលមានឥទ្ធិពលលើការរស់នៅរបស់យើង។** ក្រុមហ៊ុនធានារ៉ាប់រងប្រើស្ថិតិដើម្បីកំណត់ទឹកប្រាក់ដែលត្រូវបង់សម្រាប់ការធានារ៉ាប់រងរថយន្ត។ - **ការយល់ដឹងនូវវិធីសាស្ត្រស្ថិតិជួយឱ្យអ្នកយល់ថាហេតុអ្វីបានជាត្រូវធ្វើសេចក្តីសម្រេចចិត្ត។** ការធ្វើសេចក្តីសម្រេចចិត្តរបស់អ្នកភាគច្រើនផ្អែកលើព័ត៌មានដែលព័ត៌មាននេះចេះពីទិន្នន័យ ស្ថិតិនឹងជួយឱ្យអ្នករកបាននូវទិន្នន័យដែលមានប្រយោជន៍។ ដូច្នេះការយល់ដឹងអំពីការវិភាគស្ថិតិនឹងជួយអ្នកច្រើនដើម្បីបម្លែងទិន្នន័យឱ្យទៅជាព៌ត៌មានដែលមានប្រយោជន៍សម្រាប់អ្នក។ #### ១.៣ ប្រភេទនៃស្ថិតិ (Types of Statistics) គេចែកស្ថិតិជាពីរប្រភេទ៖ ##### ១.៣.១ ស្ថិតិបែបពិពណ៌នា (Descriptive Statistics) - ជាស្ថិតិដែលសិក្សាទៅលើការរៀបចំ (organize) សង្ខេប (summarize) និងការតាងទិន្នន័យជាលេខដែលគេឱ្យ ឬដែលគេប្រមូលបាន។ គេរៀបចំ និងសង្ខេបទិន្នន័យដោយប្រើ៖ - **តារាង (tables):** តារាងប្រេកង់ (frequency tables) បំណែងចែកប្រេកង់ (frequency distribution) - **គំនូសតាង (charts):** ក្រាបដំបង (bar chart) ដ្យាក្រាមផ្លិត (pie chart) - **ក្រាប (graph):** ក្រាបខ្សែ (line graph) - **រង្វាស់ជាលេខ (numerical measures):** មធ្យម (mean) មេដ្យាន (median) ម៉ូត (mode) ##### Types of Data Visualization Visual representations make patterns and trends immediately clear. Choose the right chart type for your data story. - **Bar Charts & Histograms** - Compare categories or show frequency distributions. Great for discrete data and identifying patterns in grouped data. - **Pie Charts** - Display proportions and percentages of a whole. Best used when you have 3-6 categories to compare. - **Line Graphs** - Show trends over time or continuous data. Perfect for tracking changes and identifying patterns across periods. - **Scatter Plots** - Reveal relationships between two variables. Helps identify correlations and unusual data points (outliers). ##### ឧទាហរណ៍ ស្ថិតិពិពណ៌នា 1. ការស្ទង់មតិមហាជនបានឱ្យដឹងថាមាន $49\%$ នៃប្រជាជន បានស្គាល់ឈ្មោះសៀវភៅលើកទីមួយនៃសៀវភៅគម្ពីរគ្រឹស្តសាសនា។ ទិន្នន័យជាលេខ $49$ នេះគឺពិពណ៌នាអំពីចំនួនមនុស្សក្នុងចំណោម $100$ នាក់ដែលស្គាល់ឈ្មោះសៀវភៅទីមួយនៃគម្ពីរគ្រឹស្តសាសនានេះ។ - **ពិពណ៌នាអំពីសៀវភៅទីមួយនៃគម្ពីរគ្រឹស្តសាសនា** - ចំនួនសិស្សស្គាល់ ($49\%$) - ចំនួនសិស្សមិនស្គាល់ ($51\%$) 2. (តារាង) ចំនួនយានយន្តដែលមានគ្រោះថ្នាក់ចរាចរណ៍នៅក្នុងរាជធានីភ្នំពេញពីឆ្នាំ $1995$ ដល់ $1998$ - ប្រភព៖ ក្រសួងសាធារណការ និងដឹកជញ្ជូន | យានយន្ត (គ្រឿង) | 1995 | 1996 | 1997 | 1998 | |---|---|---|---|---| | ទោចក្រយានយន្ត | 688 | 448 | 523 | 550 | | រថយន្ត | 282 | 234 | 217 | 233 | - ដោយការមើលតារាង យើងអាចបកស្រាយបានថា នៅឆ្នាំ $1996$ ចំនួនយានយន្តដែលមានគ្រោះថ្នាក់ចរាចរណ៍មានការថយចុះ ប៉ុន្តែចាប់ពីឆ្នាំ $1997$ ទៅឆ្នាំ $1998$ ចំនួនយានយន្តដែលមានគ្រោះថ្នាក់ចរាចរណ៍មានការកើនឡើង។ ទាំងនេះម៉្យាងអាស្រ័យដោយកំនើនយានយន្តនៅក្រុងភ្នំពេញកើនឡើង និងម៉្យាងទៀតដោយការធ្វេសប្រហែសរបស់អ្នកបើកបរ។ ដូច្នេះ យើងត្រូវពង្រីការអប់រំបន្ថែមទៀតដល់អ្នកបើកបរដោយមានស្មារតីប្រុងប្រ័ត្នក្នុងការបើកបរ និងគោរពច្បាប់ចរាចរណ៍ឱ្យមានសីលធម៌ក្នុងការបើកបរ កុំបើកបរនៅពេលខ្លួនស្រវឹង។ ##### ១.៣.២ ស្ថិតិសន្និដ្ឋាន (Inferential Statistics) - ជាស្ថិតិដែលសិក្សាទាក់ទងនឹងការរកព័ត៌មានអ្វីមួយពីសកលស្ថិតិ (population)។ ស្ថិតិសន្និដ្ឋាន គឺជាវិធីសាស្ត្រមួយដែលគេប្រើ សម្រាប់ទាញបញ្ចេញនូវអ្វីពីសកលស្ថិតិ ដោយពឹងផ្អែកទៅលើគម្រូតាង (sample)។ - **សកលអាចជាមនុស្ស (individuals)** ដូចជាមាននិស្សិត $4600$ នាក់នៅក្នុង $AU$ ដែលបានបែងចែកអាស្រ័យលើតំបន់ផ្សេងៗគ្នា។ - **សកលអាចជាវត្ថុដូចជា (objects)** សំបកកង់រថយន្ត $XB-70$ ទាំងអស់ដែលផលិតដោយ Cooper Tire and Rubber Company នៅរោងចក្រ Findlay, Ohio ។ - **សកលអាចជារង្វាស់អ្វីមួយ** ដូចជាសំបកកង់រថយន្ត $XB-70$។ - **សំណុំធាតុជ្រើសចេញពីសាកល:** គំរូតាង (Sample) ##### ឧទាហរណ៍ ស្ថិតិសន្និដ្ឋាន 1. ព្រឹត្តិប័ត្រពិន្ទុរបស់និស្សិតប្រឡងចេញក្នុងអំឡុងពេល $5$ ឆ្នាំមុននៅសាកលវិទ្យាល័យមួយបានបង្ហាញថា $95\%$ នៃចំនួននិស្សិតឆ្នាំទីមួយដែលបានចូលរៀន ជាចុងបញ្ចប់បានប្រឡងបញ្ចប់ការសិក្សាដោយជោគជ័យ។ - តម្លៃជាលេខ $95\%$ ជាស្ថិតិពិពណ៌នា។ - ប្រសិនបើអ្នកជាសមាជិកម្នាក់នៃថ្នាក់ឆ្នាំទីមួយបច្ចុប្បន្នហើយទាញសន្និដ្ឋានពីការសិក្សានេះថា ឱកាសនៃការប្រឡងបញ្ចប់ការសិក្សារបស់អ្នកមានលើសពី $90\%$ អ្នកបានធ្វើការសន្និដ្ឋានស្ថិតិមួយ។ ##### លំហាត់អនុវត្ត **ប្រតិបត្តិ១:** ក្រុមហ៊ុន Market Facts ដែលមានមូលដ្ឋាននៅ Chicago បានឱ្យសំណាកនៃអតិថិជនចំនួន $1,960$ នាក់ភ្លក់រសជាតិត្រីបង្កក (Frozen Fish) ដែលទើបបង្កើតថ្មីដោយក្រុមហ៊ុន Morton ដែលមានឈ្មោះថា Fish Delight។ នៅក្នុងចំណោមអតិថិជន $1,960$ នាក់ ដែលគេជ្រើសរើសធ្វើសំណាកមានអតិថិជន $1,176$ នាក់និយាយថាពួកគេនឹងទិញវាប្រសិនបើវាត្រូវបានគេដាក់លក់នៅលើទីផ្សារ។ - **ក.** តើក្រុមហ៊ុន Market Facts ត្រូវរាយការណ៍ទៅក្រុមហ៊ុន Market Foods យ៉ាងដូចម្តេចទាក់ទងនឹងការទទួលយក Fish Delight នៅក្នុងសាកល? - **ខ.** តើនេះជាឧទាហរណ៍នៃស្ថិតិបែបពិពណ៌នា ឬ ស្ថិតិបែបសន្និដ្ឋាន? ចូរពន្យល់? **ចម្លើយ១:** - **ក.** ដើម្បីរាយការណ៍ទៅក្រុមហ៊ុន Market Foods អំពីការទទួលយក Fish Delight ក្រុមហ៊ុន Market Facts អាចផ្តល់របាយការណ៍ដែលផ្អែកលើទិន្នន័យដែលប្រមូលបានដូចខាងក្រោម៖ - **សមាមាត្រនៃការទទួលយក:** នៅក្នុងចំណោមអតិថិជន $1,960$ នាក់ដែលបានភ្លក់រសជាតិ Fish Delight មាន $1,176$ នាក់ (ឬប្រហែល $60\%$) បាននិយាយថាពួកគេនឹងទិញផលិតផលនេះប្រសិនបើវាត្រូវបានដាក់លក់នៅលើទីផ្សារ។ - **ការបកស្រាយ:** សមាមាត្រនេះបង្ហាញថា Fish Delight មានការទទួលយកជាវិជ្ជមានពីអតិថិជនភាគច្រើន ($60\%$) នៅក្នុងសំណាក។ នេះបង្ហាញថាផលិតផលនេះមានសក្តានុពលទីផ្សារល្អ ប៉ុន្តែក្រុមហ៊ុនគួរពិចារណាពីកត្តាផ្សេងទៀតដូចជាតម្លៃ ការប្រកួតប្រជែង និងការចែកចាយដើម្បីធានាជោគជ័យ។ - **ខ.** ទិន្នន័យនេះជាស្ថិតិបែបពិពណ៌នា ព្រោះវាគ្រាន់តែសង្ខេបលទ្ធផលពីសំណាក $1,960$ នាក់។ **ប្រតិបត្តិ២:** សង្គ្រាម Cola (Colar wars) គឺជាពាក្យដ៏មានប្រជាប្រិមភាពសម្រាប់ការប្រកួតប្រជែងដ៏ខ្លាំងក្លារវាងក្រុមហ៊ុន Coca-Cola និងក្រុមហ៊ុន Pepsi ដែលបានបង្ហាញតាមរយៈយុទ្ធនាការម៉ាឃីតធីងរបស់គេ។ គេប្រើតារាភាពយន្ត តារាចម្រៀងរ៉ក កីឡាករល្បីៗ និងការអះអាងរបស់អតិថិជននៅក្នុងយុទ្ធនាការរបស់គេ។ សន្មតថា ជាផ្នែកមួយនៃយុទ្ធនាការម៉ាឃីតធីងរបស់ក្រុមហ៊ុន Pepsi គេធ្វើតេស្តរសជាតិដោយមិនឱ្យឃើញឈ្មោះម៉ាកផលិតផលទាំងពីរ (blind taste test) ទៅលើអតិថិជនចំនួន $1,000$ នាក់។ គេឱ្យអតិថិជនម្នាក់ៗឆ្លើយនូវការពេញចិត្តរបស់គេលើម៉ាក A ឬម៉ាក B។ - **ក.** ចូរពិពណ៌នាសាកល។ - **ខ.** ចូរពិពណ៌នាសំណាក។ - **គ.** ចូរពិពណ៌នាការធ្វើសេចក្តីសន្និដ្ឋាន។ **ចម្លើយ២:** - **ក.** **សាកល:** អតិថិជន Cola ទាំងអស់នៅលើទីផ្សារ។ - **ខ.** **សំណាក:** អតិថិជន $1,000$ នាក់ដែលចូលរួមក្នុង blind taste test។ - **គ.** **ការធ្វើសេចក្តីសន្និដ្ឋាន:** ប្រើទិន្នន័យសំណាកដើម្បីប៉ាន់ស្មានថាតើអតិថិជនទាំងអស់ចូលចិត្ត Pepsi ឬ Coca-Cola ច្រើនជាង ដោយប្រើឧបករណ៍ស្ថិតិដូចជាចន្លោះជឿជាក់ ឬការធ្វើតេស្តសម្មតិកម្ម។ #### ១.៤ ប្រភេទអថេរស្ថិតិ (Types of Variables) ##### ១.៤ អថេរ (Variable) - អថេរ គឺជាលក្ខណៈសម្គាល់នៃឯកតានីមួយៗ ឬទិន្នន័យនីមួយៗ។ គេចែកអថេរជា $2$ ប្រភេទ៖ - **អថេរគុណភាព (qualitative variable):** ជាអថេរដែលមិនអាចបញ្ជាក់ជាតម្លៃលេខបានដូចជា ភេទ សាសនា ពណ៌ ជាដើម។ល។ - **អថេរបរិមាណ (quantitative variable):** ជាអថេរដែលអាចបញ្ជាក់ជាតម្លៃលេខបាន ដូចជាអាយុ ប្រាក់បៀវត្ស ម៉ាស ចំនួនគរុនិស្សិត ជាដើម។ល។ ##### ១.៤.១ អថេរបរិមាណ (Quantitative variable) - គេចែកអថេរបរិមាណជា $2$ ប្រភេទ៖ - **អថេរដាច់ (discrete variable):** ជាប្រភេទនៃអថេរក្នុងស្ថិតិដែលអាចយកតម្លៃក្នុងសំណុំរាប់អស់ ឬសំណុំរាប់បាន (ក្នុងន័យគណិតវិទ្យា) ឬអត្ថន័យស្រួលចាំគឺថា ជាតម្លៃជាក់ស្តែងដែលរាប់បានថាជាចំនួនគត់។ - **អថេរជាប់ (continuous variable):** ជាប្រភេទនៃអថេរក្នុងស្ថិតិដែលអាចយកតម្លៃក្នុងសំណុំរាប់មិនអស់ ឬសំណុំរាប់មិនបាន (ក្នុងន័យគណិតវិទ្យា) ឬអត្ថន័យស្រួលចាំគឺ សម្គាល់ទៅលើចំនួននោះមានលក្ខណៈជាទសភាគ។ - គេអាចសង្ខេបភាពខុសគ្នារវាងអថេរដាច់ និងអថេរជាប់ដូចខាងក្រោម៖ | អថេរដាច់ (Discrete) | អថេរជាប់ (Continuous) | |---|---| | តម្លៃជាក់លាក់ដែលអាចចែកបាន | ចំនួនរាប់មិនអស់នៃតម្លៃជាប្រភាគរវាងតម្លៃពី | | រាប់បាន (counting) | វាស់បាន (measuring) | ##### ឧទាហរណ៍ អថេរដាច់ 1. ចំនួនគរុនិស្សិតតាមថ្នាក់នីមួយៗ 2. ចំនួនឆ្នាំសិក្សារហូតដល់បញ្ចប់ការសិក្សា 3. ចំនួនសៀវភៅដែលបានអានក្នុងមួយខែ 4. ចំនួនដងកាក់ចេញមុខ ក្នុងល្បែងបោះកាក់មួយគ្រាប់ចំនួន $5$ ដង 5. ចំនួនបារីដែលបានជក់ក្នុងមួយថ្ងៃៗ 6. ចំនួនដងហាត់ប្រាណក្នុងមួយសប្ដាហ៍ 7. ចំនួនទំនិញដែលបានទិញនៅពេលទៅផ្សារទំនើបមួយ 8. ចំនួនមិត្តដែលបានស្នើជាមិត្តក្នុងបណ្តាញសង្គម Facebook/ Tik Tok 9. ចំនួនមនុស្សរស់នៅក្នុងខុនដូរមួយ 10. ចំនួនគ្រាប់បាល់ក្នុងការប្រកួតបាល់ទាត់វគ្គផ្តាច់ព្រ័ត្រនៃព្រឹត្តិការណ៍បាល់ទាត់ទ្វីបអឺរ៉ុប ##### ឧទាហរណ៍ អថេរជាប់ 1. កម្ពស់ 2. អាយុ 3. រយៈពេល 4. សីតុណ្ហភាព 5. សម្ពាធឈាម 6. ប្រាក់ចំណូល 7. ចម្ងាយ 8. បរិមាណទឹកភ្លៀង 9. ល្បឿនបើកបររថយន្ត ##### លំហាត់អនុវត្ត **ប្រតិបត្តិ៣:** ក្រុមហ៊ុនផលិតផលចំណីអាហារ កំពុងពិចារណាធ្វើម៉ាឃីតធីងអាហារក្រៅពេលថ្មីមួយ។ ដើម្បីយល់ដឹងនូវរបៀបដែលអតិថិជនប្រតិកម្មទៅនឹងផលិតផលនេះ ក្រុមហ៊ុនបានធ្វើតេស្តរសជាតិដោយប្រើសំណាកចៃដន្យចំនួន $100$ នាក់។ គេឱ្យអតិថិជនពិសារអាហារក្រៅពេលនេះ ហើយបន្ទាប់មកឱ្យគេបំពេញបញ្ជីសំនួរខ្លីដែលមានព័ត៌មានខាងក្រោម៖ - **ក.** តើអ្នកមានអាយុប៉ុន្មាន? - **ខ.** តើអ្នកជាអ្នកទិញចំណីអាហារជាប្រចាំសម្រាប់គ្រួសាររបស់អ្នក? - **គ.** តើនៅក្នុងគ្រួសាររបស់អ្នកមានសមាជិកប៉ុន្មាននាក់? - **ឃ.** តើអ្នកចាត់ថ្នាក់រសជាតិអាហារក្រៅពេលនេះយ៉ាងដូចម្តេចនៅលើកម្រិតពីលេខ $1$ ដល់លេខ $5$ ដែលមានន័យថាលេខ $1$ មិនឆ្ងាញ់សោះ? - **ង.** តើអ្នកទិញអាហារក្រៅពេលនេះឬទេ ប្រសិនបើគេដាក់លក់វានៅលើទីផ្សារ? - **ច.** ប្រសិនបើអ្នកឆ្លើយថាទិញក្នុងសំនួរទី៥ តើអ្នកទិញវាញឹកញាប់ឬទេ? ចូរចាត់ថ្នាក់ទិន្នន័យដែលប្រមូលសម្រាប់សំណួរនីមួយៗជា អថេរបែបគុណភាព ឬជាអថេរបែបបរិមាណ។ ប្រសិនបើជា អថេរបែបបរិមាណ តើជាអថេរដាច់ ឬអថេរជាប់? **ចម្លើយ៣:** - **ក. តើអ្នកមានអាយុប៉ុន្មាន?** - **ប្រភេទអថេរ:** អថេរបែបបរិមាណ (Quantitative) - **ហេតុផល:** អាយុគឺជាទិន្នន័យដែលអាចវាស់វែងបានជាលេខ (ឧ. $25$ ឆ្នាំ, $30$ ឆ្នាំ)។ - **ប្រភេទបរិមាណ:** អថេរជាប់ (Continuous) - **ខ. តើអ្នកជាអ្នកទិញចំណីអាហារជាប្រចាំសម្រាប់គ្រួសាររបស់អ្នក?** - **ប្រភេទអថេរ:** អថេរបែបគុណភាព (Qualitative) - **ហេតុផល:** ចម្លើយចំពោះសំណួរនេះជាធម្មតាជា "បាទ/ចាស" ឬ "ទេ" ដែលជាប្រភេទមិនអាចវាស់វែងជាលេខបាន ហើយជាទិន្នន័យបែបបរិយាយ។ - **ចំណាំ:** នេះជាអថេរគុណភាពបែបបញ្ញត្តិ (Nominal) ព្រោះមិនមានលំដាប់ឬកម្រិតនៅក្នុងចម្លើយ (បាទ/ទេ)។ - **គ. តើនៅក្នុងគ្រួសាររបស់អ្នកមានសមាជិកប៉ុន្មាននាក់?** - **ប្រភេទអថេរ:** អថេរបែបបរិមាណ (Quantitative) - **ហេតុផល:** ចំនួនសមាជិកគ្រួសារគឺជាទិន្នន័យដែលអាចរាប់បានជាលេខ (ឧ. $4$ នាក់, $6$ នាក់)។ - **ប្រភេទបរិមាណ:** អថេរដាច់ (Discrete) - **ហេតុផល:** ចំនួនសមាជិកគ្រួសារត្រូវបានរាប់ជាចំនួនគត់ (ឧ. $1, 2, 3$) មិនអាចជាចំនួនទសភាគ (ឧ. $3.5$ នាក់) បានទេ។ - **ឃ. តើអ្នកចាត់ថ្នាក់រសជាតិអាហារក្រៅពេលនេះយ៉ាងដូចម្តេចនៅលើកម្រិតពីលេខ $1$ ដល់លេខ $5$ ដែលមានន័យថាលេខ $1$ មិនឆ្ងាញ់សោះ?** - **ប្រភេទអថេរ:** អថេរបែបគុណភាព (Qualitative) - **ហេតុផល:** ទោះបីចម្លើយជាលេខ ($1$ ដល់ $5$) ក៏ដោយ កម្រិតនេះតំណាងឱ្យការវាយតម្លៃបែបប្រធានន័យ (subjective) ដែលមានលំដាប់ (ឧ. $1 = $ មិនឆ្ងាញ់សោះ, $5 = $ ឆ្ងាញ់ខ្លាំង)។ វាមិនមែនជាការវាស់វែងបរិមាណពិតប្រាកដទេ។ - **ចំណាំ:** នេះជាអថេរគុណភាពបែបលំដាប់ (Ordinal) ព្រោះចម្លើយមានលំដាប់ (ឧ. $1 "មិនញឹកញាប់") ប៉ុន្តែមិនមានចន្លោះបរិមាណច្បាស់លាស់រវាងចម្លើយទេ។ ##### Summary of types of variables #### ១.៥ តម្លៃប៉ារ៉ាម៉ែត្រ និងតម្លៃស្ថិតិ (Parameters and Statistics) ##### ១.៥.១ និមិត្តសញ្ញា តម្លៃប៉ារ៉ាម៉ែត្រ និងតម្លៃស្ថិតិ (Notation for Parameters and Statistics) - ប៉ារ៉ាម៉ែត្រ គឺជាចំនួនដែលពណ៌នាអំពីលក្ខណៈសាកលទាំងមូល ចំណែកឯ ស្ថិតិ ជាចំនួនដែលពណ៌នាឱ្យលក្ខណៈនៃគម្រូតាង។ | តម្លៃ (Value) | ប៉ារ៉ាម៉ែត្រ (Parameter) | ស្ថិតិ (Statistic) | |---|---|---| | មធ្យម (Mean) | $\mu$ | $\bar{x}$ | | វ៉ារ្យង់ (Variance) | $\sigma^2$ | $s^2$ | | គំលាតស្តង់ដា (Standard Deviation) | $\sigma$ | $s$ | | សមាមាត្រ (Proportion) | $P$ | $\hat{p}$ | ##### ឧទាហរណ៍ | ប៉ារ៉ាម៉ែត្រ (Parameter) | ស្ថិតិ (Statistic) | |---|---| | មធ្យមទម្ងន់គរុនិស្សិតក្រុម M5, M6, M7 ទាំងអស់ | មធ្យមទម្ងន់គរុនិស្សិតក្រុម M5, M6, M7 នៃគម្រូតាង $100$ នាក់ | | មេដ្យានប្រាក់ចំណូលគ្រូបង្រៀនទូទាំងប្រទេសកម្ពុជា | មេដ្យានប្រាក់ចំណូលគ្រូបង្រៀនចំនួន $5,000$ នាក់ | | គម្លាតស្តង់ដាចំនួនអ្នកដកប្រាក់តាមទូរ ATM ក្នុងធនាគារមួយ | គម្លាតស្តង់ដាចំនួនអ្នកដកប្រាក់តាមទូរ ATM ចំនួន $200$ នាក់ក្នុងធនាគារមួយ | | សមាមាត្រសិស្សមករៀនក្នុងមួយថ្ងៃនៃសាលារៀនមួយកន្លែង | សមាមាត្រសិស្ស $300$ នាក់មករៀនក្នុងមួយថ្ងៃនៃសាលារៀនមួយកន្លែង | ##### ឧទាហរណ៍ - យើងសង្កេតមើលសំណុំទិន្នន័យខាងក្រោមតាងឱ្យចំនួនកំហុសក្នុងការវាយអត្ថបទរបស់លេខាធិការិនីម្នាក់ចំនួន $10$ ទំព័រផ្សេងគ្នានៃឯកសារមួយ៖ $$1, \quad 2, \quad 1, \quad 2, \quad 3, \quad 1, \quad 1, \quad 4, \quad 0, \quad 2$$ - ជាដំបូងយើងសន្មតថា ឯកសារមានតែ $10$ ទំព័រ។ ទិន្នន័យនេះបង្កើតបានជាសាកលរាប់អស់តូចមួយ។ ការសិក្សានៃសាកលនេះនាំឱ្យយើងទៅដល់ការសន្និដ្ឋានមួយចំនួន។ ជាឧទាហរណ៍យើងអាចធ្វើសេចក្តីសន្និដ្ឋានថា ចំនួនធំបបំផុតនៃកំហុសក្នុងការវាយអត្ថបទលើទំព័រមួយស្មើ $4$ ឬអាចនិយាយថា កំហុសជាមធ្យមស្មើនឹង $$\frac{1+2+1+2+3+1+1+4+0+2}{10} = 1.5$$ - តម្លៃ $4$ ឬ $1.5$ ជាលក្ខណៈពិពណ៌នានៃសាកលរបស់យើង។ យើងហៅតម្លៃបែបនេះថា **តម្លៃប៉ារ៉ាម៉ែត្រនៃសាកល**។ ជាទម្លាប់គេតាងតម្លៃប៉ារ៉ាម៉ែត្រដោយអក្សរក្រិច។ - តម្លៃ $1.5$ នេះជាទំហំពណ៌នាអំពីគម្រូដែលយើងហៅថា **តម្លៃស្ថិតិ**។ ជាទម្លាប់គេតាងតម្លៃស្ថិតិដោយអក្សរឡាតាំងធម្មតា។ - ដោយសារគម្រូចៃដន្យជាច្រើនអាចជ្រើសរើសយកពីសាកលតែមួយ តម្លៃស្ថិតិអាចនឹងប្រែប្រួលពីសាកលមួយទៅសាកលមួយទៀត។ #### ១.៦ និមិត្តសញ្ញានៃផលបូក (Summation Notation) - ក្នុងស្ថិតិ ជាញឹកញាប់ត្រូវគណនាជាមួយប្រមាណវិធីបូកនៃតម្លៃលេខ។ ទិន្នន័យបរិមាណមួយប្រភេទ គេអាចកត់សម្គាល់សម្រាប់យកទៅគណនារកតម្លៃផ្សេងៗ តាងដោយ $x_1, x_2, x_3, ..., x_n$ ។ល។ ដូចគ្នាបើទិន្នន័យបរិមាណមួយប្រភេទផ្សេងទៀត គេអាចកត់សម្គាល់សម្រាប់យកទៅគណនារកតម្លៃប៉ារ៉ាម៉ែត្រ ឬតម្លៃស្ថិតិផ្សេងៗ តាងដោយ $y_1, y_2, y_3, ..., y_n$ ។ល។ គេអាចសរសេរផលបូកអថេរបញ្ចូលគ្នាទាំងអស់ បានដូចខាងក្រោម៖ $$x_1 + x_2 + x_3 + ... + x_n = \sum_{i=1}^{n} x_i$$ - បន្ទាប់មក គេប្រើលក្ខណៈនេះ ដើម្បីស្រាយរូបមន្តគ្រឹះនិមិត្តសញ្ញាផលបូកបានមួយចំនួនទៀតដូចខាងក្រោម៖ 1. $\sum_{i=1}^{n}(x_i + y_i) = \sum_{i=1}^{n} x_i + \sum_{i=1}^{n} y_i$ 2. $a \in R: \sum_{i=1}^{n} ax_i = a \sum_{i=1}^{n} x_i$ 3. $a \in R: \sum_{i=1}^{n} a = na$ 4. $a \in R: \sum_{i=1}^{n}(x_i - a)^2 = \sum_{i=1}^{n} x_i^2 - 2a \sum_{i=1}^{n} x_i + na^2$ ##### ឧទាហរណ៍ - **ឧទាហរណ៍១:** បរិមាណទម្ងន់ដែលបានថយចុះប្រចាំខែ (គិតជាគីឡូក្រាម) នៃមនុស្សធាត់ម្នាក់បន្ទាប់ពីប្រើថ្នាំបញ្ចុះទម្ងន់ ក្នុងរយៈពេល $6$ ខែដំបូងហើយដែលគាត់បានកត់ត្រា៖ $$0.50, \quad 1.00, \quad 0.90, \quad 0.80, \quad 0.50, \quad 0.50$$ - បើយើងកំនត់ឱ្យតម្លៃដែលបានកត់ត្រាទីមួយដោយ $x_1$ ទីពីរដោយ $x_2$ ហើយបន្តរបៀបនេះរហូតនោះគេបាន $$x_1 = 0.5, \quad x_2 = 1, \quad x_3 = 0.9, \quad x_4 = 0.8, \quad x_5 = 0.5, \quad x_6 = 0.6$$ - ដោយប្រើអក្សរក្រិច $\sum$ ដើម្បីចង្អុលបង្ហាញផលបូក យើងអាចសរសេរផលបូកនៃទម្ងន់ទាំង $6$ $$\sum_{i=1}^{6} x_i = x_1 + x_2 + x_3 + x_4 + x_5 + x_6 = 0.5 + 1 + 0.9 + 0.8 + 0.5 + 0.5 = 3.7$$ - **ឧទាហរណ៍២:** សម្រួលកន្សោម $\sum_{i=1}^{3}(x - i)^2$ - យើងមាន $\sum_{i=1}^{3}(x - i)^2 = \sum_{i=1}^{3}(x^2 – 2xi + i^2) = \sum_{i=1}^{3}x^2 – 2x \sum_{i=1}^{3} i + \sum_{i=1}^{3} i^2$ $$= 3x^2 – 2x(1 + 2 + 3) + (1 + 4 + 9) = 3x^2 – 12x + 14$$ ##### ចំណាំ - និមិត្តសញ្ញា $\sum_{i=1}^{n}\sum_{j=1}^{m}$ មានន័យថាជាដំបូងយើងធ្វើផលបូកលើសន្ទស្សន៍ $j$ ដោយប្រើទ្រឹស្តីផលបូកទោល ហើយបន្ទាប់មកធ្វើផលបូកទីពីរដោយ $i$ យកតម្លៃ $1$ ដល់ $n$។ ##### លំហាត់អនុវត្ត **ប្រតិបត្តិ១:** គណនា $\sum_{i=1}^{3}\sum_{j=2}^{4} X_{ij}$