និយមន័យនៃ Spidering និង Web Crawlers

សត្វពីងពាងនិង Web Crawler: អ្វីដែលអ្នកត្រូវដឹងដើម្បីការពារទិន្នន័យគេហទំព័រ

សត្វពីងពាងគឺជាកម្មវិធី (ឬស្គ្រីបដោយស្វ័យប្រវត្តិ) ដែល 'វារ' តាមរយៈបណ្ដាញស្វែងរកទិន្នន័យ។ សត្វពីងពាងធ្វើដំណើរតាមរយៈវេបសាយវេបសាយនិងអាចទាញទិន្នន័យពីគេហទំព័រដូចជាអាសយដ្ឋានអ៊ីមែល។ សត្វពីងពាងក៏ត្រូវបានប្រើដើម្បីផ្តល់ព័ត៌មានដែលបានរកឃើញនៅលើគេហទំព័រដើម្បីស្វែងរកម៉ាស៊ីន។

សត្វពីងពាងដែលត្រូវបានសំដៅផងដែរថាជា 'អ្នករុករកតាមអ៊ីនធឺណេត' ស្វែងរកវ៉ិបសាយហើយមិនមែនសុទ្ធតែជាមិត្តភាពទេ។

Spammers Spider Websites ដើម្បីប្រមូលព័ត៌មាន

Google, យ៉ាហ៊ូ!

និងម៉ាស៊ីនស្វែងរកផ្សេងទៀតមិនមែនជាអ្នកដែលចាប់អារម្មណ៍លើគេហទំព័ររាវរកទេដូច្នេះអ្នកបោកប្រាស់និងអ្នកផ្ញើរសារឥតបានការ។

សត្វពីងពាងនិងឧបករណ៍ស្វ័យប្រវត្តិផ្សេងទៀតត្រូវបានប្រើដោយអ្នកផ្ញើសារឥតបានការដើម្បីរកអាសយដ្ឋានអ៊ីធឺណិត (នៅលើអ៊ិនធរណេតការអនុវត្តនេះជារឿយៗត្រូវបានគេចាត់ទុកថាជា 'ការប្រមូលផល') នៅលើគេហទំព័រហើយបន្ទាប់មកប្រើវាដើម្បីបង្កើតបញ្ជីសារឥតបានការ។

សត្វពីងពាងក៏ជាឧបករណ៍ដែលប្រើដោយម៉ាស៊ីនស្វែងរកដើម្បីស្វែងរកព័ត៌មានបន្ថែមអំពីគេហទំព័ររបស់អ្នកប៉ុន្តែមិនត្រូវបានត្រួតពិនិត្យទេវេបសាយដោយគ្មានការណែនាំ (ឬ 'សិទ្ធិ') លើរបៀបរាវរកវែបសាយរបស់អ្នកអាចបង្ហាញហានិភ័យសុវត្ថិភាពព័ត៌មានសំខាន់ៗ។ សត្វពីងពាងធ្វើដំណើរតាមតំណភ្ជាប់ហើយពួកគេមានភាពឆ្លាតវៃក្នុងការស្វែងរកតំណទៅមូលដ្ឋានទិន្នន័យឯកសារកម្មវិធីនិងព័ត៌មានផ្សេងទៀតដែលអ្នកប្រហែលជាមិនចង់ឱ្យពួកគេចូលដំណើរការ។

អ្នកគ្រប់គ្រងអាចមើលកំណត់ហេតុដើម្បីមើលថាតើសត្វពីងពាងនិងមនុស្សយន្តផ្សេងទៀតបានទៅមើលគេហទំព័ររបស់ពួកគេ។ ព័ត៌មាននេះជួយឱ្យអ្នកគ្រប់គ្រងដឹងថានរណាជាអ្នកធ្វើលិបិក្រមតំបន់បណ្ដាញរបស់ពួកគេនិងចំនួនប៉ុន្មាន។

ព័ត៌មាននេះមានប្រយោជន៍ព្រោះវាអនុញ្ញាតិឱ្យអ្នកគ្រប់គ្រងគេហទំព័រកែតម្រូវ SEO របស់ពួកគេនិងធ្វើឱ្យឯកសារ robot.txt ទាន់សម័យដើម្បីហាមឃាត់មនុស្សយន្តណាមួយពីការរាវរកគេហទំព័ររបស់ពួកគេនាពេលអនាគត។

គន្លឹះក្នុងការការពារ Website របស់អ្នកពី Crawlers មនុស្សយន្តដែលមិនចង់បាន

មានវិធីសាមញ្ញយុត្តិធម៌ដើម្បីរក្សាអ្នកដែលមិនចង់បានចេញពីគេហទំព័ររបស់អ្នក។ ទោះបីជាអ្នកមិនមានការបារម្ភអំពីសត្វពីងពាងដែលបង្កគ្រោះថ្នាក់វែបសាយត៍របស់អ្នក (អាស័យដ្ឋានអ៊ីម៉េលមិនច្បាស់នឹងមិនការពារអ្នកពីអ្នកស្ទង់មតិទេអ្នកនៅតែត្រូវការផ្តល់នូវម៉ាស៊ីនស្វែងរកដែលមានសេចក្តីណែនាំសំខាន់ៗ។

វេបសាយទាំងអស់គួរតែមានឯកសារដែលមាននៅក្នុងថត root ដែលហៅថាឯកសារ robots.txt ។ ឯកសារនេះអនុញ្ញាតឱ្យអ្នកណែនាំអ្នករាវរកគេហទំព័រដែលអ្នកចង់ឱ្យគេរកមើលទំព័រលិបិក្រម (លុះត្រាតែមានការបញ្ជាក់ពីទិន្នន័យមេតារបស់ទំព័រជាក់លាក់ណាមួយដែលគ្មានលិបិក្រម) ប្រសិនបើពួកគេជាម៉ាស៊ីនស្វែងរក។

ដូចដែលអ្នកអាចប្រាប់អ្នកចាប់អារម្មណ៍ដែលអ្នកចង់ឱ្យពួកគេរកមើលអ្នកក៏អាចប្រាប់ពួកគេពីកន្លែងដែលពួកគេមិនអាចទៅរួចហើយរាំងខ្ទប់អ្នករាវរកជាក់លាក់ពីគេហទំព័រទាំងមូលរបស់អ្នក។

វាជាការសំខាន់ណាស់ក្នុងការចងចាំថាការដាក់បញ្ចូលឯកសារ robots.txt រួមគ្នានឹងមានតម្លៃយ៉ាងច្រើនសម្រាប់ម៉ាស៊ីនស្វែងរកហើយអាចជាធាតុផ្សំដ៏សំខាន់ក្នុងការធ្វើអោយប្រសើរឡើងនូវការអនុវត្តគេហទំព័ររបស់អ្នកប៉ុន្តែអ្នកហ្វឹកហាត់មនុស្សយន្តមួយចំនួននឹងនៅតែមិនអើពើចំពោះការណែនាំរបស់អ្នក។ សម្រាប់ហេតុផលនេះវាជាការសំខាន់ណាស់ដើម្បីរក្សាកម្មវិធីរបស់អ្នកកម្មវិធីជំនួយនិងកម្មវិធីទាំងអស់ទាន់សម័យគ្រប់ពេល។

អត្ថបទទាក់ទងនិងព័ត៌មាន

ដោយសារតែការរីករាលដាលនៃការប្រមូលព័ត៌មានដែលប្រើដើម្បីគោលបំណងសារឥតបានការច្បាប់ត្រូវបានអនុម័តកាលពីឆ្នាំ 2003 ដើម្បីធ្វើឱ្យការអនុវត្តជាក់លាក់មួយចំនួនខុសច្បាប់។ ច្បាប់ការពារអតិថិជនទាំងនេះស្ថិតនៅក្រោមច្បាប់ CAN-SPAM នៃឆ្នាំ 2003 ។

វាជាការសំខាន់ណាស់ដែលអ្នកចំណាយពេលដើម្បីអានលើច្បាប់ CAN-SPAM ប្រសិនបើអាជីវកម្មរបស់អ្នកចូលរួមក្នុងការផ្ញើសារឬការប្រមូលពត៌មានច្រើនពេក។

អ្នកអាចស្វែងយល់បន្ថែមអំពីច្បាប់ប្រឆាំងនឹងសារឥតបានការនិងរបៀបដោះស្រាយជាមួយអ្នកផ្ញើសារអេឡិចត្រូនិកនិងអ្វីដែលអ្នកជាម្ចាស់អាជីវកម្មអាចមិនធ្វើដោយអានអត្ថបទខាងក្រោម: