آمار پارامتری
آمار پارامتری
آمار پارامتری به مجموعه روشهای آماریای گفته میشود که مدلای پارامتری برای پدیدهٔ احتمالی مورد مطالعه فرض میشود و همهٔ استنتاجهای آماری از آن پس بر اساس آن مدل انجام میشود.
به عنوان مثال فرض میشود که توزیع نمرههای یک امتحان از توزیع نرمال پیروی میکند. در نتیجه برای مشخصشدن توزیع احتمال، کافی است میانگین و واریانس توزیع را از روی دادههای تجربی (نمرههای دانشآموزان) به دست بیاوریم. حال برای پاسخگفتن به سوالهایی چون «درصد دانشآموزانی که نمرهای بین ۱۰ تا ۱۵ آوردهاند» از تابع توزیع به دست آمده استفاده میکنیم (البته بدیهی است که روشهای سادهتری نیز برای چنین کاری وجود دارد).
نقطهٔ ضعف این شیوهٔ تحلیل آماری این است که در صورتی که مدل فرضشده با واقعیت تطبیق نداشته باشد، نتیجهگیریها صحیح نخواهد بود.
آماره
آماره در آمار به عددی گویند که یک توزیع نمونهبرداری را خلاصهسازی یا توصیف میکند.
تابع U=g(X۱, X۲, …, Xn) از نمونهٔ تصادفی X۱, X۲, …, Xn را که در آن پارامتر مجهولی وجود نداشته باشد یک آماره میگویند. در این تعریف U یک متغیر تصادفی است که توزیع آن ممکن است به پارامتر بستگی نداشته باشد؛ اما تنها آمارههایی برای برآورد کردن مفید هستند که توزیعشان به پارامتر مجهول بستگی داشته باشد و اطلاعاتی در مورد این پارامتر به ما بدهند.
آنتروپی آماری
انتروپی آماری یک کمیت ترمودینامیکی است که در شیمیفیزیک کاربردهای فراوان دارد.
استنباط آماری
چنانچه به جای مطالعه کل اعضای جامعه، بخشی از آن با استفاده از فنون نمونهگیری انتخاب شده، و مورد مطالعه قرار گیرد و بخواهیم نتایج حاصل از آن را به کل جامعه تعمیم دهیم از روشهایی استفاده میشود که موضوع آمار استنباطی (Inferential statistics) است. آن چه که مهم است این است که در گذر از آمار توصیفی به آمار استنباطی یا به عبارت دیگر از نمونه به جامعه بحث و نقش احتمال شروع میشود. در واقع احتمال، پل رابط بین آمار توصیفی و استنباطی به حساب میآید.
توزیع جامعه
توزیع جامعه یا توزیع جمعیت (به انگلیسی: Population distribution) در آمار به توزیع تمام مشاهدات امکان پذیر را گویند.
چولگی
در آمار و نظریه احتمالات چولگی نشان دهنده میزان عدم تقارن توزیع احتمالی است. اگر دادهها نسبت به میانگین متقارن باشند، چولگی برابر صفر خواهد بود.
تعریف
چولگی برابر با گشتاور سوم نرمال شده است. چولگی در حقیقت معیاری از وجود یا عدم تقارن تابع توزیع می باشد. برای یک توزیع کاملاً متقارن چولگی صفر و برای یک توزیع نامتقارن با کشیدگی به سمت مقادیر بالاتر چولگی مثبت و برای توزیع نامتقارن با کشیدگی به سمت مقادیر کوچکتر مقدار چولگی منفی است.
دادهکاوی
داده کاوی، پایگاهها و مجموعههای حجیم دادهها را در پی کشف واستخراج دانش، مورد تحلیل و کند و کاوهای ماشینی (و نیمهماشینی) قرار میدهد. این گونه مطالعات و کاوشها را به واقع میتوان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینهها و کاربردها، و نیز ابعاد و اندازههای دادههای امروزین است که شیوههای ماشینی مربوط به یادگیری، مدلسازی، و آموزش را طلب مینماید.
در سال 1960 آماردانان اصطلاح "Data Fishing" یا "Data Dredging"به معنای "صید داده" را جهت کشف هر گونه ارتباط در حجم بسیار بزرگی از داده ها بدون در نظر گرفتن هیچگونه پیش فرضی بکار بردند. بعد از سی سال و با انباشته شدن داده ها در پایگاه های داده یا Database اصطلاح "Data Mining" یا داده کاوی در حدود سال 1990 رواج بیشتری یافت. اصطلاحات دیگری نظیر "Data Archaeology"یا "Information Harvesting" یا "Information Discovery" یا"Knowledge Extraction" نیز بکار رفته اند.
اصطلاح Data Mining همان طور که از ترجمه آن به معنی داده کاوی مشخص میشود به مفهوم استخراج اطلاعات نهان و یا الگوها وروابط مشخص در حجم زیادی از دادهها در یک یا چند بانک اطلاعاتی بزرگ است.
مقدمه
بسیاری از شرکتها و موسسات دارای حجم انبوهی از اطلاعات هستند. تکنیکهای دادهکاوی به طور تاریخی به گونهای گسترش یافتهاند که به سادگی میتوان آنها را بر ابزارهای نرمافزاری و ... امروزی تطبیق داده و از اطلاعات جمع آوری شده بهترین بهره را برد.
در صورتی که سیستمهای Data Mining بر روی سکوهای Client/Server قوی نصب شده باشد و دسترسی به بانکهای اطلاعاتی بزرگ فراهم باشد، میتوان به سوالاتی از قبیل :کدامیک از مشتریان ممکن است خریدار کدامیک از محصولات آینده شرکت باشند، چرا، در کدام مقطع زمانی و بسیاری از موارد مشابه پاسخ داد.
ویژگیها
یکی از ویژگیهای کلیدی در بسیاری از ابتکارات مربوط به تامین امنیت ملی، داده کاوی است. داده کاوی که به عنوان ابزاری برای کشف جرایم، ارزیابی میزان ریسک و فروش محصولات به کار میرود، در بر گیرنده ابزارهای تجزیه و تحلیل اطلاعات به منظور کشف الگوهای معتبر و ناشناخته در بین انبوهی از داده هاست. داده کاوی غالباً در زمینه تامین امنیت ملی به منزله ابزاری برای شناسایی فعالیتهای افراد خرابکار شامل جابه جایی پول و ارتباطات بین آنها و همچنین شناسایی و ردگیری خود آنها با برسی سوابق مربوط به مهاجرت و مسافرت هاست. داده کاوی پیشرفت قابل ملاحظهای را در نوع ابزارهای تحلیل موجود نشان میدهد اما محدودیتهایی نیز دارد. یکی از این محدودیتها این است که با وجود اینکه به آشکارسازی الگوها و روابط کمک میکند اما اطلاعاتی را در باره ارزش یا میزان اهمیت آنها به دست نمیدهد. دومین محدودیت آن این است که با وجود توانایی شناسایی روابط بین رفتارها و یا متغیرها لزوماً قادر به کشف روابط علت و معلولی نیست. موفقیت داده کاوی در گرو بهره گیری از کارشناسان فنی و تحلیل گران کار آزمودهای است که از توانایی کافی برای طبقه بندی تحلیلها و تغییر آنها برخوردار هستند. بهره برداری از داده کاوی در دو بخش دولتی و خصوصی رو به گسترش است. صنایعی چون بانکداری، بیمه، بهداشت و بازار یابی آنرا عموماً برای کاهش هزینهها، ارتقاء کیفی پژوهشها و بالاتر بردن میزان فروش به کار میبرند. کاربرد اصلی داده کاوی در بخش دولتی به عنوان ابزاری برای تشخیص جرایم بودهاست اما امروزه دامنه بهره برداری از آن گسترش روزافزونی یافته و سنجش و بهینه سازی برنامهها را نیز در بر میگیرد. بررسی برخی از برنامههای کاربردی مربوط به داده کاوی که برای تامین امنیت ملی به کار میروند، نشان دهنده رشد قابل ملاحظهای در رابطه با کمیت و دامنه دادههایی است که باید تجزیه و تحلیل شوند. تواناییهای فنی در داده کاوی از اهمیت ویژهای برخوردار اند اما عوامل دیگری نیز مانند چگونگی پیاده سازی و نظارت ممکن است نتیجه کار را تحت تأثیر قرار دهند. یکی از این عوامل کیفیت داده هاست که بر میزان دقت و کامل بودن آن دلالت دارد. عامل دوم میزان سازگاری نرمافزار داده کاوی با بانکهای اطلاعاتی است که از سوی شرکتهای متفاوتی عرضه میشوند عامل سومی که باید به آن اشاره کرد به بیراهه رفتن داده کاوی و بهره برداری از دادهها به منظوری است که در ابتدا با این نیت گرد آوری نشدهاند. حفظ حریم خصوصی افراد عامل دیگری است که باید به آن توجه داشت. اصولاً به پرسشهای زیر در زمینه داده کاوی باید پاسخ داده شود:
سازمانهای دولتی تا چه حدی مجاز به بهره برداری از دادهها هستند؟
آیا از دادهها در چارچوبی غیر متعارف بهره برداری میشود؟
کدام قوانین حفظ حریم خصوصی ممکن است به داده کاوی مربوط شوند؟
کاوش در دادهها بخشی بزرگ از سامانههای هوشمند است. سامانههای هوشمند زیر شاخهایست بزرگ و پرکاربرد از زمینه علمی جدید و پهناور یادگیری ماشینی که خود زمینهایست در هوش مصنوعی.
فرایند گروه گروه کردن مجموعهای از اشیاء فیزیکی یا مجرد به صورت طبقههایی از اشیاء مشابه هم را خوشهبندی مینامیم.
با توجه به اندازههای گوناگون (و در اغلب کاربردها بسیار بزرگ و پیچیده) مجموعههای دادهها مقیاسپذیری الگوریتمهای به کار رفته معیاری مهم در مفاهیم مربوط به کاوش در دادهها است.
کاوشهای ماشینی در متون حالتی خاص از زمینهٔ عمومیتر کاوش در دادهها بوده، و به آن دسته از کاوشها اطلاق میشود که در آنها دادههای مورد مطالعه از جنس متون نوشته شده به زبانهای طبیعی انسانی باشد.
چیستی
داده کاوی به بهره گیری از ابزارهای تجزیه و تحلیل دادهها به منظور کشف الگوها و روابط معتبری که تا کنون ناشناخته بودهاند اطلاق میشود. این ابزارها ممکن است مدلهای آماری، الگوریتمهای ریاضی و روشهای یاد گیرنده (Machine Laming Method) باشند که کار این خود را به صورت خودکار و بر اساس تجربهای که از طریق شبکههای عصبی (Neural Networks) یا درختهای تصمیم گیری (Decision Trees) به دست میآورند بهبود میبخشد. داده کاوی منحصر به گردآوری و مدیریت دادهها نبوده و تجزیه و تحلیل اطلاعات و پیش بینی را نیز شامل میشود برنامههای کاربردی که با بررسی فایلهای متن یا چند رسانهای به کاوش دادهها می پردازند پارامترهای گوناگونی را در نظر میگیرد که عبارت اند از:
قواعد انجمنی (Association): الگوهایی که بر اساس آن یک رویداد به دیگری مربوط میشود مثلاً خرید قلم به خرید کاغذ.
ترتیب (Sequence): الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص میکند کدام رویداد، رویدادهای دیگری را در پی دارد مثلاً تولد یک نوزاد و خرید پوشک.
پیش بینی(Prediction): در پیش بینی هدف پیش بینی یک متغیر پیوسته می باشد. مانند پیش بینی نرخ ارز یا هزینه های درمانی.
رده بندی یا طبقه بندی (Classification): فرآیندی برای پیدا کردن مدلی است که رده های موجود در دادهها را تعریف می نماید و متمایز می کند، با این هدف که بتوان از این مدل برای پیش بینی رده رکوردهایی که برچسب رده آنها(متغیر هدف) ناشناخته می باشد، استفاده نمود. در حقیقت در رده بندی بر خلاف پیش بینی، هدف پیش بینی مقدار یک متغیر گسسته است. روش های مورد استفاده در پیش بینی و رده بندی عموما یکسان هستند.
خوشه بندی(Clustering): گروه بندی مجموعه ای از اعضاء، رکوردها یا اشیاء به نحوی که اعضای موجود در یک خوشه بیشترین شباهت را به یکدیگر و کمترین شباهت را به اعضای خوشه های دیگر داشته باشند.
مصورسازی (visualization): مصورسازی داده ها یکی از قدرتمندترین و جذابترین روش های اکتشاف در داده ها می باشد.
برنامههای کاربردی که در زمینه تجزیه و تحلیل اطلاعات به کار میروند از امکاناتی چون پرس و جوی ساخت یافته (Structured query) که در بسیاری از بانکهای اطلاعاتی یافت میشود و از ابزارهای تجزیه و تحلیل آماری برخوردارند اما برنامههای مربوط به داده کاوی در عین برخورداری از این قابلیتها از نظر نوع با آنها تفاوت دارند. بسیاری از ابزارهای ساده برای تجزیه و تحلیل دادهها روشی بر پایه راستی آزمایی (verifiction)را به کار میبرند که در آن فرضیهای بسط داده شده آنگاه دادهها برای تایید یا رد آن بررسی میشوند. به طور مثال ممکن است این نظریه مطرح شود که فردی که یک چکش خریده حتماً یک بسته میخ هم خواهد خرید. کارایی این روش به میزان خلاقیت کاربر برای ارایه فرضیههای متنوع و همچنین ساختار برنامه بکار رفته بستگی دارد. در مقابل در داده کاوی روشهایی برای کشف روابط بکار برده میشوند و به کمک الگوریتمهایی روابط چند بعدی بین دادهها تشخیص داده شده و آنهایی که یکتا (unique) یا رایج هستند شناسایی میشوند. به طور مثال در یک فروشگاه سختافزار ممکن است بین خرید ابزار توسط مشتریان با تملک خانه شخصی یا نوع خودرو، سن، شغل، میزان درآمد یا فاصله محل اقامت آنها با فروشگاه رابطهای برقرار شود.
در نتیجه قابلیتهای پیچیدهاش برای موفقیت در تمرین داده کاوی دو مقدمه مهم است یکی فرمول واضحی از مشکل که قابل حل باشد و دیگری دسترسی به داده متناسب. بعضی از ناظران داده کاوی را مرحلهای در روند کشف دانش در پایگاه دادهها میدانند (KDD). مراحل دیگری در روند KDD به صورت تساعدی شامل، پاکسازی داده، انتخاب داده انتقال داده، داده کاوی، الگوی ارزیابی، و عرضه دانش میباشد. بسیاری از پیشرفتها در تکنولوژی و فرایندهای تجاری بر رشد علاقهمندی به داده کاوی در بخشهای خصوصی و عمومی سهمی داشتهاند. بعضی از این تغییرات شامل:
رشد شبکههای کامپیوتری که در ارتباط برقرار کردن پایگاهها داده مورد استفاده قرار میگیرند.
توسعه افزایش تکنیکهایی بر پایه جستجو مثل شبکههای عصبی و الگوریتمهای پیشرفته.
گسترش مدل محاسبه کلاینت سروری که به کاربران اجازه دسترسی به منابع دادههای متمرکز شده را از روی دسک تاپ میدهد.
و افزایش توانایی به تلفیق داده از منابع غیر متناجس به یک منبع قابل جستجو میباشد.
علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا میکند. در طول چند سال گذشته افزایش سریع جمع آوری و نگه داری حجم اطلاعات وجود داشتهاست. با پیشنهادهای برخی از ناظران مبنی بر آنکه کمیت دادههای دنیا به طور تخمینی هر ساله دوبرابر میگردد. در همین زمان هزینه ذخیره سازی دادهها بطور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کردهاست. مطابقا قدرت محاسبهها در هر ۱۸ – ۲۴ ماه به دوبرابر ارتقاء پیدا کردهاست این در حالی است که هزینه قدرت محاسبه رو به کاهش است. داده کاو به طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کردهاست. سازمانها داده کاوی را به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده میکنند. با اینهمه ازدیاد داده کاوی به طبع بعضی از پیاده سازی و پیامد اشتباه را هم دارد.اینها شامل نگرانیهایی در مورد کیفیت دادهای که تحلیل میگردد، توانایی کار گروهی پایگاههای داده و نرمافزارها بین ارگانها و تخطیهای بالقوه به حریم شخصی میباشد.همچنین ملاحظاتی در مورد محدودیتهایی در داده کاوی در ارگانها که کارشان تاثیر بر امنیت دارد، نادیده گرفته میشود.
محدودیتهای داده کاوی
در حالیکه محصولات داده کاوی ابزارهای قدرتمندی میباشند، اما در نوع کاربردی کافی نیستند.برای کسب موفقیت، داده کاوی نیازمند تحلیل گران حرفهای و متخصصان ماهری میباشد که بتوانند ترکیب خروجی بوجود آمده را تحلیل و تفسیر نمایند.در نتیجه محدودیتهای داده کاوی مربوط به داده اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد.
اگرچه داده کاوی به الگوهای مشخص و روابط آنها کمک میکند، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمیکند.تصمیماتی از این قبیل بر عهده خود کاربر است.برای نمونه در ارزیابی صحت داده کاوی، برنامه کاربردی در تشخیص مظنونان تروریست طراحی شده که ممکن است این مدل به کمک اطلاعات موجود در مورد تروریستهای شناخته شده، آزمایش شود.با اینهمه در حالیکه ممکن است اطلاعات شخص بطور معین دوباره تصدیق گردد، که این مورد به این منظور نیست که برنامه مظنونی را که رفتارش به طور خاص از مدل اصلی منحرف شده را تشخیص بدهد.
تشخیص رابطه بین رفتارها و یا متغیرها یکی دیگر از محدودیتهای داده کاوی میباشد که لزوماًروابط اتفاقی را تشخیص نمیدهد.برای مثال برنامههای کاربردی ممکن است الگوهای رفتاری را مشخص کند، مثل تمایل به خرید بلیط هواپیما درست قبل از حرکت که این موضوع به مشخصات درآمد، سطح تحصیلی و استفاده از اینترنت بستگی دارد.در حقیقت رفتارهای شخصی شامل شغل(نیاز به سفر در زمانی محدود)وضع خانوادگی(نیاز به مراقبت پزشکی برای مریض)یا تفریح (سود بردن از تخفیف دقایق پایانی برای دیدن مکانهای جدید) ممکن است بر روی متغیرهای اضافه تاثیر بگذارد.
ابزارهای داده کاوی
معروفترین ابزارهای دادهکاوی به ترتیب پرطرفدار بودن
Clementine که نسخه ۱۳ ان با نام SPSS Modeler نامیده میشود.
رپیدماینر
نرمافزار وکا
نرمافزار
برنامه های کاربردی و نرمافزار های داده کاوی متن-باز رایگان
Carrot2: پلتفرمی برای خوشه بندی متن و نتایج جستجو
Chemicalize.org: یک کاوشگر ساختمان شیمیایی و موتور جستجوی وب
ELKI: یک پروژه تحقیقاتی دانشگاهی با تحلیل خوشه ای پیشرفته و روش های تشخیص داده های خارج از محدوده که به زبان جاوا نوشته شده است.
GATE: یک پردازشگر زبان بومی و ابزار مهندسی زبان.
برنامه های کاربردی و نرمافزار های داده کاوی تجاری
Angoss KnowledgeSTUDIO: ابزار داده کاوی تولید شده توسط Angoss.
BIRT Analytics: ابزار داده کاوی بصری و تحلیل پیش بینی گر تولید شده توسط Actuate Corporation.
Clarabridge: راه حل تحلیلگر کلاس متن.
(E-NI(e-mining, e-monitor: ابزار داده کاوی مبتنی بر الگوهای موقتی.
IBM SPSS Modeler: نرمافزار داده کاوی تولید شده توسط IBM
Microsoft Analysis Services: نرمافزار داده کاوی تولید شده توسط مایکروسافت
Oracle Data Mining: نرمافزار داده کاوی تولید شده توسط اوراکل (کمیک)
بررسی اجمالی بازار نرمافزار های داده کاوی
تا کنون چندین محقق و سازمان بررسی هایی را بر روی ابزار های داده کاوی و راهنماییهایی برای داده کاو ها تهیه دیده اند. این بررسی ها بعضی از نقاط ضعف و قوت بسته های نرمافزاری را مشخص می کنند. همچنین خلاصه ای را از رفتار ها، اولویت ها و دید های داده کاوها تهیه کرده اند
درجه آزادی (آمار)
درجه آزادی یکی از مفاهیم بنیادین در آمار است. درک بسیاری از مفاهیم مطرح در آمار وابسته به درک مناسبی از این مفهوم است. بر اساس زمینهٔ کاربرد و شیوهٔ نگرش میتوان تعاریف مختلفی برای آن ارائه نمود که همه یک مفهومند:
در نظریهٔ برآورد:
تعداد مقادیری که یک آماره امکان تغییر دارد
تعداد مشاهدات مستقل منهای تعداد پارامترهای برآورد شده.
بطور معادل: تعداد مشاهدات مستقل منهای تعداد روابط معلوم میان مشاهدات
در نظریه آزمون:
بعد فضای مجهول (مدل کامل) منهای بعد فضای مفروض (مدل مقید)
در جبر خطی:
رتبهٔ یک فرم درجه دوم
بطور معادل: تعداد ابعاد یک زیر فضا که یک بردار میتواند آزادانه گردش کند (مربع طول بردار یک فرم درجه دوم است)
درک شهودی
مثال: یک عدد ثابت امکان تغییر ندارد پس درجه آزادی آن برابر صفر است.
یک نقطه در صفحه یک رابطه میان دو متغیر در فضای دو بعدی است. با این نقطه نمیتوان میزان همبستگی خطی دو متغیر را با برآورد خط رگرسیون تخمین زد. چون بینهایت خط از این نقطه گذراست. (تصویر مقابل) در این مثال درجه آزادی صفر است (تعداد مشاهدات مستقل - تعداد روابط معلوم میان مشاهدات = 0) اگر خطی را بعنوان خط رگرسیونی در نظر بگیریم، این مدل نه قابل رد و نه قابل قبول است. بنابراین تعداد نمونه های قابل استفاده برای این مدل صفر است.
برای رسم خط رگرسیون حداقل دو نقطه لازم است. با دو نقطه یک درجه آزادی وجود دارد. از دو نقطه فقط یک خط گذر میکند و این خط تنها برآورد ممکن است. با اینکه دقت برآورد 100 درصد است اما این دقت کاذب به علت کم بودن درجات آزادی و اطلاعات قابل استفاده است. نمونه های زیادی از تحقیقات با رسیدن به دقتی بالا تصور میکنند که مدل بدست آمده مناسب است . در حالی که درجات آزادی کم باعث این اشتباه شده است.
مثال: اگر دو مشاهده داشته باشیم، برای برآورد میانگین دو مشاهدهء مستقل داریم، اما برای برآورد واریانس تنها یک مشاهدهء مستقل وجود دارد. زیرا هر دو مشاهده دارای یک فاصله از میانگین هستند.
دیدگاه فلسفی
برای درک بهتر این مفهوم میتوان درجهء آزادی را یک معادل برای درجهء ابطال پذیری از دیدگاه فلاسفه ای مانند کارل پوپر دانست. اگر در مسئله ای درجات آزادی کم
باشد معادل است با اینکه ابطال پذیری آن مسئله کم است. یعنی با هر مشاهده ای تایید میشود و قابل ابطال نیست.
سازمان آماری
سازمان آماری سازمانی خدماتی است که وظیفهٔ تهیهٔ آمار را بر عهده دارد. دلیل وجود، رشد و مشارکت مشهود آنها در امور مربوط به دولت و جامعةخود، از توانایی آنها در تهیة اطلاعاتی برای حل مسائل مهم ریشه میگیرد. ولی اولویتها میتوانند سریعتر از توانایی سازمان برای تعدیل تلاش تولیدی خود تغییر کنند. به این دلیل، مهم است که مسئولان ارشد آن دارای شم قوی و روابطی باشند که بتوانند مشکلات جدی را شناسایی کرده و آنها را از آنچه ممکن است چیزی جز مسایل گذرا نباشند متمایز کنند.
شاخصهای پراکندگی
سنجشهای پراکندگی (به انگلیسی: Measures of Variability) به اعدادی گویند که پراکندگی مجموعهای از مشاهدات یا دادههای اندازه گیری شدهای را خلاصه و توصیف میکنند.
دامنه، واریانس، و انحراف معیار، هر سه نمونههایی از سنجشهای پراکندگی هستند.
ضریب تغییرات
در نظریه احتمال و آمار ضریب تغییرات (به انگلیسی: coefficient of variation، مخفف:CV) یک معیار بهنجار است که برای اندازهگیری توزیع دادههای آماری به کار میرود.
به عبارت دیگر ضریب تغییرات، میزان پراکندگی به ازای یک واحد از میانگین را بیان میکند. این مقدار زمانی تعریف شده است که میانگین صفر نباشد.
این مقدار بیبعد است به همین دلیل مناسب برای مقایسه دادههای آماری است که واحدهای مختلفی دارند.
ضریب تغییرات تنها قابل کاربرد برای مقیاسهای نسبی است و نمیتوان ار آن برای سنجش مقادیری که میتوانند مقدار منفی بگیرند استفاده کرد یا به بیان بهتر نمیتوان از آن برای سنجش مقادیر فاصلهای بهره برد. مثلاً اگر درجه حرارت را با مقیاس فارنهایت در نظر بگیریم برای آن نمیتوان از ضریب تغییر اسفاده کرد و باید از مقیاس کلوین که همیشه مقداری مثبت است استفاده کرد.
متغیر پنهان
متغیرهای پنهان(در مقابل متغیرهای مشاهده شده)در آمار، متغیرهای هستند که بصورت مسقیم قابل مشاهده نیستند اما از میان متغیرهای دیگر که قابل مشاهده هستند توسط یک الگوی ریاضی استنباط میشوند. آنها همچنین بعضی وقتها تحت عنوان متغیرهای پنهان، پارامترها ی مدل، متغیرهای فرضی یا ساختارهای فرضی شناخته میشوند.. استفاده متغیرهای پنهان در علوم اجتماعی متداول است، اقتصاد، پزشکی و تا حدی روبوتیک اما تعریف دقیق یک متغیر پنهان در این رشتهها کمی متفاوت است. مثالهای از متغیرهای پنهان در حوزه اقتصاد عبارتند از کیفیت زندگی، اطمینان کار، روحیه، خوشحالی و اصول محافظهکاری: اینها متغیرها هستند که مستقیماً نمیتوان آنها را سنجید. با این وجود یک مدل اقتصادی را میتوان از پیوند این متغیرهای پنهان با متغیرهای مشاهده شده (از قبیل تولید ناخالص داخلی) بدست آورد و مقادیر متغیرهای پنهان را از متغیرهای مشاهده شده محاسبه و استنباط نمود.
متغیر تصادفی
در آمار و احتمال متغیر تصادفی متغیری است که مقدار آن از اندازهگیری برخی از انواع فرآیندهای تصادفی بدست میآید. بطور رسمیتر، متغیر تصادفی تابعی است از فضای نمونه به اعداد حقیقی. بطور مستقیم متغیر تصادفی توصیف عددی خروجی یک آزمایش است (مثل برآمدهای ممکن از پرتاب دو تاس (۱و۱) و (۱و۲) و غیره).
متغیرهای تصادفی به دو نوع گسسته (متغیر تصادفی که ممکن است تعداد محدود یا توالی نامحدودی از مقادیر را بگیرد) و پیوسته (متغیری که ممکن است هر مقدار عددی در یک یا چند بازه را بگیرد) طبقهبندی میشوند. مقادیر ممکن یک متغیر تصادفی میتواند نشاندهندهٔ برآمدهای آزمایشی که هنوز انجام نشده یا مقادیر بالقوهٔ یک کمیت که مقدارهای موجود آن نامطمئن هستند (مثلا درنتیجه اطلاعات ناقص یا اندازهگیری نادقیق) باشد. یک متغیر تصادفی میتواند بعنوان یک کمیت که مقدارش ثابت نیست و مقادیر مختلفی را میتواند بگیرد در نظر گرفته شود و توزیع احتمال برای توصیف احتمال اتفاق افتادن آن مقادیر استفاده میشود.
متغیرهای تصادفی معمولاً با اعداد حقیقی مقداردهی میشوند؛ ولی میتوان انواع دلخواهی مانند مقدارهای بولی، اعداد مختلط، بردارها، ماتریسها، دنبالهها، درختها، مجموعهها، شکلها، منیوفیلدها، توابع و فرآیندها را درنظر گرفت. عبارت المان تصادفی همه این نوع مفاهیم را دربرمی گیرد.
متغیرهای تصادفی که با اعداد حقیقی مقداردهی میشوند، در علوم برای پیشبینی براساس دادههای بدست آمده از آزمایشهای علمی استفاده میشوند. علاوه بر کاربردهای علمی، متغیرهای تصادفی برای آنالیز بازیهای قمار و پدیدههای تصادفی بوجود آمدند. در چنین مواردی تابعی که خروجی را به یک عدد حقیقی مینگارد معمولا یک تابع همانی یا بطور مشابه یک تابع بدیهی است و بطور صریح توصیف نشده است. با این وجود در بسیاری از موارد بهتر است متغیر تصادفی را بصورت توابعی از سایر متغیرهای تصادفی درنظر بگیریم که دراینصورت تابع نگاشت استفاده شده در تعریف یک متغیر تصادفی مهم میشود. بعنوان مثال، رادیکال یک متغیر تصادفی با توزیع استاندارد (نرمال) خود یک متغیر تصادفی با توزیع کی دو است. شهود این مطلب بدین صورت است که تصور کنید اعداد تصادفی بسیاری با توزیع نرمال تولید کرده و از هرکدام رادیکال بگیریم و سپس هیستوگرام دادههای بدست آمده را بکشیم در اینصورت اگر دادهها به تعداد کافی باشند، نمودار هیستوگرام تابع چگالی توزیع کی دو را با یک درجه آزادی تقریب خواهد زد.
نامهای دیگر
در برخی از کتابهای قدیمیتر به جای «متغیر تصادفی»، اصطلاحهای «متغیر شانسی» و «متغیر استوکاستیکی» هم به کار رفته است.
انواع
متغیر تصادفی گسسته
متغیر تصادفی پیوسته
با توجه به وضع شمارایی فضای نمونهای S، متغیر میتواند گسسته یا پیوسته باشد. اگر S متناهی یا نامتناهی شمارا باشد متغیر تصادفی X گسسته و اگر ناشمارا باشد X پیوسته خواهد بود.
یک توزیع همچنین می تواند از نوع مختلط (mixed) باشد به این صورت که بخشی از آن مقادیر خاصی را بگیرد و بخش دیگر آن مقادیر روی یک بازه را بگیرد.
مقدار موثر
در ریاضیات، جذر متوسط مربع (به انگلیسی: root mean square یا quadratic mean) که با نام مقدار RMS و مقدار مؤثر (به انگلیسی: effective value) نیز شناخته میشود، معیاری آماری از اندازه کمیت متغیر است.
آمار پارامتری به مجموعه روشهای آماریای گفته میشود که مدلای پارامتری برای پدیدهٔ احتمالی مورد مطالعه فرض میشود و همهٔ استنتاجهای آماری از آن پس بر اساس آن مدل انجام میشود.
به عنوان مثال فرض میشود که توزیع نمرههای یک امتحان از توزیع نرمال پیروی میکند. در نتیجه برای مشخصشدن توزیع احتمال، کافی است میانگین و واریانس توزیع را از روی دادههای تجربی (نمرههای دانشآموزان) به دست بیاوریم. حال برای پاسخگفتن به سوالهایی چون «درصد دانشآموزانی که نمرهای بین ۱۰ تا ۱۵ آوردهاند» از تابع توزیع به دست آمده استفاده میکنیم (البته بدیهی است که روشهای سادهتری نیز برای چنین کاری وجود دارد).
نقطهٔ ضعف این شیوهٔ تحلیل آماری این است که در صورتی که مدل فرضشده با واقعیت تطبیق نداشته باشد، نتیجهگیریها صحیح نخواهد بود.
آماره
آماره در آمار به عددی گویند که یک توزیع نمونهبرداری را خلاصهسازی یا توصیف میکند.
تابع U=g(X۱, X۲, …, Xn) از نمونهٔ تصادفی X۱, X۲, …, Xn را که در آن پارامتر مجهولی وجود نداشته باشد یک آماره میگویند. در این تعریف U یک متغیر تصادفی است که توزیع آن ممکن است به پارامتر بستگی نداشته باشد؛ اما تنها آمارههایی برای برآورد کردن مفید هستند که توزیعشان به پارامتر مجهول بستگی داشته باشد و اطلاعاتی در مورد این پارامتر به ما بدهند.
آنتروپی آماری
انتروپی آماری یک کمیت ترمودینامیکی است که در شیمیفیزیک کاربردهای فراوان دارد.
استنباط آماری
چنانچه به جای مطالعه کل اعضای جامعه، بخشی از آن با استفاده از فنون نمونهگیری انتخاب شده، و مورد مطالعه قرار گیرد و بخواهیم نتایج حاصل از آن را به کل جامعه تعمیم دهیم از روشهایی استفاده میشود که موضوع آمار استنباطی (Inferential statistics) است. آن چه که مهم است این است که در گذر از آمار توصیفی به آمار استنباطی یا به عبارت دیگر از نمونه به جامعه بحث و نقش احتمال شروع میشود. در واقع احتمال، پل رابط بین آمار توصیفی و استنباطی به حساب میآید.
توزیع جامعه
توزیع جامعه یا توزیع جمعیت (به انگلیسی: Population distribution) در آمار به توزیع تمام مشاهدات امکان پذیر را گویند.
چولگی
در آمار و نظریه احتمالات چولگی نشان دهنده میزان عدم تقارن توزیع احتمالی است. اگر دادهها نسبت به میانگین متقارن باشند، چولگی برابر صفر خواهد بود.
تعریف
چولگی برابر با گشتاور سوم نرمال شده است. چولگی در حقیقت معیاری از وجود یا عدم تقارن تابع توزیع می باشد. برای یک توزیع کاملاً متقارن چولگی صفر و برای یک توزیع نامتقارن با کشیدگی به سمت مقادیر بالاتر چولگی مثبت و برای توزیع نامتقارن با کشیدگی به سمت مقادیر کوچکتر مقدار چولگی منفی است.
دادهکاوی
داده کاوی، پایگاهها و مجموعههای حجیم دادهها را در پی کشف واستخراج دانش، مورد تحلیل و کند و کاوهای ماشینی (و نیمهماشینی) قرار میدهد. این گونه مطالعات و کاوشها را به واقع میتوان همان امتداد و استمرار دانش کهن و همه جا گیر آمار دانست. تفاوت عمده در مقیاس، وسعت و گوناگونی زمینهها و کاربردها، و نیز ابعاد و اندازههای دادههای امروزین است که شیوههای ماشینی مربوط به یادگیری، مدلسازی، و آموزش را طلب مینماید.
در سال 1960 آماردانان اصطلاح "Data Fishing" یا "Data Dredging"به معنای "صید داده" را جهت کشف هر گونه ارتباط در حجم بسیار بزرگی از داده ها بدون در نظر گرفتن هیچگونه پیش فرضی بکار بردند. بعد از سی سال و با انباشته شدن داده ها در پایگاه های داده یا Database اصطلاح "Data Mining" یا داده کاوی در حدود سال 1990 رواج بیشتری یافت. اصطلاحات دیگری نظیر "Data Archaeology"یا "Information Harvesting" یا "Information Discovery" یا"Knowledge Extraction" نیز بکار رفته اند.
اصطلاح Data Mining همان طور که از ترجمه آن به معنی داده کاوی مشخص میشود به مفهوم استخراج اطلاعات نهان و یا الگوها وروابط مشخص در حجم زیادی از دادهها در یک یا چند بانک اطلاعاتی بزرگ است.
مقدمه
بسیاری از شرکتها و موسسات دارای حجم انبوهی از اطلاعات هستند. تکنیکهای دادهکاوی به طور تاریخی به گونهای گسترش یافتهاند که به سادگی میتوان آنها را بر ابزارهای نرمافزاری و ... امروزی تطبیق داده و از اطلاعات جمع آوری شده بهترین بهره را برد.
در صورتی که سیستمهای Data Mining بر روی سکوهای Client/Server قوی نصب شده باشد و دسترسی به بانکهای اطلاعاتی بزرگ فراهم باشد، میتوان به سوالاتی از قبیل :کدامیک از مشتریان ممکن است خریدار کدامیک از محصولات آینده شرکت باشند، چرا، در کدام مقطع زمانی و بسیاری از موارد مشابه پاسخ داد.
ویژگیها
یکی از ویژگیهای کلیدی در بسیاری از ابتکارات مربوط به تامین امنیت ملی، داده کاوی است. داده کاوی که به عنوان ابزاری برای کشف جرایم، ارزیابی میزان ریسک و فروش محصولات به کار میرود، در بر گیرنده ابزارهای تجزیه و تحلیل اطلاعات به منظور کشف الگوهای معتبر و ناشناخته در بین انبوهی از داده هاست. داده کاوی غالباً در زمینه تامین امنیت ملی به منزله ابزاری برای شناسایی فعالیتهای افراد خرابکار شامل جابه جایی پول و ارتباطات بین آنها و همچنین شناسایی و ردگیری خود آنها با برسی سوابق مربوط به مهاجرت و مسافرت هاست. داده کاوی پیشرفت قابل ملاحظهای را در نوع ابزارهای تحلیل موجود نشان میدهد اما محدودیتهایی نیز دارد. یکی از این محدودیتها این است که با وجود اینکه به آشکارسازی الگوها و روابط کمک میکند اما اطلاعاتی را در باره ارزش یا میزان اهمیت آنها به دست نمیدهد. دومین محدودیت آن این است که با وجود توانایی شناسایی روابط بین رفتارها و یا متغیرها لزوماً قادر به کشف روابط علت و معلولی نیست. موفقیت داده کاوی در گرو بهره گیری از کارشناسان فنی و تحلیل گران کار آزمودهای است که از توانایی کافی برای طبقه بندی تحلیلها و تغییر آنها برخوردار هستند. بهره برداری از داده کاوی در دو بخش دولتی و خصوصی رو به گسترش است. صنایعی چون بانکداری، بیمه، بهداشت و بازار یابی آنرا عموماً برای کاهش هزینهها، ارتقاء کیفی پژوهشها و بالاتر بردن میزان فروش به کار میبرند. کاربرد اصلی داده کاوی در بخش دولتی به عنوان ابزاری برای تشخیص جرایم بودهاست اما امروزه دامنه بهره برداری از آن گسترش روزافزونی یافته و سنجش و بهینه سازی برنامهها را نیز در بر میگیرد. بررسی برخی از برنامههای کاربردی مربوط به داده کاوی که برای تامین امنیت ملی به کار میروند، نشان دهنده رشد قابل ملاحظهای در رابطه با کمیت و دامنه دادههایی است که باید تجزیه و تحلیل شوند. تواناییهای فنی در داده کاوی از اهمیت ویژهای برخوردار اند اما عوامل دیگری نیز مانند چگونگی پیاده سازی و نظارت ممکن است نتیجه کار را تحت تأثیر قرار دهند. یکی از این عوامل کیفیت داده هاست که بر میزان دقت و کامل بودن آن دلالت دارد. عامل دوم میزان سازگاری نرمافزار داده کاوی با بانکهای اطلاعاتی است که از سوی شرکتهای متفاوتی عرضه میشوند عامل سومی که باید به آن اشاره کرد به بیراهه رفتن داده کاوی و بهره برداری از دادهها به منظوری است که در ابتدا با این نیت گرد آوری نشدهاند. حفظ حریم خصوصی افراد عامل دیگری است که باید به آن توجه داشت. اصولاً به پرسشهای زیر در زمینه داده کاوی باید پاسخ داده شود:
سازمانهای دولتی تا چه حدی مجاز به بهره برداری از دادهها هستند؟
آیا از دادهها در چارچوبی غیر متعارف بهره برداری میشود؟
کدام قوانین حفظ حریم خصوصی ممکن است به داده کاوی مربوط شوند؟
کاوش در دادهها بخشی بزرگ از سامانههای هوشمند است. سامانههای هوشمند زیر شاخهایست بزرگ و پرکاربرد از زمینه علمی جدید و پهناور یادگیری ماشینی که خود زمینهایست در هوش مصنوعی.
فرایند گروه گروه کردن مجموعهای از اشیاء فیزیکی یا مجرد به صورت طبقههایی از اشیاء مشابه هم را خوشهبندی مینامیم.
با توجه به اندازههای گوناگون (و در اغلب کاربردها بسیار بزرگ و پیچیده) مجموعههای دادهها مقیاسپذیری الگوریتمهای به کار رفته معیاری مهم در مفاهیم مربوط به کاوش در دادهها است.
کاوشهای ماشینی در متون حالتی خاص از زمینهٔ عمومیتر کاوش در دادهها بوده، و به آن دسته از کاوشها اطلاق میشود که در آنها دادههای مورد مطالعه از جنس متون نوشته شده به زبانهای طبیعی انسانی باشد.
چیستی
داده کاوی به بهره گیری از ابزارهای تجزیه و تحلیل دادهها به منظور کشف الگوها و روابط معتبری که تا کنون ناشناخته بودهاند اطلاق میشود. این ابزارها ممکن است مدلهای آماری، الگوریتمهای ریاضی و روشهای یاد گیرنده (Machine Laming Method) باشند که کار این خود را به صورت خودکار و بر اساس تجربهای که از طریق شبکههای عصبی (Neural Networks) یا درختهای تصمیم گیری (Decision Trees) به دست میآورند بهبود میبخشد. داده کاوی منحصر به گردآوری و مدیریت دادهها نبوده و تجزیه و تحلیل اطلاعات و پیش بینی را نیز شامل میشود برنامههای کاربردی که با بررسی فایلهای متن یا چند رسانهای به کاوش دادهها می پردازند پارامترهای گوناگونی را در نظر میگیرد که عبارت اند از:
قواعد انجمنی (Association): الگوهایی که بر اساس آن یک رویداد به دیگری مربوط میشود مثلاً خرید قلم به خرید کاغذ.
ترتیب (Sequence): الگویی که به تجزیه و تحلیل توالی رویدادها پرداخته و مشخص میکند کدام رویداد، رویدادهای دیگری را در پی دارد مثلاً تولد یک نوزاد و خرید پوشک.
پیش بینی(Prediction): در پیش بینی هدف پیش بینی یک متغیر پیوسته می باشد. مانند پیش بینی نرخ ارز یا هزینه های درمانی.
رده بندی یا طبقه بندی (Classification): فرآیندی برای پیدا کردن مدلی است که رده های موجود در دادهها را تعریف می نماید و متمایز می کند، با این هدف که بتوان از این مدل برای پیش بینی رده رکوردهایی که برچسب رده آنها(متغیر هدف) ناشناخته می باشد، استفاده نمود. در حقیقت در رده بندی بر خلاف پیش بینی، هدف پیش بینی مقدار یک متغیر گسسته است. روش های مورد استفاده در پیش بینی و رده بندی عموما یکسان هستند.
خوشه بندی(Clustering): گروه بندی مجموعه ای از اعضاء، رکوردها یا اشیاء به نحوی که اعضای موجود در یک خوشه بیشترین شباهت را به یکدیگر و کمترین شباهت را به اعضای خوشه های دیگر داشته باشند.
مصورسازی (visualization): مصورسازی داده ها یکی از قدرتمندترین و جذابترین روش های اکتشاف در داده ها می باشد.
برنامههای کاربردی که در زمینه تجزیه و تحلیل اطلاعات به کار میروند از امکاناتی چون پرس و جوی ساخت یافته (Structured query) که در بسیاری از بانکهای اطلاعاتی یافت میشود و از ابزارهای تجزیه و تحلیل آماری برخوردارند اما برنامههای مربوط به داده کاوی در عین برخورداری از این قابلیتها از نظر نوع با آنها تفاوت دارند. بسیاری از ابزارهای ساده برای تجزیه و تحلیل دادهها روشی بر پایه راستی آزمایی (verifiction)را به کار میبرند که در آن فرضیهای بسط داده شده آنگاه دادهها برای تایید یا رد آن بررسی میشوند. به طور مثال ممکن است این نظریه مطرح شود که فردی که یک چکش خریده حتماً یک بسته میخ هم خواهد خرید. کارایی این روش به میزان خلاقیت کاربر برای ارایه فرضیههای متنوع و همچنین ساختار برنامه بکار رفته بستگی دارد. در مقابل در داده کاوی روشهایی برای کشف روابط بکار برده میشوند و به کمک الگوریتمهایی روابط چند بعدی بین دادهها تشخیص داده شده و آنهایی که یکتا (unique) یا رایج هستند شناسایی میشوند. به طور مثال در یک فروشگاه سختافزار ممکن است بین خرید ابزار توسط مشتریان با تملک خانه شخصی یا نوع خودرو، سن، شغل، میزان درآمد یا فاصله محل اقامت آنها با فروشگاه رابطهای برقرار شود.
در نتیجه قابلیتهای پیچیدهاش برای موفقیت در تمرین داده کاوی دو مقدمه مهم است یکی فرمول واضحی از مشکل که قابل حل باشد و دیگری دسترسی به داده متناسب. بعضی از ناظران داده کاوی را مرحلهای در روند کشف دانش در پایگاه دادهها میدانند (KDD). مراحل دیگری در روند KDD به صورت تساعدی شامل، پاکسازی داده، انتخاب داده انتقال داده، داده کاوی، الگوی ارزیابی، و عرضه دانش میباشد. بسیاری از پیشرفتها در تکنولوژی و فرایندهای تجاری بر رشد علاقهمندی به داده کاوی در بخشهای خصوصی و عمومی سهمی داشتهاند. بعضی از این تغییرات شامل:
رشد شبکههای کامپیوتری که در ارتباط برقرار کردن پایگاهها داده مورد استفاده قرار میگیرند.
توسعه افزایش تکنیکهایی بر پایه جستجو مثل شبکههای عصبی و الگوریتمهای پیشرفته.
گسترش مدل محاسبه کلاینت سروری که به کاربران اجازه دسترسی به منابع دادههای متمرکز شده را از روی دسک تاپ میدهد.
و افزایش توانایی به تلفیق داده از منابع غیر متناجس به یک منبع قابل جستجو میباشد.
علاوه بر پیشرفت ابزارهای مدیریت داده، افزایش قابلیت دسترسی به داده و کاهش نرخ نگهداری داده نقش ایفا میکند. در طول چند سال گذشته افزایش سریع جمع آوری و نگه داری حجم اطلاعات وجود داشتهاست. با پیشنهادهای برخی از ناظران مبنی بر آنکه کمیت دادههای دنیا به طور تخمینی هر ساله دوبرابر میگردد. در همین زمان هزینه ذخیره سازی دادهها بطور قابل توجهی از دلار برای هر مگابایت به پنی برای مگابایت کاهش پیدا کردهاست. مطابقا قدرت محاسبهها در هر ۱۸ – ۲۴ ماه به دوبرابر ارتقاء پیدا کردهاست این در حالی است که هزینه قدرت محاسبه رو به کاهش است. داده کاو به طور معمول در دو حوزه خصوصی و عمومی افزایش پیدا کردهاست. سازمانها داده کاوی را به عنوان ابزاری برای بازدید اطلاعات مشتریان کاهش تقلب و اتلاف و کمک به تحقیقات پزشکی استفاده میکنند. با اینهمه ازدیاد داده کاوی به طبع بعضی از پیاده سازی و پیامد اشتباه را هم دارد.اینها شامل نگرانیهایی در مورد کیفیت دادهای که تحلیل میگردد، توانایی کار گروهی پایگاههای داده و نرمافزارها بین ارگانها و تخطیهای بالقوه به حریم شخصی میباشد.همچنین ملاحظاتی در مورد محدودیتهایی در داده کاوی در ارگانها که کارشان تاثیر بر امنیت دارد، نادیده گرفته میشود.
محدودیتهای داده کاوی
در حالیکه محصولات داده کاوی ابزارهای قدرتمندی میباشند، اما در نوع کاربردی کافی نیستند.برای کسب موفقیت، داده کاوی نیازمند تحلیل گران حرفهای و متخصصان ماهری میباشد که بتوانند ترکیب خروجی بوجود آمده را تحلیل و تفسیر نمایند.در نتیجه محدودیتهای داده کاوی مربوط به داده اولیه یا افراد است تا اینکه مربوط به تکنولوژی باشد.
اگرچه داده کاوی به الگوهای مشخص و روابط آنها کمک میکند، اما برای کاربر اهمیت و ارزش این الگوها را بیان نمیکند.تصمیماتی از این قبیل بر عهده خود کاربر است.برای نمونه در ارزیابی صحت داده کاوی، برنامه کاربردی در تشخیص مظنونان تروریست طراحی شده که ممکن است این مدل به کمک اطلاعات موجود در مورد تروریستهای شناخته شده، آزمایش شود.با اینهمه در حالیکه ممکن است اطلاعات شخص بطور معین دوباره تصدیق گردد، که این مورد به این منظور نیست که برنامه مظنونی را که رفتارش به طور خاص از مدل اصلی منحرف شده را تشخیص بدهد.
تشخیص رابطه بین رفتارها و یا متغیرها یکی دیگر از محدودیتهای داده کاوی میباشد که لزوماًروابط اتفاقی را تشخیص نمیدهد.برای مثال برنامههای کاربردی ممکن است الگوهای رفتاری را مشخص کند، مثل تمایل به خرید بلیط هواپیما درست قبل از حرکت که این موضوع به مشخصات درآمد، سطح تحصیلی و استفاده از اینترنت بستگی دارد.در حقیقت رفتارهای شخصی شامل شغل(نیاز به سفر در زمانی محدود)وضع خانوادگی(نیاز به مراقبت پزشکی برای مریض)یا تفریح (سود بردن از تخفیف دقایق پایانی برای دیدن مکانهای جدید) ممکن است بر روی متغیرهای اضافه تاثیر بگذارد.
ابزارهای داده کاوی
معروفترین ابزارهای دادهکاوی به ترتیب پرطرفدار بودن
Clementine که نسخه ۱۳ ان با نام SPSS Modeler نامیده میشود.
رپیدماینر
نرمافزار وکا
نرمافزار
برنامه های کاربردی و نرمافزار های داده کاوی متن-باز رایگان
Carrot2: پلتفرمی برای خوشه بندی متن و نتایج جستجو
Chemicalize.org: یک کاوشگر ساختمان شیمیایی و موتور جستجوی وب
ELKI: یک پروژه تحقیقاتی دانشگاهی با تحلیل خوشه ای پیشرفته و روش های تشخیص داده های خارج از محدوده که به زبان جاوا نوشته شده است.
GATE: یک پردازشگر زبان بومی و ابزار مهندسی زبان.
برنامه های کاربردی و نرمافزار های داده کاوی تجاری
Angoss KnowledgeSTUDIO: ابزار داده کاوی تولید شده توسط Angoss.
BIRT Analytics: ابزار داده کاوی بصری و تحلیل پیش بینی گر تولید شده توسط Actuate Corporation.
Clarabridge: راه حل تحلیلگر کلاس متن.
(E-NI(e-mining, e-monitor: ابزار داده کاوی مبتنی بر الگوهای موقتی.
IBM SPSS Modeler: نرمافزار داده کاوی تولید شده توسط IBM
Microsoft Analysis Services: نرمافزار داده کاوی تولید شده توسط مایکروسافت
Oracle Data Mining: نرمافزار داده کاوی تولید شده توسط اوراکل (کمیک)
بررسی اجمالی بازار نرمافزار های داده کاوی
تا کنون چندین محقق و سازمان بررسی هایی را بر روی ابزار های داده کاوی و راهنماییهایی برای داده کاو ها تهیه دیده اند. این بررسی ها بعضی از نقاط ضعف و قوت بسته های نرمافزاری را مشخص می کنند. همچنین خلاصه ای را از رفتار ها، اولویت ها و دید های داده کاوها تهیه کرده اند
درجه آزادی (آمار)
درجه آزادی یکی از مفاهیم بنیادین در آمار است. درک بسیاری از مفاهیم مطرح در آمار وابسته به درک مناسبی از این مفهوم است. بر اساس زمینهٔ کاربرد و شیوهٔ نگرش میتوان تعاریف مختلفی برای آن ارائه نمود که همه یک مفهومند:
در نظریهٔ برآورد:
تعداد مقادیری که یک آماره امکان تغییر دارد
تعداد مشاهدات مستقل منهای تعداد پارامترهای برآورد شده.
بطور معادل: تعداد مشاهدات مستقل منهای تعداد روابط معلوم میان مشاهدات
در نظریه آزمون:
بعد فضای مجهول (مدل کامل) منهای بعد فضای مفروض (مدل مقید)
در جبر خطی:
رتبهٔ یک فرم درجه دوم
بطور معادل: تعداد ابعاد یک زیر فضا که یک بردار میتواند آزادانه گردش کند (مربع طول بردار یک فرم درجه دوم است)
درک شهودی
مثال: یک عدد ثابت امکان تغییر ندارد پس درجه آزادی آن برابر صفر است.
یک نقطه در صفحه یک رابطه میان دو متغیر در فضای دو بعدی است. با این نقطه نمیتوان میزان همبستگی خطی دو متغیر را با برآورد خط رگرسیون تخمین زد. چون بینهایت خط از این نقطه گذراست. (تصویر مقابل) در این مثال درجه آزادی صفر است (تعداد مشاهدات مستقل - تعداد روابط معلوم میان مشاهدات = 0) اگر خطی را بعنوان خط رگرسیونی در نظر بگیریم، این مدل نه قابل رد و نه قابل قبول است. بنابراین تعداد نمونه های قابل استفاده برای این مدل صفر است.
برای رسم خط رگرسیون حداقل دو نقطه لازم است. با دو نقطه یک درجه آزادی وجود دارد. از دو نقطه فقط یک خط گذر میکند و این خط تنها برآورد ممکن است. با اینکه دقت برآورد 100 درصد است اما این دقت کاذب به علت کم بودن درجات آزادی و اطلاعات قابل استفاده است. نمونه های زیادی از تحقیقات با رسیدن به دقتی بالا تصور میکنند که مدل بدست آمده مناسب است . در حالی که درجات آزادی کم باعث این اشتباه شده است.
مثال: اگر دو مشاهده داشته باشیم، برای برآورد میانگین دو مشاهدهء مستقل داریم، اما برای برآورد واریانس تنها یک مشاهدهء مستقل وجود دارد. زیرا هر دو مشاهده دارای یک فاصله از میانگین هستند.
دیدگاه فلسفی
برای درک بهتر این مفهوم میتوان درجهء آزادی را یک معادل برای درجهء ابطال پذیری از دیدگاه فلاسفه ای مانند کارل پوپر دانست. اگر در مسئله ای درجات آزادی کم
باشد معادل است با اینکه ابطال پذیری آن مسئله کم است. یعنی با هر مشاهده ای تایید میشود و قابل ابطال نیست.
سازمان آماری
سازمان آماری سازمانی خدماتی است که وظیفهٔ تهیهٔ آمار را بر عهده دارد. دلیل وجود، رشد و مشارکت مشهود آنها در امور مربوط به دولت و جامعةخود، از توانایی آنها در تهیة اطلاعاتی برای حل مسائل مهم ریشه میگیرد. ولی اولویتها میتوانند سریعتر از توانایی سازمان برای تعدیل تلاش تولیدی خود تغییر کنند. به این دلیل، مهم است که مسئولان ارشد آن دارای شم قوی و روابطی باشند که بتوانند مشکلات جدی را شناسایی کرده و آنها را از آنچه ممکن است چیزی جز مسایل گذرا نباشند متمایز کنند.
شاخصهای پراکندگی
سنجشهای پراکندگی (به انگلیسی: Measures of Variability) به اعدادی گویند که پراکندگی مجموعهای از مشاهدات یا دادههای اندازه گیری شدهای را خلاصه و توصیف میکنند.
دامنه، واریانس، و انحراف معیار، هر سه نمونههایی از سنجشهای پراکندگی هستند.
ضریب تغییرات
در نظریه احتمال و آمار ضریب تغییرات (به انگلیسی: coefficient of variation، مخفف:CV) یک معیار بهنجار است که برای اندازهگیری توزیع دادههای آماری به کار میرود.
به عبارت دیگر ضریب تغییرات، میزان پراکندگی به ازای یک واحد از میانگین را بیان میکند. این مقدار زمانی تعریف شده است که میانگین صفر نباشد.
این مقدار بیبعد است به همین دلیل مناسب برای مقایسه دادههای آماری است که واحدهای مختلفی دارند.
ضریب تغییرات تنها قابل کاربرد برای مقیاسهای نسبی است و نمیتوان ار آن برای سنجش مقادیری که میتوانند مقدار منفی بگیرند استفاده کرد یا به بیان بهتر نمیتوان از آن برای سنجش مقادیر فاصلهای بهره برد. مثلاً اگر درجه حرارت را با مقیاس فارنهایت در نظر بگیریم برای آن نمیتوان از ضریب تغییر اسفاده کرد و باید از مقیاس کلوین که همیشه مقداری مثبت است استفاده کرد.
متغیر پنهان
متغیرهای پنهان(در مقابل متغیرهای مشاهده شده)در آمار، متغیرهای هستند که بصورت مسقیم قابل مشاهده نیستند اما از میان متغیرهای دیگر که قابل مشاهده هستند توسط یک الگوی ریاضی استنباط میشوند. آنها همچنین بعضی وقتها تحت عنوان متغیرهای پنهان، پارامترها ی مدل، متغیرهای فرضی یا ساختارهای فرضی شناخته میشوند.. استفاده متغیرهای پنهان در علوم اجتماعی متداول است، اقتصاد، پزشکی و تا حدی روبوتیک اما تعریف دقیق یک متغیر پنهان در این رشتهها کمی متفاوت است. مثالهای از متغیرهای پنهان در حوزه اقتصاد عبارتند از کیفیت زندگی، اطمینان کار، روحیه، خوشحالی و اصول محافظهکاری: اینها متغیرها هستند که مستقیماً نمیتوان آنها را سنجید. با این وجود یک مدل اقتصادی را میتوان از پیوند این متغیرهای پنهان با متغیرهای مشاهده شده (از قبیل تولید ناخالص داخلی) بدست آورد و مقادیر متغیرهای پنهان را از متغیرهای مشاهده شده محاسبه و استنباط نمود.
متغیر تصادفی
در آمار و احتمال متغیر تصادفی متغیری است که مقدار آن از اندازهگیری برخی از انواع فرآیندهای تصادفی بدست میآید. بطور رسمیتر، متغیر تصادفی تابعی است از فضای نمونه به اعداد حقیقی. بطور مستقیم متغیر تصادفی توصیف عددی خروجی یک آزمایش است (مثل برآمدهای ممکن از پرتاب دو تاس (۱و۱) و (۱و۲) و غیره).
متغیرهای تصادفی به دو نوع گسسته (متغیر تصادفی که ممکن است تعداد محدود یا توالی نامحدودی از مقادیر را بگیرد) و پیوسته (متغیری که ممکن است هر مقدار عددی در یک یا چند بازه را بگیرد) طبقهبندی میشوند. مقادیر ممکن یک متغیر تصادفی میتواند نشاندهندهٔ برآمدهای آزمایشی که هنوز انجام نشده یا مقادیر بالقوهٔ یک کمیت که مقدارهای موجود آن نامطمئن هستند (مثلا درنتیجه اطلاعات ناقص یا اندازهگیری نادقیق) باشد. یک متغیر تصادفی میتواند بعنوان یک کمیت که مقدارش ثابت نیست و مقادیر مختلفی را میتواند بگیرد در نظر گرفته شود و توزیع احتمال برای توصیف احتمال اتفاق افتادن آن مقادیر استفاده میشود.
متغیرهای تصادفی معمولاً با اعداد حقیقی مقداردهی میشوند؛ ولی میتوان انواع دلخواهی مانند مقدارهای بولی، اعداد مختلط، بردارها، ماتریسها، دنبالهها، درختها، مجموعهها، شکلها، منیوفیلدها، توابع و فرآیندها را درنظر گرفت. عبارت المان تصادفی همه این نوع مفاهیم را دربرمی گیرد.
متغیرهای تصادفی که با اعداد حقیقی مقداردهی میشوند، در علوم برای پیشبینی براساس دادههای بدست آمده از آزمایشهای علمی استفاده میشوند. علاوه بر کاربردهای علمی، متغیرهای تصادفی برای آنالیز بازیهای قمار و پدیدههای تصادفی بوجود آمدند. در چنین مواردی تابعی که خروجی را به یک عدد حقیقی مینگارد معمولا یک تابع همانی یا بطور مشابه یک تابع بدیهی است و بطور صریح توصیف نشده است. با این وجود در بسیاری از موارد بهتر است متغیر تصادفی را بصورت توابعی از سایر متغیرهای تصادفی درنظر بگیریم که دراینصورت تابع نگاشت استفاده شده در تعریف یک متغیر تصادفی مهم میشود. بعنوان مثال، رادیکال یک متغیر تصادفی با توزیع استاندارد (نرمال) خود یک متغیر تصادفی با توزیع کی دو است. شهود این مطلب بدین صورت است که تصور کنید اعداد تصادفی بسیاری با توزیع نرمال تولید کرده و از هرکدام رادیکال بگیریم و سپس هیستوگرام دادههای بدست آمده را بکشیم در اینصورت اگر دادهها به تعداد کافی باشند، نمودار هیستوگرام تابع چگالی توزیع کی دو را با یک درجه آزادی تقریب خواهد زد.
نامهای دیگر
در برخی از کتابهای قدیمیتر به جای «متغیر تصادفی»، اصطلاحهای «متغیر شانسی» و «متغیر استوکاستیکی» هم به کار رفته است.
انواع
متغیر تصادفی گسسته
متغیر تصادفی پیوسته
با توجه به وضع شمارایی فضای نمونهای S، متغیر میتواند گسسته یا پیوسته باشد. اگر S متناهی یا نامتناهی شمارا باشد متغیر تصادفی X گسسته و اگر ناشمارا باشد X پیوسته خواهد بود.
یک توزیع همچنین می تواند از نوع مختلط (mixed) باشد به این صورت که بخشی از آن مقادیر خاصی را بگیرد و بخش دیگر آن مقادیر روی یک بازه را بگیرد.
مقدار موثر
در ریاضیات، جذر متوسط مربع (به انگلیسی: root mean square یا quadratic mean) که با نام مقدار RMS و مقدار مؤثر (به انگلیسی: effective value) نیز شناخته میشود، معیاری آماری از اندازه کمیت متغیر است.
دسترسی
رایجترین زبان برای ارتباطات در اینترنت زبان انگلیسی است. این ممکن است ناشی از زادگاه اینترنت و همچنین نقش زبان انگلیسی به عنوان زبان بینالمللی باشد. ناتوانی رایانههای اولیه - که اغلب در امریکا ساخته میشدند - در پردازش نویسه (کاراکتر)های به جز گونه انگلیسی الفبای لاتین نیز ممکن است با این موضوع مرتبط باشد. پس از انگلیسی(۲۸٪ از بازدیدکنندگان وب)، پرخواهان ترین زبانها در وب جهان گستر عبارنتد از : چینی ۲۳٪، اسپانیایی ۸٪، ژاپنی ۵٪، پرتغالی و آلمانی (هر کدام ۴٪)، عربی و فرانسه و روسی (هرکدام ۳٪)و کرهای ۳٪.بر پایه منطقه، ۴۲٪ از کاربران اینترنت در آسیا، ۲۴٪ در اروپا،۱۴٪ در امریکای شمالی، ۱۰٪ در امریکای لاتین و کارائیب، ۵٪ در آفریقا، ۳٪ در خاورمیانه و ۱٪ در استرالیا/اقیانوسیه.
فناوریهای اینترنت در سالهای اخیر بویژه در زمینه استفاده از یونیکد، به حد کافی گسترش یافتهاند و امکانات مناسبی برای ارتباط در بسیاری از زبانهای دنیا در دسترس میباشد، اما همچنان مسائلی مانند موجیباکه (نمایش نادرست برخی نویسههای یک زبان) باقی هستند.
روشهای معمول دسترسی به اینترنت در خانهها شامل دسترسی با شمارهگیری (dial-up)، خطوط زمینی پهن باند(از طریق کابل کواکسیال، فیبر نوری و یا سیم مسی)، وای-فای (Wi-Fi)، ماهواره و فناوری ۳G تلفن همراه میباشد. اماکن عمومی که میتوان در آنها از اینترنت استفاده نمود شامل کتابخانهها و کافینتها که در آنها رایانههایی با اتصال به اینترنت مهیاست.همچنین کیوسکهای اینترنت در بسیاری از اماکن عمومی مانند سالن فرودگاه و کافی شاپها موجودند که بعضی از آنها برای استفادههای کوتاه و سرپایی در نظرگرفته شدهاند.واژههای گوناگونی برای نامیدن این ترمینالها به کار میرودف از جمله : کیوسک عمومی اینترنت و یا پایانه دسترسی عمومی.
این ترمینالها به گستردگی برای کاربردهایی چون رزرو بلیط، سپرده گذاری بانکی، پرداخت برخط مورد استفاده قرار میگیرد. وای-فای(Wi-Fi) دسترسی بی سیم به شبکههای رایانهای و در نتیجه به اینترنت را فراهم میکند. نقاط داغ (Hotspots) به مکانهایی گفته میشود که دسترسی به اینترنت بی سیم در آن نقاط امکانپذیر است و کاربران میتوانند با لپ تاپ و یا دستیار دیجیتال شخصی(PDA) خود به اینترنت متصل شوند. گاهی این سرویسهای بیسیم برای عموم و یا حداقل برای مشتریان رایگان ارائه میشود. یک نقطه داغ محدوده مکانی مشخصی را شامل میشود مثل محوطه یک دانشگاه، پارک و یا حتی سراسر نقاط یک شهر. سرویسهای تجاری Wi-Fi که کل شهر را پوشش میدهند هم اکنون در شهرهای لندن، وین، تورنتو، سانفرانسیسکو، فیلادلفیا، شیکاگو و پیتسبورگ ارائه میشوند. در این شهرها مشترکین میتوانند در هر نقطهای از شهر به شبکه وای-فای متصل شوند
.علاوه بر وای-فای، آزمایشهایی نیز در زمینه شبکههای بی سیم متحرک اختصاصی مانن ریکوچت و سرویسهای دادهای پرسرعت بر روی تلفنهای همراه، و شبکههای بی سیم ثابت انجام شدهاست. تلفنهای همراه پیشرفته مثل تلفنهای همراه هوشمند (Smartphone) همگی با قابلیت اتصال به اینترنت از طریق شبکه تلفن عرضه میشوند. مرورگرهای وب مثل اپرا معمولاً نسخهای برای این دستگاههای جیبی پیشرفته دارند.
آثار اجتماعی
اینترنت به دلیل خصوصیاتی چون قابلیت استفاده و دسترسی گسترده آن، اشکال کاملاً جدیدی از تعاملات، فعالیتها، و سازماندهیهای اجتماعی را پدید آوردهاست. وبگاههای شبکههای اجتماعی چون فیسبوک، توییتر و مایاسپیس روشهای جدیدی برای معاشرت و تعامل خلق کردهاند. کاربران این سایتها قادرند اطلاعات گوناگونی به صفحات خود بیفزایند، علایق مشترکی را دنبال کنند و به دیگران مرتبط شوند. وبگاههایی مثل لینکداین به پرورش ارتباطات حرفهای و تجاری میپردازد. یوتیوب و فلیکر هم در زمینه ویدیوها و تصاویر کاربران تخصص دارند.
دهه اول سده بیست و یکم، شاهد پرورش اولین نسلی است که در شرایطی رندگی میکنند که اینترنت به گستردگی در دسترس میباشد. این مسایل و نگرانیهایی را به دنبال دارد از جمله مسئله حفظ حریم خصوصی و هویت و توزیع غیر مجاز مواردی که تحت قانون کپی رایت محافظت میشوند. این بومیان دیجیتال با انبوهی از مسایلی مواجه میشوند که در مورد نسلهای قبلی وجود نداشت.
اینترنت کاربرد جدیدی به عنوان بک ابزار سیاسی یافتهاست مه این منجر به سانسوراینترنت میشود. نمونه استفاده سیاسی از اینترنت، مبارزه انتخاباتی هاوارد دین در سال ۲۰۰۴ در ایالات متحده بود که به دلیل جمع آوری کمکهای مردمی از طریق اینترنت شایان توجه بود. بسیاری از گروههای سیاسی از اینترنت برای سازماندهی در انجام ماموریت خود استفاده میکنند. برخی از دولتها مانند ایران، کره شمالی، میانمار، چین وعربستان، آنچه را که مردم میتوانند از طرق اینترنت ببینند، به ویژه در مورد مسایل سیاسی و مذهبی محدود مینمایند.
این کار از طریق نرمافزارهایی که دامنه و محتوا را فیلتر میکنند صورت میپذیرد. در نروژ، دانمارک، فنلاند و سوئد، ارائه دهندگان اصلی خدمات اینترنت به صورت داوطلبانه و احتمالاً برای اجتناب از قانون شدن فیلترینگ، قبول کردهاند که دسترسی به سایتهایی که توسط مقامات مسوول لیست شدهاست را محدود نمایند. اگرچه قرار بر این است که این آدرسهای ممنوع شده تنها شامل وبگاههای هرزه نگاری کودکان باشد، اما محتوای این لیست مخفی است.
در بسیاری از کشورها مانند ایالات متحده امریکا، اگرپه قوانینی در ممنوعیت پخش موارد دربردارنده هرزه نگاری کودک تصویب نمودهاند اما استفاده از نرم افرارهای فیلترینگ را اجباری نکردهاند. نرمافزارهای تجاری و یا رایگان بسیاری تحت عنوان نرمافزار کنترل محتوا در دسترس هستند که کاربران از طریق آنها میتوانند وبگاههای مستهجن را در رایانه شخصی و یا شبکه محلی مسدود نمود تا از دسترسی کودکان به مواد هرزه نگاری و یا خشونت نگاری جلو گیری نمود.
اینترنت از آغاز پیدایش همواره وسیله مناسبی برای فعالیتهای تفریحی بودهاست. بسیاری از انجمنهای اینترنتی بخشهایی برای بازی و ویدیوهای خنده دار و کارتونهای کوتاه در قالب انیمیشنهای فلش(Flash) دارند. بیش از ۶ میلیون نفر در اینترنت از وب نوشتها و تختههای پیام برای برقراری ارتباط استفاده میکنند. صنایع هرزه نگاری و قمار از اینترنت سود میجویند تا وبگاههایی بسازند که منبع کلان تبلیغات برای سایر وبگاهها میباشند.
اگرچه بسیاری از دولتها برای محدود سازی استفاده این دو صنعت ازاینترنت تلاش کردهاند اما در جلوگیری از گسترش محبوبیت آنها چندان موفق نبودهاند.یکی از فعالیتهای تفریحی اصلی در اینترنت، بازیهای چند نفره است. این شکل تفریح اجتماعاتی را بوجود میآورد که در آن افراد از هر سن و نژادی از دنیای بازیهای چندنفره کامپیوتری لذت میبرند. اگرچه بازیهای برخط از سال ۱۹۷۰ وجود داشتهاند،
اما گونه مدرن این بازیها با خدمات اشتراکی مانند گیماسپای و MPlayer آغاز شد. غیر مشترکین محدود به بازیهای خاص و یا زمان بازی خاص بودند. بسیاری از مردم از اینترنت برای دسترسی و بارگیری(download) موسیقی و فیلم و سایر آثار استفاده میکنند. این خدمات به هر دو صورت رایگان و پولی، با استفاده ازسرورهای مرکزی و یا فناوریهای نظیر-به-نظیر توزیع شده ارائه میشوند.برخی از این منابع توجه بیشتری نسبت به سایرین در زمینه حقوق مولفین اصلی نشان دادهاند.
بسیاری از مردم از اینترنت برای دسترسی به اخبار، پیش بینی آب وهوا، گزارشهای ورزشی و جستجوی مطالب در مورد علاقهمندیهای خود استفاده میکنند. آنها از گپ برخط، پیام رسان فوری و پست الکترونیک برای در تماس بودن با دوستان خود در سراسر دنیا و به شیوهای شبیه به دوست مکاتبهای که در قدیم رواج داشت، استفاده میکنند. اینترنت شاهد شمار رو به افزایش میزکارهای وب که در آن کاربران به فایلها و تنظیمات خود دسترسی پیدا میکنند، بودهاست."کم کاری سایبری" (Cyberslacking) محل اتلاف جدی منابع سازمانهاست. کارمندان انگلیسی به طور میانگین ۵۷٪ از وقت خود را به وب گردی در حین کار میپردازند.
تاثیرات ذهنی
بر روی آثار اینترنت بر مغز انسان مطالعات زیادی انجام شدهاست. نیکلاس کار(به انگلیسی: Nicholas Carr) ادعا میکند که اینترنت تفکر عمیق را که عامل خلاقیت واقعی است کاهش میدهد. او همچنین میگوید که پیوندهای فرامتن و تحریک بیش از حد، به این معنی است که مغز باید بیشتر توجهش را بر روی تصمیمات کوتاه متمرکز کند. او همچنین بیان میکند که اینترنت مغز را غرق در اندیشه میکند که باعث آسیب رسیدن به حافظه بلند مدت میگردد. شمار فراوان محرکها در اینترنت منجر به بار شناختی(Cognitive Load) سنگینی برای مغز میشود که یادآوری هرچیزی را مشکل میسازد.استیون پینکر (به انگلیسی: Steven Pinker)، روانشناس، نظری مخالف دارد. او به این نکته اشاره میکند که افراد بر روی آنچه انجام میدهند کنترل دارند وبنابراین این پژوهش و استدلال هرگز طبیعت انسان را در نظر نداشتهاست. او میگوید "تجربه ظرفیتهای پردازش اطلاعات مغز را عوض نمیکند" و ادعا میکند که اینترنت باعث باهوشتر شدن انسانها شدهاست.
تاریخ اینترنت
اتحاد جماهیر شوروی آن زمان موشکی با نام «اسپونیک» (Spotnik) را به فضا میفرستد و نشان میدهد دارای قدرتی است که میتواند شبکههای ارتباطی آمریکا را توسط موشکهای بالستیک و دوربرد خود از بین ببرد. آمریکاییها در پاسخگویی به این اقدام روسها، موسسه پروژههای تحقیقی پیشرفته “ARPA” را بهوجود آوردند. هدف از تاسیس چنین موسسهای پژوهش و آزمایش برای پیدا کردن روشی بود که بتوان از طریق خطوط تلفنی، کامپیوترها را به هم مرتبط نمود. به طوری که چندین کاربر بتوانند از یک خط ارتباطی مشترک استفاده کنند. در اصل شبکهای بسازند که در آن دادهها به صورت اتوماتیک بین مبدا و مقصد حتی در صورت از بین رفتن بخشی از مسیرها جابهجا و منتقل شوند. در اصل هدف “ARPA” ایجاد یک شبکه اینترنتی نبود و فقط یک اقدام احتیاطی در مقابل حمله احتمالی موشکهای اتمی دوربرد بود. هر چند اکثر دانش امروزی ما درباره شبکه بهطور مستقیم از طرح آرپانت “ARPPA NET” گرفته شدهاست. شبکهای که همچون یک تار عنکبوت باشد و هر کامپیوتر ان از مسیرهای مختلف بتواند با همتایان خود ارتباط دااشته باشد واگر اگر یک یا چند کامپیوتر روی شبکه یا پیوند بین انها از کار بیفتادبقیه باز هم بتوانستند از مسیرهای تخریب نشده با هم ارتباط بر قرار کنند.
این ماجرا با وجودی که بخشی از حقایق بهوجود آمدن اینترنت را بیان میکند اما نمیتواند تمام واقعیات مربوط به آن را تشریح کند. باید بگوییم افراد مختلفی در تشکیل اینترنت سهم داشتهاند آقای “Paul Baran” یکی از مهمترین آنهاست. آقای باران که در دوران جنگ سرد زندگی میکرد میدانست که شبکه سراسری تلفن آمریکا توانایی مقابله با حمله اتمی شوروی سابق را ندارد. مثلاً اگر رییس جمهور وقت آمریکا حمله اتمی متقابل را دستور دهد، باید از یک شبکه تلفنی استفاده میکرد که قبلاً توسط روسها منهدم شده بود. در نتیجه طرح یک سیستم مقاوم در مقابل حمله اتمی روسها ریخته شد.آقای باران (Baran) تشکیل و تکامل اینترنت را به ساخت یک کلیسا تشبیه کرد و معتقد بود، طی سالهای اخیر هر کس سنگی به پایهها و سنگهای قبلی بنا اضافه میکند و انجام هر کاری وابسته به کارهای انجام شده قبلی است. بنابراین نمیتوان گفت، کدام بخش از کار مهمترین بخش کار بودهاست و در کل پیدایش اینترنت نتیجه کار و تلاش گروه کثیری از دانشمندان است. داستان پیدایش اینترنت با افسانه و واقعیت در هم آمیخته شدهاست.
در اوایل دهه ۶۰ میلادی آقای باران طی مقالاتی پایه کار اینترنت امروزی را ریخت. اطلاعات و دادهها به صورت قطعات و بستههای کوچکتری تقسیم و هر بسته با آدرسی که به آن اختصاص داده میشود به مقصد خاص خود فرستاده میشود. به این ترتیب بستهها مانند نامههای پستی میتوانند از هر مسیری به مقصد برسند. زیرا آنها شامل آدرس فرستنده و گیرنده هستند و در مقصد بستهها مجدداً یکپارچه میشوند و به صورت یک اطلاعات کامل درمیآیند.
آقای باران (Baran) طی مقالاتی اینچنینی ساختمان و ساختار اینترنت را پیشگویی کرد. او از کار سلولهای مغزی انسان به عنوان الگو استفاده کرد، او معتقد بود: وقتی سلولهای مغزی از بین بروند، شبکه عصبی از آنها دیگر استفاده نمیکند و مسیر دیگری را در مغز انتخاب میکند. از دیدگاه وی این امکان وجود دارد که شبکهای با تعداد زیادی اتصالات برای تکرار ایجاد شوند تا در صورت نابودی بخشی از آن، همچنان به صورت مجموعهای به هم پیوسته کار کند. تا نیمه دهه ۶۰ میلادی کسی به نظرات او توجهای نکرد. تا اینکه در سال ۱۹۶۵ نیروی هوایی آمریکا و«آزمایشگاههای بل» به نظرات او علاقهمند شدند و پنتاگون با سرمایهگذاری در طراحی و ساخت شبکهای براساس نظریات او موافقت کرد.
ولی آقای باران (Baran) بنابر دلایلی حاضر با همکاری با نیروی هوایی آمریکا نشد. در این میان دانشمندی با نام تیلور (Tailon) وارد موسسه آرپا (ARPA) شد. او مستقیماً به آقای هرتسفلد رییس موسسه پیشنهاد کرد: (ARPA) آرپا هزینه ایجاد یک شبکه آزمایشی کوچک با حداقل چهار گره را تامین کند که بودجه آن بالغ بر یک میلیون دلار میشد. با این پیشنهاد تیلور تجربهای را آغاز کرد که منجر به پیدایش اینترنت امروزی شد. او موفق شد در سال ۱۹۶۶، دو کامپیوتر را در شرق و غرب آمریکا به هم متصل کند. با این اتصال انقلابی در نحوه صدور اطلاعات در دنیای ارتباطات رخ داد که نتیجه آن را امروز همگی شاهد هستیم. این شبکه به بستههایی (packet) از دادهها که به وسیله کامپیوترهای مختلف ارسال میشدند اتکا داشت. پس از انکه ازمایشها سودمندی انرا مشخص کردند سایر بخشهای دولتی و دانشگاهها پژوهشی تمایل خود را به وصل شدن به ان اعلام کردند . ارتباطات الکترونیکی به صورت روشی موثر برای دانشمندان و دیگران به منظور استفاده مشترک از دادهها در امد. در همان زمان که ARPAnet در حال رشد بود تعدادی شبکه پوشش محلی (LAN) در نقاط مختلف آمریکا به وجود امد. مدیران LANها نیز به وصل کردن کامپیوترهای شبکههای خود به شبکههای بزرگتر اقدام کردند . پروتوکل اینترنت ARPAnet IP زبان استاندارد حکمفرما برای برقراری ارتباط کامپیوترهای شبکههای مختلف به یکدیگر شد.تاریخ تولد اینترنت به طور رسمی اول سپتامبر ۱۹۶۹ اعلام شدهاست. زیرا که اولین “IMP” در دانشگاه “UCLA” واقع در سانتاباربارا در این تاریخ بارگذاری شدهاست.
از اوایل دهه ۱۹۹۰ رشد استفاده از اینترنت به صورت تصاعدی افزایش یافت . یکی از علل چنین استقبالی ابزار جستجویی مانند Gopher و archie بودهاست اما اینها در سال ۱۹۹۱ تحت تاثیر word wide web قرار گرفتند که به وسیله CERN یا ازمایشگاه فیزیک هستهای اروپا ساخته شد . با ان که اینترنت از ابتدا طوری بود که مبادله اطلاعات برای تازه واردان بسیار ساده باشد. بزرگترین جهش در وب در سال ۱۹۹۳ با عرضه نرمافزار موزاییک mosaic که نخستین برنامه مرورگر وب گرافیکی بود به وجود امد. برنامه موزاییک محصول تلاش دانشجویان و استادان بخش "مرکز ملی کاربردهای ابر کامپیوتر " در دانشگاه ایلینویز آمریکا بود. برای نخستین بار موزاییک امکانات اشاره و کلیک (به وسیله موش) را فراهم کرد. کاربران میتوانستند صفحات وب (web page) یا مجموعهای از متن و گرافیک را کنار هم بگذارند تا هر کسی که میخواست انها را بتواند روی اینترنت ببیند. وقتی با موش روی کلمهها یا تصاویر خاصی که hyper link نامیده میشد کلیک میکردند برنامه موزاییک به طور خود کار یک صفحه دیگر باز میکرد که به کلمه یا تصویر خاص و کلیک شده اختصاص داشت. بهترین بخش این سیستم انجا بود که hyper linkها میتوانستند به صفحاتی روی همان کامپیوتر یا هر کامپیوتر دیگر اینترنت با خدمات وب اشاره کنند. صفحات وب هر روز متولد میشدند و مفهوم موج سواری یا surfing روی وب متولد شد. اواسط سال ۱۹۹۴ سه میلیون کامپیوتر به اینترنت وصل شده بود و در ان هنگام اجرای عملیات اهسته نشده بود. صفحات جدید وب که شامل همه چیز از اسناد دولتی تا مدارک شرکتها و مدلهای جدید لباس بود در سراسر دنیا چندین برابر شد . موزاییک و جانشینان ان مانند navigator محصول شرکت " نت اسکیپ " اینترنت را از قلمرو علمی به میان مردم اوردند. طبق اخرین امار ۵۱ درصد کاربران بعد از سال ۱۹۹۵ وارد این محیط شدهاند. میلیونها انسانی که از اینترنت استفاده میکنند نیازی ندارند که نکات فنی مانند TCP/IP را بدانند . امروزه شرکتهای خدمات دهنده اینترنت یا ISP این کار را به عهده دارند.رشد روز افزون ان و ساده تر شدن استفاده ان همچنان ادامه دارد . هر چه تعداد مردم بیشتری به اینترنت رجوع کنند تعداد شرکتهای سازنده برنامههای اینترنت بیشتر میشود.با انکه بعضی از عاشقان اینترنت ان را نوعی شیوه زندگی میدانند. در نظر بیشتر کاربران منبع سرگرمی اطلاعات است ولی بیشترین مصرف ان پست الکترونیکی یا همان email است که یکی از ابزارهای ارتباطی کار امد به شمار میرود. پیامها از کامپیوتری به کامپیوتر دیگر با سرعت پرواز میکنند و منتظر میمانند تا شخص فرصت خواندن انها را پیدا کند . وب امکانات خوبی برای کپی از نرمافزارهای مجاز از لحاظ کپی فراهم میسازد. وقتی که میبینیم که در مدت کوتاهی اینترنت به چنین رشدی نایل آمده است، مطمئناً دشوار خواهد بود که آینده او را پیش بینی کنیم. طبق نظر کارشناسان ماهانه ۱۰ درصد به تعداد کاربران اینترنت افزوده میشود ولی تعداد دقیق کاربران که روزانه از آن استفاده میکنند مشخص نیست. هرچند که پارهای از کارشناسان تعداد آنها را تا ۹۰۰ میلیون نفر حدس میزنند. تعداد رسمی کاربران اینترنتی را در سال ۲۰۰۰ کارشناسان ۵۰۰ میلیون نفر اعلام کرده بودند.
قطعاً در سالهای آینده تحولات شگرفی را در زمینه شبکههای اینترنتی شاهد خواهیم بود. بهوسیله اینترنت انسان به راههای جدیدی دست پیدا کرد. در کنار این شانس جدید توسط اینترنت، باید بگوییم خطراتی نیز در رابطه با سیاست و اقتصاد و علم به دنبال خواهد داشت. فرم امروزی اینترنت مدیون همکاری تمام کاربران اینترنت در سرتاسر گیتی است که با این تصور که اطلاعات موجود در سطح جهان را به راحتی با یکدیگر مبادله کنند. این تصوری بود که آقای باران(Baran) از اینترنت داشت و امیدواریم در آینده نیز تکامل اینترنت در این مسیر باشد.
رایجترین زبان برای ارتباطات در اینترنت زبان انگلیسی است. این ممکن است ناشی از زادگاه اینترنت و همچنین نقش زبان انگلیسی به عنوان زبان بینالمللی باشد. ناتوانی رایانههای اولیه - که اغلب در امریکا ساخته میشدند - در پردازش نویسه (کاراکتر)های به جز گونه انگلیسی الفبای لاتین نیز ممکن است با این موضوع مرتبط باشد. پس از انگلیسی(۲۸٪ از بازدیدکنندگان وب)، پرخواهان ترین زبانها در وب جهان گستر عبارنتد از : چینی ۲۳٪، اسپانیایی ۸٪، ژاپنی ۵٪، پرتغالی و آلمانی (هر کدام ۴٪)، عربی و فرانسه و روسی (هرکدام ۳٪)و کرهای ۳٪.بر پایه منطقه، ۴۲٪ از کاربران اینترنت در آسیا، ۲۴٪ در اروپا،۱۴٪ در امریکای شمالی، ۱۰٪ در امریکای لاتین و کارائیب، ۵٪ در آفریقا، ۳٪ در خاورمیانه و ۱٪ در استرالیا/اقیانوسیه.
فناوریهای اینترنت در سالهای اخیر بویژه در زمینه استفاده از یونیکد، به حد کافی گسترش یافتهاند و امکانات مناسبی برای ارتباط در بسیاری از زبانهای دنیا در دسترس میباشد، اما همچنان مسائلی مانند موجیباکه (نمایش نادرست برخی نویسههای یک زبان) باقی هستند.
روشهای معمول دسترسی به اینترنت در خانهها شامل دسترسی با شمارهگیری (dial-up)، خطوط زمینی پهن باند(از طریق کابل کواکسیال، فیبر نوری و یا سیم مسی)، وای-فای (Wi-Fi)، ماهواره و فناوری ۳G تلفن همراه میباشد. اماکن عمومی که میتوان در آنها از اینترنت استفاده نمود شامل کتابخانهها و کافینتها که در آنها رایانههایی با اتصال به اینترنت مهیاست.همچنین کیوسکهای اینترنت در بسیاری از اماکن عمومی مانند سالن فرودگاه و کافی شاپها موجودند که بعضی از آنها برای استفادههای کوتاه و سرپایی در نظرگرفته شدهاند.واژههای گوناگونی برای نامیدن این ترمینالها به کار میرودف از جمله : کیوسک عمومی اینترنت و یا پایانه دسترسی عمومی.
این ترمینالها به گستردگی برای کاربردهایی چون رزرو بلیط، سپرده گذاری بانکی، پرداخت برخط مورد استفاده قرار میگیرد. وای-فای(Wi-Fi) دسترسی بی سیم به شبکههای رایانهای و در نتیجه به اینترنت را فراهم میکند. نقاط داغ (Hotspots) به مکانهایی گفته میشود که دسترسی به اینترنت بی سیم در آن نقاط امکانپذیر است و کاربران میتوانند با لپ تاپ و یا دستیار دیجیتال شخصی(PDA) خود به اینترنت متصل شوند. گاهی این سرویسهای بیسیم برای عموم و یا حداقل برای مشتریان رایگان ارائه میشود. یک نقطه داغ محدوده مکانی مشخصی را شامل میشود مثل محوطه یک دانشگاه، پارک و یا حتی سراسر نقاط یک شهر. سرویسهای تجاری Wi-Fi که کل شهر را پوشش میدهند هم اکنون در شهرهای لندن، وین، تورنتو، سانفرانسیسکو، فیلادلفیا، شیکاگو و پیتسبورگ ارائه میشوند. در این شهرها مشترکین میتوانند در هر نقطهای از شهر به شبکه وای-فای متصل شوند
.علاوه بر وای-فای، آزمایشهایی نیز در زمینه شبکههای بی سیم متحرک اختصاصی مانن ریکوچت و سرویسهای دادهای پرسرعت بر روی تلفنهای همراه، و شبکههای بی سیم ثابت انجام شدهاست. تلفنهای همراه پیشرفته مثل تلفنهای همراه هوشمند (Smartphone) همگی با قابلیت اتصال به اینترنت از طریق شبکه تلفن عرضه میشوند. مرورگرهای وب مثل اپرا معمولاً نسخهای برای این دستگاههای جیبی پیشرفته دارند.
آثار اجتماعی
اینترنت به دلیل خصوصیاتی چون قابلیت استفاده و دسترسی گسترده آن، اشکال کاملاً جدیدی از تعاملات، فعالیتها، و سازماندهیهای اجتماعی را پدید آوردهاست. وبگاههای شبکههای اجتماعی چون فیسبوک، توییتر و مایاسپیس روشهای جدیدی برای معاشرت و تعامل خلق کردهاند. کاربران این سایتها قادرند اطلاعات گوناگونی به صفحات خود بیفزایند، علایق مشترکی را دنبال کنند و به دیگران مرتبط شوند. وبگاههایی مثل لینکداین به پرورش ارتباطات حرفهای و تجاری میپردازد. یوتیوب و فلیکر هم در زمینه ویدیوها و تصاویر کاربران تخصص دارند.
دهه اول سده بیست و یکم، شاهد پرورش اولین نسلی است که در شرایطی رندگی میکنند که اینترنت به گستردگی در دسترس میباشد. این مسایل و نگرانیهایی را به دنبال دارد از جمله مسئله حفظ حریم خصوصی و هویت و توزیع غیر مجاز مواردی که تحت قانون کپی رایت محافظت میشوند. این بومیان دیجیتال با انبوهی از مسایلی مواجه میشوند که در مورد نسلهای قبلی وجود نداشت.
اینترنت کاربرد جدیدی به عنوان بک ابزار سیاسی یافتهاست مه این منجر به سانسوراینترنت میشود. نمونه استفاده سیاسی از اینترنت، مبارزه انتخاباتی هاوارد دین در سال ۲۰۰۴ در ایالات متحده بود که به دلیل جمع آوری کمکهای مردمی از طریق اینترنت شایان توجه بود. بسیاری از گروههای سیاسی از اینترنت برای سازماندهی در انجام ماموریت خود استفاده میکنند. برخی از دولتها مانند ایران، کره شمالی، میانمار، چین وعربستان، آنچه را که مردم میتوانند از طرق اینترنت ببینند، به ویژه در مورد مسایل سیاسی و مذهبی محدود مینمایند.
این کار از طریق نرمافزارهایی که دامنه و محتوا را فیلتر میکنند صورت میپذیرد. در نروژ، دانمارک، فنلاند و سوئد، ارائه دهندگان اصلی خدمات اینترنت به صورت داوطلبانه و احتمالاً برای اجتناب از قانون شدن فیلترینگ، قبول کردهاند که دسترسی به سایتهایی که توسط مقامات مسوول لیست شدهاست را محدود نمایند. اگرچه قرار بر این است که این آدرسهای ممنوع شده تنها شامل وبگاههای هرزه نگاری کودکان باشد، اما محتوای این لیست مخفی است.
در بسیاری از کشورها مانند ایالات متحده امریکا، اگرپه قوانینی در ممنوعیت پخش موارد دربردارنده هرزه نگاری کودک تصویب نمودهاند اما استفاده از نرم افرارهای فیلترینگ را اجباری نکردهاند. نرمافزارهای تجاری و یا رایگان بسیاری تحت عنوان نرمافزار کنترل محتوا در دسترس هستند که کاربران از طریق آنها میتوانند وبگاههای مستهجن را در رایانه شخصی و یا شبکه محلی مسدود نمود تا از دسترسی کودکان به مواد هرزه نگاری و یا خشونت نگاری جلو گیری نمود.
اینترنت از آغاز پیدایش همواره وسیله مناسبی برای فعالیتهای تفریحی بودهاست. بسیاری از انجمنهای اینترنتی بخشهایی برای بازی و ویدیوهای خنده دار و کارتونهای کوتاه در قالب انیمیشنهای فلش(Flash) دارند. بیش از ۶ میلیون نفر در اینترنت از وب نوشتها و تختههای پیام برای برقراری ارتباط استفاده میکنند. صنایع هرزه نگاری و قمار از اینترنت سود میجویند تا وبگاههایی بسازند که منبع کلان تبلیغات برای سایر وبگاهها میباشند.
اگرچه بسیاری از دولتها برای محدود سازی استفاده این دو صنعت ازاینترنت تلاش کردهاند اما در جلوگیری از گسترش محبوبیت آنها چندان موفق نبودهاند.یکی از فعالیتهای تفریحی اصلی در اینترنت، بازیهای چند نفره است. این شکل تفریح اجتماعاتی را بوجود میآورد که در آن افراد از هر سن و نژادی از دنیای بازیهای چندنفره کامپیوتری لذت میبرند. اگرچه بازیهای برخط از سال ۱۹۷۰ وجود داشتهاند،
اما گونه مدرن این بازیها با خدمات اشتراکی مانند گیماسپای و MPlayer آغاز شد. غیر مشترکین محدود به بازیهای خاص و یا زمان بازی خاص بودند. بسیاری از مردم از اینترنت برای دسترسی و بارگیری(download) موسیقی و فیلم و سایر آثار استفاده میکنند. این خدمات به هر دو صورت رایگان و پولی، با استفاده ازسرورهای مرکزی و یا فناوریهای نظیر-به-نظیر توزیع شده ارائه میشوند.برخی از این منابع توجه بیشتری نسبت به سایرین در زمینه حقوق مولفین اصلی نشان دادهاند.
بسیاری از مردم از اینترنت برای دسترسی به اخبار، پیش بینی آب وهوا، گزارشهای ورزشی و جستجوی مطالب در مورد علاقهمندیهای خود استفاده میکنند. آنها از گپ برخط، پیام رسان فوری و پست الکترونیک برای در تماس بودن با دوستان خود در سراسر دنیا و به شیوهای شبیه به دوست مکاتبهای که در قدیم رواج داشت، استفاده میکنند. اینترنت شاهد شمار رو به افزایش میزکارهای وب که در آن کاربران به فایلها و تنظیمات خود دسترسی پیدا میکنند، بودهاست."کم کاری سایبری" (Cyberslacking) محل اتلاف جدی منابع سازمانهاست. کارمندان انگلیسی به طور میانگین ۵۷٪ از وقت خود را به وب گردی در حین کار میپردازند.
تاثیرات ذهنی
بر روی آثار اینترنت بر مغز انسان مطالعات زیادی انجام شدهاست. نیکلاس کار(به انگلیسی: Nicholas Carr) ادعا میکند که اینترنت تفکر عمیق را که عامل خلاقیت واقعی است کاهش میدهد. او همچنین میگوید که پیوندهای فرامتن و تحریک بیش از حد، به این معنی است که مغز باید بیشتر توجهش را بر روی تصمیمات کوتاه متمرکز کند. او همچنین بیان میکند که اینترنت مغز را غرق در اندیشه میکند که باعث آسیب رسیدن به حافظه بلند مدت میگردد. شمار فراوان محرکها در اینترنت منجر به بار شناختی(Cognitive Load) سنگینی برای مغز میشود که یادآوری هرچیزی را مشکل میسازد.استیون پینکر (به انگلیسی: Steven Pinker)، روانشناس، نظری مخالف دارد. او به این نکته اشاره میکند که افراد بر روی آنچه انجام میدهند کنترل دارند وبنابراین این پژوهش و استدلال هرگز طبیعت انسان را در نظر نداشتهاست. او میگوید "تجربه ظرفیتهای پردازش اطلاعات مغز را عوض نمیکند" و ادعا میکند که اینترنت باعث باهوشتر شدن انسانها شدهاست.
تاریخ اینترنت
اتحاد جماهیر شوروی آن زمان موشکی با نام «اسپونیک» (Spotnik) را به فضا میفرستد و نشان میدهد دارای قدرتی است که میتواند شبکههای ارتباطی آمریکا را توسط موشکهای بالستیک و دوربرد خود از بین ببرد. آمریکاییها در پاسخگویی به این اقدام روسها، موسسه پروژههای تحقیقی پیشرفته “ARPA” را بهوجود آوردند. هدف از تاسیس چنین موسسهای پژوهش و آزمایش برای پیدا کردن روشی بود که بتوان از طریق خطوط تلفنی، کامپیوترها را به هم مرتبط نمود. به طوری که چندین کاربر بتوانند از یک خط ارتباطی مشترک استفاده کنند. در اصل شبکهای بسازند که در آن دادهها به صورت اتوماتیک بین مبدا و مقصد حتی در صورت از بین رفتن بخشی از مسیرها جابهجا و منتقل شوند. در اصل هدف “ARPA” ایجاد یک شبکه اینترنتی نبود و فقط یک اقدام احتیاطی در مقابل حمله احتمالی موشکهای اتمی دوربرد بود. هر چند اکثر دانش امروزی ما درباره شبکه بهطور مستقیم از طرح آرپانت “ARPPA NET” گرفته شدهاست. شبکهای که همچون یک تار عنکبوت باشد و هر کامپیوتر ان از مسیرهای مختلف بتواند با همتایان خود ارتباط دااشته باشد واگر اگر یک یا چند کامپیوتر روی شبکه یا پیوند بین انها از کار بیفتادبقیه باز هم بتوانستند از مسیرهای تخریب نشده با هم ارتباط بر قرار کنند.
این ماجرا با وجودی که بخشی از حقایق بهوجود آمدن اینترنت را بیان میکند اما نمیتواند تمام واقعیات مربوط به آن را تشریح کند. باید بگوییم افراد مختلفی در تشکیل اینترنت سهم داشتهاند آقای “Paul Baran” یکی از مهمترین آنهاست. آقای باران که در دوران جنگ سرد زندگی میکرد میدانست که شبکه سراسری تلفن آمریکا توانایی مقابله با حمله اتمی شوروی سابق را ندارد. مثلاً اگر رییس جمهور وقت آمریکا حمله اتمی متقابل را دستور دهد، باید از یک شبکه تلفنی استفاده میکرد که قبلاً توسط روسها منهدم شده بود. در نتیجه طرح یک سیستم مقاوم در مقابل حمله اتمی روسها ریخته شد.آقای باران (Baran) تشکیل و تکامل اینترنت را به ساخت یک کلیسا تشبیه کرد و معتقد بود، طی سالهای اخیر هر کس سنگی به پایهها و سنگهای قبلی بنا اضافه میکند و انجام هر کاری وابسته به کارهای انجام شده قبلی است. بنابراین نمیتوان گفت، کدام بخش از کار مهمترین بخش کار بودهاست و در کل پیدایش اینترنت نتیجه کار و تلاش گروه کثیری از دانشمندان است. داستان پیدایش اینترنت با افسانه و واقعیت در هم آمیخته شدهاست.
در اوایل دهه ۶۰ میلادی آقای باران طی مقالاتی پایه کار اینترنت امروزی را ریخت. اطلاعات و دادهها به صورت قطعات و بستههای کوچکتری تقسیم و هر بسته با آدرسی که به آن اختصاص داده میشود به مقصد خاص خود فرستاده میشود. به این ترتیب بستهها مانند نامههای پستی میتوانند از هر مسیری به مقصد برسند. زیرا آنها شامل آدرس فرستنده و گیرنده هستند و در مقصد بستهها مجدداً یکپارچه میشوند و به صورت یک اطلاعات کامل درمیآیند.
آقای باران (Baran) طی مقالاتی اینچنینی ساختمان و ساختار اینترنت را پیشگویی کرد. او از کار سلولهای مغزی انسان به عنوان الگو استفاده کرد، او معتقد بود: وقتی سلولهای مغزی از بین بروند، شبکه عصبی از آنها دیگر استفاده نمیکند و مسیر دیگری را در مغز انتخاب میکند. از دیدگاه وی این امکان وجود دارد که شبکهای با تعداد زیادی اتصالات برای تکرار ایجاد شوند تا در صورت نابودی بخشی از آن، همچنان به صورت مجموعهای به هم پیوسته کار کند. تا نیمه دهه ۶۰ میلادی کسی به نظرات او توجهای نکرد. تا اینکه در سال ۱۹۶۵ نیروی هوایی آمریکا و«آزمایشگاههای بل» به نظرات او علاقهمند شدند و پنتاگون با سرمایهگذاری در طراحی و ساخت شبکهای براساس نظریات او موافقت کرد.
ولی آقای باران (Baran) بنابر دلایلی حاضر با همکاری با نیروی هوایی آمریکا نشد. در این میان دانشمندی با نام تیلور (Tailon) وارد موسسه آرپا (ARPA) شد. او مستقیماً به آقای هرتسفلد رییس موسسه پیشنهاد کرد: (ARPA) آرپا هزینه ایجاد یک شبکه آزمایشی کوچک با حداقل چهار گره را تامین کند که بودجه آن بالغ بر یک میلیون دلار میشد. با این پیشنهاد تیلور تجربهای را آغاز کرد که منجر به پیدایش اینترنت امروزی شد. او موفق شد در سال ۱۹۶۶، دو کامپیوتر را در شرق و غرب آمریکا به هم متصل کند. با این اتصال انقلابی در نحوه صدور اطلاعات در دنیای ارتباطات رخ داد که نتیجه آن را امروز همگی شاهد هستیم. این شبکه به بستههایی (packet) از دادهها که به وسیله کامپیوترهای مختلف ارسال میشدند اتکا داشت. پس از انکه ازمایشها سودمندی انرا مشخص کردند سایر بخشهای دولتی و دانشگاهها پژوهشی تمایل خود را به وصل شدن به ان اعلام کردند . ارتباطات الکترونیکی به صورت روشی موثر برای دانشمندان و دیگران به منظور استفاده مشترک از دادهها در امد. در همان زمان که ARPAnet در حال رشد بود تعدادی شبکه پوشش محلی (LAN) در نقاط مختلف آمریکا به وجود امد. مدیران LANها نیز به وصل کردن کامپیوترهای شبکههای خود به شبکههای بزرگتر اقدام کردند . پروتوکل اینترنت ARPAnet IP زبان استاندارد حکمفرما برای برقراری ارتباط کامپیوترهای شبکههای مختلف به یکدیگر شد.تاریخ تولد اینترنت به طور رسمی اول سپتامبر ۱۹۶۹ اعلام شدهاست. زیرا که اولین “IMP” در دانشگاه “UCLA” واقع در سانتاباربارا در این تاریخ بارگذاری شدهاست.
از اوایل دهه ۱۹۹۰ رشد استفاده از اینترنت به صورت تصاعدی افزایش یافت . یکی از علل چنین استقبالی ابزار جستجویی مانند Gopher و archie بودهاست اما اینها در سال ۱۹۹۱ تحت تاثیر word wide web قرار گرفتند که به وسیله CERN یا ازمایشگاه فیزیک هستهای اروپا ساخته شد . با ان که اینترنت از ابتدا طوری بود که مبادله اطلاعات برای تازه واردان بسیار ساده باشد. بزرگترین جهش در وب در سال ۱۹۹۳ با عرضه نرمافزار موزاییک mosaic که نخستین برنامه مرورگر وب گرافیکی بود به وجود امد. برنامه موزاییک محصول تلاش دانشجویان و استادان بخش "مرکز ملی کاربردهای ابر کامپیوتر " در دانشگاه ایلینویز آمریکا بود. برای نخستین بار موزاییک امکانات اشاره و کلیک (به وسیله موش) را فراهم کرد. کاربران میتوانستند صفحات وب (web page) یا مجموعهای از متن و گرافیک را کنار هم بگذارند تا هر کسی که میخواست انها را بتواند روی اینترنت ببیند. وقتی با موش روی کلمهها یا تصاویر خاصی که hyper link نامیده میشد کلیک میکردند برنامه موزاییک به طور خود کار یک صفحه دیگر باز میکرد که به کلمه یا تصویر خاص و کلیک شده اختصاص داشت. بهترین بخش این سیستم انجا بود که hyper linkها میتوانستند به صفحاتی روی همان کامپیوتر یا هر کامپیوتر دیگر اینترنت با خدمات وب اشاره کنند. صفحات وب هر روز متولد میشدند و مفهوم موج سواری یا surfing روی وب متولد شد. اواسط سال ۱۹۹۴ سه میلیون کامپیوتر به اینترنت وصل شده بود و در ان هنگام اجرای عملیات اهسته نشده بود. صفحات جدید وب که شامل همه چیز از اسناد دولتی تا مدارک شرکتها و مدلهای جدید لباس بود در سراسر دنیا چندین برابر شد . موزاییک و جانشینان ان مانند navigator محصول شرکت " نت اسکیپ " اینترنت را از قلمرو علمی به میان مردم اوردند. طبق اخرین امار ۵۱ درصد کاربران بعد از سال ۱۹۹۵ وارد این محیط شدهاند. میلیونها انسانی که از اینترنت استفاده میکنند نیازی ندارند که نکات فنی مانند TCP/IP را بدانند . امروزه شرکتهای خدمات دهنده اینترنت یا ISP این کار را به عهده دارند.رشد روز افزون ان و ساده تر شدن استفاده ان همچنان ادامه دارد . هر چه تعداد مردم بیشتری به اینترنت رجوع کنند تعداد شرکتهای سازنده برنامههای اینترنت بیشتر میشود.با انکه بعضی از عاشقان اینترنت ان را نوعی شیوه زندگی میدانند. در نظر بیشتر کاربران منبع سرگرمی اطلاعات است ولی بیشترین مصرف ان پست الکترونیکی یا همان email است که یکی از ابزارهای ارتباطی کار امد به شمار میرود. پیامها از کامپیوتری به کامپیوتر دیگر با سرعت پرواز میکنند و منتظر میمانند تا شخص فرصت خواندن انها را پیدا کند . وب امکانات خوبی برای کپی از نرمافزارهای مجاز از لحاظ کپی فراهم میسازد. وقتی که میبینیم که در مدت کوتاهی اینترنت به چنین رشدی نایل آمده است، مطمئناً دشوار خواهد بود که آینده او را پیش بینی کنیم. طبق نظر کارشناسان ماهانه ۱۰ درصد به تعداد کاربران اینترنت افزوده میشود ولی تعداد دقیق کاربران که روزانه از آن استفاده میکنند مشخص نیست. هرچند که پارهای از کارشناسان تعداد آنها را تا ۹۰۰ میلیون نفر حدس میزنند. تعداد رسمی کاربران اینترنتی را در سال ۲۰۰۰ کارشناسان ۵۰۰ میلیون نفر اعلام کرده بودند.
قطعاً در سالهای آینده تحولات شگرفی را در زمینه شبکههای اینترنتی شاهد خواهیم بود. بهوسیله اینترنت انسان به راههای جدیدی دست پیدا کرد. در کنار این شانس جدید توسط اینترنت، باید بگوییم خطراتی نیز در رابطه با سیاست و اقتصاد و علم به دنبال خواهد داشت. فرم امروزی اینترنت مدیون همکاری تمام کاربران اینترنت در سرتاسر گیتی است که با این تصور که اطلاعات موجود در سطح جهان را به راحتی با یکدیگر مبادله کنند. این تصوری بود که آقای باران(Baran) از اینترنت داشت و امیدواریم در آینده نیز تکامل اینترنت در این مسیر باشد.