داده
داده

به طور کلی، می‌توان همهٔ دانسته‌ها، آگاهی‌ها، داشته‌ها، آمارها، شناسه‌ها، پیشینه‌ها و پنداشته‌ها را داده یا دیتا (به انگلیسی: Data) نامید. انسان برای ثبت و درک مشترک هر واقعیت و پدیده از نشانه‌های ویژهٔ آن بهره گرفته‌است.

انسان برای نمایاندن داده‌ها نخست از نگاره و در ادامهٔ سیر تکاملی آن از حروف، شماره‌ها و نشانه‌ها کمک گرفت. برای بازنمودن داده‌ها از این موارد کمکی یا ترکیبی از آن‌ها استفاده می‌شود






در رایانه

به اعداد، حروف و علائم که جهت درک و فهم مشترک از انسان‌ها یا رایانه سرچشمه می‌گیرند داده می‌گویند. داده‌ها معمولاً از سوی انسان‌ها بصورت حروف، اعداد، علائم و در رایانه به صورت نمادهایی (همان رمزهای صفر و یک) قراردادی ارائه می‌شوند. اصطلاح داده یک عبارت نسبی است یعنی اگر موجب درک و فهم لازم و کامل دراین مرحله شده‌است به عنوان آگاهی یا اطلاعات از آن نام می‌برند و چنانچه موجب درک و فهم کامل نگردد به عنوان همان داده به شمار می‌آیند و چون هدف نهایی آگاهی و اطلاعات است باید از سوی دست‌اندرکاران (انسان یا رایانه) دستکاری یا پردازش شوند. منظور از دستکاری یا پردازش داده‌ها انجام عملیاتی از قبیل جمع، تفریق، ضرب، تقسیم، مقایسه وغیره‌است.

داده‌ها مجموعه‌ای از نمادها (برای انسان حروف، اعداد، علائم و برای رایانه رمزهای صفر و یک) هستند که حقایق را نشان می‌دهند و برای انسان از طریق رسانه‌های وی (بینایی، شنوایی، چشایی، بویایی، بساوایی) و برای رایانه از طریق لوازم ویژه (صفحه کلید موس و غیره) به دست می‌آیند.

داده‌ها امروزه فقط از سوی انسان یا رایانه پردازش می‌شوند یعنی کارهایی روی آن‌ها صورت می‌گیرد. در پردازش داده‌ها (داده‌پردازی) در رایانه ابتدا داده‌ها به رایانه وارد می‌شوند. این داده‌ها درابتدا ذخیره شده و روی آن‌ها عملیاتی (جمع، تفریق، ضرب، تقسیم و...) صورت می‌گیرد. پس از این که این عملیات (پردازش) صورت گرفت معمولاً داده‌ها به یک رایانه دیگر یا دوباره به انسان‌ها منتقل می‌شود. در اغلب گزارش‌ها و یادداشت‌های سازمانی، داده‌ها به چشم می‌خورند. برای نمونه، تاریخ و مقدار یک صورت‌حساب یا چک، جزئیات فهرست حقوق، تعداد وسایل نقلیه‌ای که از نقطهٔ خاصی در کنار جاده گذشته‌اند،... نمونه‌هایی از داده‌ها هستند.






انواع داده‌ها از نظر ساخت‌یافتگی

داده‌های ساخت‌یافته
داده‌های نیمه‌ساخت‌یافته

داده‌های زمانی
در بسیاری از کاربردهای مبتنی بر داده‌ها و اطلاعات ذخیره‌سازی و بازیافت حالا ت و وضعیت‌های سیستم در طی زمان اهمیت می‌یابد.







داده‌های نیمه‌ساخت‌یافته
داده‌های نیمه-ساخت‌یافته شکلی از داده‌های ساخت‌یافته‌ای هستند که از ساختار رسمی از جداول و مدل‌های داده‌ای وابسته به پایگاهِ داده‌هایِ رابطه‌ای مطابقت نمی‌کنند، اما با این وجود شامل برچسب‌ها یا علامت‌ها و شاخص‌هایی هستند که عناصر معنایی را از یکدیگر جدا می‌کنند و سلسله مراتبی از رکوردها و فیلدها را بین داده‌ها ایجاد می‌کنند.






داده‌های مکانی
داده‌های مکانی (geospatial data ) به مجموعه‌ای از داده‌ها گفته می‌شود که بیان کننده موقعیت جغرافیایی یک عارضه(طبیعی یا مصنوعی) بر روی زمین باشند. داده‌های مکانی معمولاً به صورت موقعیت و یا روابط هندسی ذخیره شده و قابل نمایش در نقشه‌ها می‌باشند. داده‌ها مکانی بیشتر در سامانه‌های اطلاعات مکانی نگهداری شده، قابل دسترسی و پردازش می‌باشند.






پردازش رایانه‌ای داده‌ها

پردازش رایانه‌ای داده‌ها هر فرایندی است که از برنامه‌ای رایانه‌ای برای واردسازی داده‌ها، خلاصه‌بندی، تحلیل و در غیر اینصورت تبدیل‌داده به اطلاعات قابل استفاده استفاده می‌کند.

علوم و فناوری پردازش داده‌ها دارای وسعت، گوناگونی، و پیچیدگی فراوانی بوده، و این زمینه از دانش به شاخه‌ها و زیر شاخه‌های متعددی تقسیم می‌شود، که برخی از آن‌ها عبارت است از:






پردازش علائم

پردازش علائم (سیگنال‌ها) را باید یکی از شاخه‌های وسیع و پر کاربرد در پردازش داده‌ها به حساب آورد.






پردازش تصاویر

پردازش تصاویر یکی از زمینه‌های عمده و خاص در پردازش علائم به حساب می‌آید که در آن داده‌های مورد پردازش و عمل‌آوری تصاویر و سیگنال‌های دو بعدی‌ست.
پردازش متون
یکی از مسائل عمده در پردازش متون و به طور عمومی‌تر در پردازش زبان‌های طبیعی عملیات و فرایندهای مربوط به مدل‌سازی داده‌ها است.







فشرده‌سازی داده‌ها

کدگذاری منبع روش‌های فشرده‌سازی یک منبع اطلاعات را مطالعه می‌کند. منابع اطلاعاتی طبیعی، مانند گفتار یا نوشتار انسان‌ها، دارای افزونگی است؛ برای مثال در جمله «من به خانه‌مان برگشتم» ضمایر «مان» و شناسه «م» در فعل جمله را می‌توان از جمله حذف نمود بدون اینکه از مفموم مورد نظر جمله چیزی کاسته شود. این توضیح را می‌توان معادل با انجام عمل فشرده سازی روی اطلاعات یک منبع اطلاعات دانست؛ بنابراین منظور از فشرده سازی اطلاعات کاستن از حجم آن به نحوی است که محتوی آن دچار تغییر نامناسبی نشود.

در علوم کامپیوتر و نظریه اطلاعات، فشرده سازی داده‌ها یا کد کردن داده‌ها، در واقع فرایند رمزگذاری اطلاعات با استفاده از تعداد بیت‌هایی (یا واحدهای دیگر حامل داده) کمتر از آنچه یک تمثال رمزگذاری نشده از همان اطلاعات استفاده می‌کند و با به کار گرفتن روش‌های رمزگذاری ویژه‌ای است.

مانند هر ارتباطی، ارتباطات با اطلاعات فشرده، تنها زمانی کار می‌کند که هم فرستنده و هم گیرندهٔ اطلاعات، روش رمزگذاری را بفهمند. به عنوان مثال این نوشته تنها زمانی مفهوم است که گیرنده متوجه باشد که هدف پیاده‌سازی با استفاده از زبان فارسی بوده. به همین ترتیب، دادهٔ فشرده سازی شده تنها زمانی مفهوم است که گیرنده روش رمزگشایی آن را بداند.

فشرده سازی به این دلیل مهم است که کمک می‌کند مصرف منابع با ارزش، مانند فضای هارد دیسک و یا پهنای باند ارسال، را کاهش دهد. البته از طرفی دیگر، اطلاعات فشرده سازی شده برای اینکه مورد استفاده قرار بگیرند باید از حال فشرده خارج شوند و این فرایند اضافه ممکن است برای بعضی از برنامه‌های کاربردی زیان آور باشد. برای مثال یک روش فشرده سازی برای یک فیلم ویدئویی ممکن است نیازمند تجهیزات و سخت‌افزار گران‌قیمتی باشد که بتواند فیلم را با سرعت بالایی از حالت فشرده خارج سازد که بتواند به طور همزمان با رمزگشایی پخش شود (گزینه‌ای که ابتدا رمزگشایی شود و سپس پخش شود، ممکن است به علت کم بود فضای برای فیلم رمزگشایی شده حافظه امکان‌پذیر نباشد). بنابراین طراحی روش فشرده سازی نیازمند موازنه و برآیندگیری بین عوامل متعددی است. از جمله این عوامل درصد فشرده سازی، میزان پیچیدگی معرفی شده (اگر از یک روش فشرده سازی پر اتلاف استفاده شود) و منابع محاسباتی لازم برای فشرده سازی و رمزگشایی اطلاعات را می‌توان نام برد. فشرده سازی به دو دسته فشرده‌سازی اتلافی (فشرده‌سازی با اتلاف) و فشرده‌سازی بهینه فشرده‌سازی بی‌اتلاف اطلاعات تقسیم می‌شوند. کدگذاری منبع، علم مطالعه روش‌های انجام این عمل، برای منابع متفاوت اطلاعاتی موجود است.






فشرده سازی بهینه در مقابل اتلافی

الگوریتم‌های فشرده سازی بهینه معمولاً فراوانی آماری را به طریقی به کار می‌گیرند که بتوان اطلاعات فرستنده را اجمالی تر و بدون خطا نمایش دهند. فشرده سازی بهینه امکان‌پذیر است چون اغلب اطلاعات جهان واقعی دارای فراوانی آماری هستند. برای مثال در زبان فارسی حرف "الف" خیلی بیش تر از حرف "ژ" استفاده می‌شود و احتمال اینکه مثلاً حرف "غین" بعد از حرف "ژ" بیاید بسیار کم است. نوع دیگری از فشرده سازی، که فشرده سازی پر اتلاف یا کدگذاری ادراکی نام دارد که در صورتی مفید است که درصدی از صحت اطلاعات کفایت کند. به طور کلی فشرده سازی اتلافی توسط جستجو روی نحوهٔ دریافت اطلاعات مورد نظر توسط افراد راهنمایی می‌شود. برای مثال، چشم انسان نسبت به تغییرات ظریف در روشنایی حساس تر از تغییرات در رنگ است. فشرده سازی تصویر به روش JPEG طوری عمل می‌کند که از بخشی از این اطلاعات کم ارزش تر "صرف نظر" می‌کند. فشرده سازی اتلافی روشی را ارائه می‌کند که بتوان بیشترین صحت برای درصد فشرده سازی مورد نظر را به دست‌آورد. در برخی موارد فشرده سازی شفاف (نا محسوس) مورد نیاز است؛ در مواردی دیگر صحت قربانی می‌شود تا حجم اطلاعات تا حد ممکن کاهش بیابد.

روش‌های فشرده سازی بهینه برگشت پذیرند به نحوی که اطلاعات اولیه قابلیت بازیابی به طور دقیق را دارند در حالی که روش‌های اتلافی، از دست دادن مقداری از اطلاعات را برای دست یابی به فشردگی بیشتر می‌پذیرند. البته همواره برخی از داده وجود دارند که الگوریتم‌های فشرده سازی بهینهٔ اطلاعات در فشرده سازی آن‌ها ناتوان اند. در واقع هیچ الگوریتم فشرده سازی ای نمی‌تواند اطلاعاتی که هیچ الگوی قابل تشخیصی ندارند را فشرده سازی کند. بنابراین تلاش برای فشرده سازی اطلاعاتی که قبلاً فشرده شده‌اند معمولاً نتیجهٔ عکس داشته (به جای کم کردن حجم، آن را زیاد می‌کند)، هم چنین است تلاش برای فشرده سازی هر اطلاعات رمز شده‌ای (مگر حالتی که رمز بسیار ابتدایی باشد).

در عمل، فشرده سازی اتلافی نیز به مرحله‌ای می‌رسد که فشرده سازی مجدد دیگر تأثیری ندارد، هرچند یک الگوریتم بسیار اتلافی، مثلاً الگوریتمی که همواره بایت آخر فایل را حذف می‌کند، همیشه به مرحله‌ای می‌رسد که دیگر فایل تهی می‌شود.






نظریه

سابقهٔ نظری فشرده سازی برای فشرده سازی‌های بهینه توسط نظریهٔ اطلاعات (که رابطه نزدیکی با نظریهٔ اطلاعات الگوریتمی دارد) و برای فشرده سازی‌های اتلافی توسط نظریهٔ آهنگ-پیچیدگی ( Rate–distortion theory) ارائه شده‌اند. این شاخه‌های مطالعاتی در اصل توسط کلوده شانون( Claude Shannon)، که مقالاتی بنیادی در این زمینه در اواخر دهه‌ای ۱۹۴۰ و اوایل دههٔ ۱۹۵۰ به چاپ رسانده است به وجود آمده. "رمزنگاری" و "نظریهٔ رمزگذاری" نیز رابطه بسیار زیادی با این زمینه دارند. ایدهٔ فشرده سازی رابطهٔ عمیقی با آمار استنباطی دارد.






اطلاعات

اطّلاع یا آگاهش (و با نگرسوی آشکارتر ابزاری نیز آگاهِه) در کوتاه ترین تعریف، "داده‌های پردازش شده" است. داده ها(data) مواد خام بالقوه معنی داری هستند که ما آن‌ها را در راستای شناختن و فهمیدن و حتی تفسیر چیزها، کالاها، رویدادها یا هرگونه هستی ای که در جهان واقعیت و یا دنیای خیال یافت می‌شوند، به واسطه روش‌های پژوهشی، ابزارهای شناختی مانند دستگاه زبان، احساسات پنج گانه، ذهن و مغز و حتی تجربه خود به دست می‌آوریم. اطلاعات، آگاهی‌های به دست آمده از عنصرها و رویدادهای جهان هستی است. به زبان محدود تکنیکی، مجموعه‌ای از نمادهای زبانی معنی دار و پیوسته درباره موجودات است. اطلاعات در زبان انگلیسی(information)از نظمی ساختاری و ذاتی خبر می‌دهد.

از منظر فلسفه، اطّلاعات مفهومی چندشکلی (polymorphic) و چندمعنایی (polysemantic) است.







نظریه اطلاعات
نظریّهٔ اطّلاعات مدلی ریاضی از شرایط و عوامل موثر در انتقال و پردازش داده‌ها و اطّلاعات فراهم می‌آورد. نظریهٔ اطلاعات با ارائهٔ روشی جهت «کمّی سازی و اندازه‌گیری عددی اطلاعات» به موضوعاتی مانند ارسال، دریافت، و ذخیره‌سازی بهینهٔ داده‌ها و اطلاعات می‌پردازد. تمرکز اصلی این نظریّه بر روی محدودیت‌های بنیادین که در ارسال و تحلیل داده‌ها وجود دارد می‌باشد، و کمتر به نحوهٔ عملکرد دستگاه‌های خاص می‌پردازد. پیدایش این نظریه عموماً به مهندس برقی به نام کلاود شانون در سال ۱۹۴۸ میلادی نسبت داده می‌شود. نظریه اطلاعات مورد استفاده خاص مهندسین مخابرات بوده، هرچند برخی از مفاهیم آن در رشته‌های دیگری مانند روان‌شناسی، زبان‌شناسی،کتابداری و اطلاع رسانی، و اطلاعات و دانش شناسی نیز مورد استفاده قرار گرفته‌است. مفهوم اطلاعاتی که توسط شانون مطالعه شد اطلاعات از دید آمار و احتمالات بوده و با مفاهیم روزمره از اطلاعات مانند «دانش» و یا استفاده‌های روزمره از آن در زبان طبیعی مانند «بازیابی اطلاعات»، «تحلیل اطلاعات»، «چهارراه اطلاعات» و غیره تفاوت می‌دارد. اگر چه نظریه اطلاعات رشته‌های دیگر مانند روان‌شناسی و فلسفه را تحت تأثیر قرار داده، ولی بدلیل مشکلات تبدیل «مفهوم آماری اطلاعات» به «مفهوم معنایی دانش و محتوا» تأثیراتش بیشتر از نوع القای احساساتی نسبت به مفهوم اطلاعات بوده‌است.






تاریخچه

خلق تلگراف و تلفن توجه و علاقه نسبت به مفهوم اطلاعات و انتقال آن را افزایش داد. در سال ۱۸۴۴ میلادی، ساموئل مورس خط تلگرافی بین شهرهای واشنگتن و بالتیمور در آمریکا ساخت. مورس هنگام ارسال اطلاعات به مشکلات عملی الکتریکی برخورد. او متوجه شد که خطوطی که از زیر زمین کشیده شده‌اند مشکلات بیشتری از خطوطی که هوایی از طریق تیر منتقل می‌شوند دارند و این خود زمینه‌ای برای تحقیقات بعدی شد. با اختراع تلفن توسط الکساندر گراهام بل در سال ۱۸۷۵ میلادی و گسترش شدید آن، برخی از دانشوران به بررسی مشکلات انتقال اطلاعات پرداختند. اکثر این تحقیقات از تبدیل فوریه استفاده جسته ولی تمرکز آنها بیشتر به جنبه عملی و مهندسی موضوع بود.

شروع تحقیق در مورد نظریه اطلاعات اولین بار در سال ۱۹۲۴ توسط هری نایکوئیست در مقاله‌ای به نام «عوامل خاصی که سرعت تلگراف را تحت تأثیر قرار می‌دهند» انجام شد. نایکویست وجود نرخ ماکزیمم ارسال اطلاعات را متوجه شده و فرمولی جهت محاسبه این نرخ ماکزیمم ارائه کرد. کار مهم دیگر در این زمان مقاله «انتقال اطلاعات» در سال ۱۹۲۸ میلادی توسط هارتلی بود که اولین پایه‌های ریاضی نظریه اطلاعات را بنا گذاشت.

تولد واقعی نظریه اطلاعات را به مقاله «نظریه ریاضی مخابرات» توسط کلاود شانون نسبت داد. یکی از نکات اصلی مقاله شانون توجه به این نکته بود که بررسی سیگنال‌های مخابراتی را باید از بررسی معانی ای که آن سیگنال‌ها حمل می‌کنند جدا کرد، در حالی که پیش از او اطلاعات موجود در یک سیگنال الکتریکی از پیغامی که آن سیگنال منتقل می‌کند جدا در نظر گرفته نمی‌شد. شانون همچنین به این نکته توجه کرد که طول یک سیگنال همیشه متناسب با میزان اطلاعات آن نیست. مثلاً نقل شده‌است که در نامه‌ای که ویکتور هوگو به ناشرش نوشت، فقط نماد «؟» را نوشته بود. در پاسخ نامه‌ای دریافت کرد که فقط حاوی نماد «!» بود. این دو نماد برای هر دو طرف حاوی اطلاعات زیادی می‌باشد، هرچند از دید ناظری که معانی آنها را نداند، بی معنی هستند. مثال دیگر این جمله‌ای طولانی است که به زبان فارسی نوشته شده باشد، ولی برای یک انگلیسی زبانی که فارسی نمی‌داند مفهومی ندارد. بدین سان شانون پیشنهاد نمود که مسئله ارسال سیگنال‌ها را از ارسال معانی موجود در آنها جدا کرده، و برای موضوع اول نظریه ریاضی ای تولید نمود.

شانون در آن زمان در آزمایشگاه بل* مشغول به کار بود و سعی در تعبیه خطوط تلفن با ضریب اعتماد بالا داشت. پیش از شانون عوامل موثر در استفاده بهینه از خطوط تلفن شناخته نشده بود و تعداد حداکثر مکالمات تلفنی که می‌توان روی خطوط تلفن موجود انجام داد نامشخص بود. شانون پس از ارائه تعریفی ریاضی از کانال مخابراتی، ظرفیتی به کانال مخابراتی نسبت داد که بیانگر میزان حداکثر اطلاعاتی است که روی کانال می‌توان مخابره کرد. فرمول ظرفیت کانال شانون نه تنها به کانال‌های بدون اغتشاش