Elk computerbestand bestaat uit bytes. Een byte kan waarden aannemen van 0 tot 255. Informatie-entropie is een statistische parameter die de kans weergeeft dat bepaalde bytes in een bestand voorkomen.
U kunt de mate van entropie visueel beoordelen met behulp van een histogram - de verdeling van de kans op herhaling van dezelfde bytes in een bestand. Uit de entropie van het bestand kunnen we raden welk type bestand zich voor ons bevindt, waarbij we alleen het histogram zien.
Laten we ter demonstratie drie bestanden van verschillende typen nemen en hun histogrammen vergelijken. Laat de eerste een tekstbestand zijn (*. TXT). Het histogram wordt weergegeven in de afbeelding:
Het tekstbestand bevat alleen tekst. Elk teken van de tekst wordt gecodeerd met bepaalde bytes in overeenstemming met de coderingstabel. Hoewel er een groot aantal coderingstypes is, is het duidelijk dat er een beperkt aantal alfanumerieke tekens is, meestal minder dan 255. Daarom zijn slechts enkele gebieden bezet op het eerste histogram en sommige bytes helemaal niet.
Het volgende bestand is in pdf-formaat:
Dit bestand bevat alle mogelijke bytes, aangezien PDF anders is gecodeerd dan tekstbestanden. Het slaat veel service-informatie op: opmaak, lettertypen, afbeeldingen, enz. Maar het histogram laat zien dat sommige bytes met ongeveer dezelfde waarschijnlijkheid voorkomen, terwijl andere - veel vaker dan andere. Vandaar de meerdere scherpe uitbarstingen op het histogram, en over het algemeen ziet het er nogal "rafelig" uit, hoewel het de gehele beschikbare breedte in beslag neemt.
En het laatste bestand is gezipt in 7Z-formaat:
Dit histogram heeft twee hoofdkenmerken: ten eerste worden alle bytes met min of meer gelijke waarschijnlijkheid in het gezipte bestand gevonden (een redelijk vlakke bovenrand), en ten tweede is er praktisch geen vrije ruimte boven het histogram, wat wijst op een bijna volledige afwezigheid van redundantie van een dergelijk bestand. Daarom kunnen we concluderen dat het algoritme van de archiver op een speciale manier de bytes van het bestand "mixt" om hun maximale uniforme distributie te bereiken.
Zo is entropie in de informatica, net als in de natuurkunde, een maat voor de wanorde in het systeem, in dit geval de wanorde in de verdeling van bytes in het bestand. Entropy stelt u in staat om de mate van compressie van het bestand te beoordelen en - indirect - over het type.