Skip to content

from idlelib.iomenu import encoding

1、存储基础

1.1、位(bit)

bit就是位,也叫比特位,是计算机数据存储的最小单位,简写为b。 每个二进制数字0或者1就是1个位

1.2、字节(byte)

简写为B 8个位构成一个字节;即:1 byte (字节)= 8 bit(位);

1 KB = 1024 B(字节);
1 MB = 1024 KB;
1 GB = 1024 MB;
1 TB = 1024 GB;

1.3、字符编码

规定每个“字符”分别用一个字节还是多个字节存储,用哪些字节来存储,这个规定就叫做“编码”

通俗的说:编码就是按照规则对字符进行翻译成对应的二进制数, 在计算器中运行存储,用户看的时候(比如浏览器), 再用对应的编码解析出来用户能看懂的;

  • utf-8 编码下,一个汉字字符一般占用3个字节
  • gbk 编码下,一个汉字字符一般占用2个字节

2、文件的概述

文件:存储在计算机的存储设备中的一组数据序列就是文件;

想要长期保存数据,就要使用磁盘、U盘、光盘等外部存储设备。 一张图片、一部电影、一段代码等,都可以被保存为一个文件。 任何一个文件都有一个文件名,文件名是存取文件的依据。 操作系统以“文件”为单位管理磁盘中的数据。

从用户的角度来说,常见的文件可以分为程序文件数据文件, 例如winword.exe、notepad.exe等是程序文件; 而人们自己创建的Word文档、记事本文档就是数据文件。

根据文件中数据的组织形式,可以把文件分为文本文件二进制文件。 文件中数据的组织形式其实就是由文件的创建者和解释者(即使用文件的软件)约定的格式。 所谓“格式”,就是关于文件中每一部分的内容代表什么含义的一种约定。 所有的文件本质上都是由一个一个字节组成的字节串。 如果文件中的每一个字节都约定为一个可见字符的ASCII码或其他字符集中的编码, 则可以用记事本或者其他文本编辑器正常打开、编辑,并且可以直接阅读和理解, 这样的文件就称作文本文件。 除文本文件外,其他常见的文件如图像文件、视频文件、可执行程序文件等都称为二进制文件。 二进制文件不能用文本编辑器直接进行编辑,需要使用专门的程序才能打开、显示。