Win和Unix有关回车换行符号的问题

躺着都能中枪

工作中，各种数据在不同的操作系统中进行传输，总会有遇到关于回车换行的问题。笔者，今天从邮件中下载一些数据，放在linux服务中，过滤重复的数据记录数。

场景说明：

邮件中下载的文件是在Win中编写，文件定义为FWin。Linux服务器上有一份全量数据,定义为FLinux。2个文件都只有1列。通过Linux命令进行文件内容排序(sort命令,见sort命令使用)和去重(uniq命令使用)操作,然后进行2个文件的关联操作。结果发现关联的数据远远小于预想的结果。

通过命令查看文件内容的换行符号,如下图：出现^M符号，说明Fwin的换行符号中存在\r符号

问题溯源(Win和Unix的换行)

历史小故事
在计算机还没有出现之前，有一种叫做电传打字机（Teletype Model 33）的玩意，每秒钟可以打10个字符。但是它有一个问题，就是打完一行换行的时候，要用去0.2秒，正好可以打两个字符。要是在这0.2秒里面，又有新的字符传过来，那么这个字符将丢失。
于是，研制人员想了个办法解决这个问题，就是在每行后面加两个表示结束的字符。一个叫做"回车"(Carriage Return)，告诉打字机把打印头定位在左边界；另一个叫做"换行"（Linefeed），告诉打字机把纸向下移一行。这就是"换行"和"回车"的来历，从它们的英语名字上也可以看出一二。
后来，计算机发明了，这两个概念也就被般到了计算机上。那时，存储器很贵，一些科学家认为在每行结尾加两个字符太浪费了，加一个就可以。于是，就出现了分歧。
Unix系统里，每行结尾只有"<换行>"，即"\n"；Windows系统里面，每行结尾是"<回车><换行>"，即"\r\n"；Mac系统里，每行结尾是"<回车>"。一个直接后果是，Unix/Mac系统下的文件在Windows里打开的话，所有文字会变成一行；而Windows里的文件在Unix/Mac下打开的话，在每行的结尾可能会多出一个^M符号。
因此在linux下创建的文本文件在windows中会连成一行，因为windows认为没有换行符（CRLF）。在windows下创建的文本文件在linux中可能会出现每一行后面多了一个^M，这个^M要用ctrl + v ctrl + m打出，代表的意思就是CR(Carriage Return).

Win和Unix换行简介

\r是回车符,\n是换行符，各个系统的换行标志：
win 用 \r\n
linux/unix 用 \n
Mac OS 用 \r
CR用符号’\r’表示, 十进制ASCII代码是13, 十六进制代码为OxOD    return; ＃回车(carriage return)
LF使用’\n’符号表示, ASCII代码是10, 十六制为0x0A            newline(newline)
   Windows下用的是OAOD，即CR&LF，
   linux/unix用的是OA，即LF
   MacOS用的是OD，即CR
说到这里有人也许会问，为什么我在windows下创建的文本文件，在linux中显示正常呢？
例如，我在windows下创建一个文本文件a.txt，放到我的linux中，用vim打开
可以看到显示结果正常，行的结尾并没有^M符号。这是因为vim在打开文件时，会自动检测换行符，如果文本的所有换行符都是^M(CRLF,即windows的换行标记)，那么vim会自动以dos格式显示文本内容，忽略掉每一行结尾的M(CRLF,即windows的换行标记)，那么vim会自动以dos格式显示文本内容，忽略掉每一行结尾的M，因此文本显示是正常的。
注意上面我图片的两个箭头指示的vim编辑器最下方的两个标志[noeol]和[dos]，先来解释第二个标志"[dos]"，这表示vim识别到文本的每一行都是^M$的换行符，因此vim自动以dos文本格式来显示文件。所以我们看到文本显示是正常的。
那么为什么有的时候windows下创建或编辑的文件在linux下会出现^M呢，vim不是能自动识别吗？这是因为，vim会检查文本的每一行换行符，只要有一行的换行符不是windows格式，那么vim就会以unix文件格式来显示文件，这时换行符为$, 因此我们会看到文本的行后面多了一个^M符号。
这里我用cat -A显示文件的特殊符号：
文件一共四行，可以看换行符都是^M$（箭头所指），因此vim会用[dos]文件格式来显示这个文本。
这里还可以发现文件的最后一行没有换行符，这就是第一张图vim中的[noeol]标志的由来 ，因为在windows下处理的文本，最后一行是不会加上换行符的，而linux下创建的文本的规则是每一行都有换行符，包括最后一行。因此vim会提示no end-of-line, 告诉我们这个文件包含没有换行符结束的行。
用wc -l统计这个文件的行数：
结果是3行，少了一行，原因是文件的最后一行没有换行符。
我在linux下用vim编辑一个新文件，内容和刚刚的a.txt一样，用cat -A查看：
可以看到linux下创建的文本，每一行都是有换行符的，包括最后一行，用wc -l统计行数：
这时统计结果正确。
再用sed替换windows下创建的a.txt, 将其中一行的换行符^M中的M去掉，变成linux的换行符中的M去掉，变成linux的换行符
这里我把文件的第二行的换行符替换成了linux格式的$，注意sed命令中的^M 在命令行中不是直接输入，而是 ctrl+v和ctrl+m. 再用vim打开这个文件
由于第二行的换行符不是^M$格式，vim不会以dos文件格式来显示文件按，可以发现vim下方没有[dos]的提示了，表明vim以unix文件格式来显示这个文件，因此一些行的后面会多了一个^M标志。
sed对windows换行符的处理
通过上面可以知道vim对于一个全部使用windows格式换行符的文本文件会以[dos]模式来显示这个文本，自动忽略行尾的^M.在使用sed命令处理一些文件时，会出现一个本来显示正常的文件，被sed处理之后，再打开文件时发现再次出现讨厌的^M. 那么sed是如何处理windows换行符的文本呢？
先在windows下创建一个文本文件，传至我的linux中。用cat -A 显示特殊字符：
 这里看到最后一行没有换行符，其他行的换行符为^M$, 使用sed处理这个文本文件，向第二行添加一些内容，再用cat -A查看：
这里我用.*匹配第二行的所有内容，&表示匹配到的所有内容，在&后面我加上了一些内容，用cat -A查看发现，sed在处理替换时，如果匹配到整个行，那么匹配的内容是除了换行符(Linux换行符)外的所有内容，即使这个文本的换行符是M(Linux换行符)外的所有内容，即使这个文本的换行符是M(windows 换行符).
因此第二行的文本被sed处理后，^M被我的正则表达式.*当作文本内容而匹配到了，而不会被匹配，永远在行的末尾充当换行符，这样一来M和不会被匹配，永远在行的末尾充当换行符，这样一来M和就被拆散了。因此这一行的换行符在处理后成为了linux格式的换行符$. 用vim打开的效果如下：
因为文件的换行符是linux和windows混杂的，vim以unix文件格式显示这个文件，文件的^M被显示出来，并且第二行的^M被sed匹配到，因而不在行尾。vim下方的[noeol]原因是最后一行在windows下没有换行符，因此也没有^M.
得出结论：sed会把文件中的^M当作文件内容来处理，因此如果用sed处理windows下创建的文本文件，很有可能在处理之后显示时出现讨厌的^M. 
用cat显示文本时windows与linux换行符的处理
还是上面的文件，在使用sed命令替换之后用cat -A查看文件内容：
不显示特殊字符，使用cat查看文件，发现显示如下：
发现第二行的内容和预想的不一样，我明明是在文件末尾加上的" hello"这个字符串，为什么跑到文件开头了呢，而且还覆盖了原来的字符。
第二行原来的内容是这样的(红色为特殊字符)：
前面说过，^M这个特殊字符（注意这是一个特殊字符而不是两个）所代表意义是回车(Carrige Return). cat在显示第二行内容的时候从第二行的开头开始读取字符并输出到屏幕上，当读取到^M这个特殊字符时，将这个特殊字符的意义理解为最原始回车，打字机时代，回车表示机头回到一行的开头（注意只是回到当前行开头，换行的意义才是移动到下一行），因此cat会回到行的开头开始输出字符到屏幕，后面的字符被显示到了这一行开头，这样就会把原本这一行开头的字符覆了。当打印到这一行的末尾时，读取到了$linux换行符，然后换下一行行头开始读取和输出字符。这样就造成了第二行显示时的奇怪现象。
结论：cat在普通输出内容的模式下，会将^M字符理解为回车，即回到当前行的开头，$字符理解为回车加换行，即到下一行行头开始输出内容。这样如果一个文本的行当中包含一个^M字符时，cat在显示这个文件时会出现意想不到的情况。
例如，我手动创建一个一行的文本，在文本中加入一个回车符^M：
然后用cat显示这个文件：
可以发现cat在读取到^M之后回到行的开头开始输出，因此^M后面的字符被输出到了行的开头，覆盖了原来的内容。

windows下创建的文件换行符为^M$，但最后一行结尾没有换行符
linux下创建的文件，每一行都会以换行符$结束，包括最后一行
vim打开文件时，如果文件的所有换行符都是dos格式的^M$，那么vim会自动以dos文件格式来显示文本文件，否则会以默认的unix格式显示文本，这是可能会在行的结尾出现^M的符号
wc -l是以$换行符来统计行数的，因此windows下创建的文件使用wc -l统计行数时会少一行
一个windows下创建的文件，在linux下显示正常，但是用某些文本处理命令，如sed处理后，文件的某些换行符可能会改变，造成显示不正常
sed处理文件时，会把windows换行符中的^M当作文件内容，即sed只保留$作为行末尾的换行符，因此可能会造成换行符不一致。
cat在不显示特殊字符输出文件内容时，会将^M当作回车命令处理，而$当作回车加换行。所以如果一个文件的换行符是混杂有linux和windows版本的，在vim下显示时行尾为多出一个^M， 而cat下会显示正常（因为cat会把^M当作特殊字符处理）。但如果文件中间有^M这个特殊字符时，cat的显示会出现一些问题。

文件格式互转命令
 1.unix2dos：将具有unix风格的格式文件转化为具有window下的格式文件。
 2.dos2unix：将具有windows风格的格式文件转化为unix下的格式文件。
 先生成一个换行(\n, 0x0A)和回车(\r, 0x0D)组合的文本
 $ echo -en '12\n34\r56\n\r78\r\n' > tmp
 以十六进制方式查看文本
 $ od -t x1 tmp
 0000000 31 32 0a 33 34 0d 35 36 0a 0d 37 38 0d 0a
 0000016