博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
node.js整理 03文件操作-遍历目录和文本编码
阅读量:4461 次
发布时间:2019-06-08

本文共 3681 字,大约阅读时间需要 12 分钟。

遍历目录

递归算法

  • 遍历目录时一般使用递归算法,否则就难以编写出简洁的代码。

  • 递归算法与数学归纳法类似,通过不断缩小问题的规模来解决问题

function factorial(n) {    if (n === 1) {        return 1;    } else {        return n * factorial(n - 1);    }}// 使用递归算法编写的代码虽然简洁,但由于每递归一次就产生一次函数调用,在需要优先考虑性能时,需要把递归算法转换为循环算法,以减少函数调用次数。

遍历算法

  • 目录是一个树状结构,在遍历时一般使用深度优先+先序遍历算法。
  • 深度优先,意味着到达一个节点后,首先接着遍历子节点而不是邻居节点。
  • 先序遍历,意味着首次到达了某节点就算遍历完成,而不是最后一次返回某节点才算数。
  • 因此使用这种遍历方式时,下边这棵树的遍历顺序是A > B > D > E > C > F。
A         / \        B   C       / \   \      D   E   F

同步遍历

function travel (dir, cb) {  fs.readdirSync(dir).forEach(function (file) {    var pathname = path.join(dir, file);    if (fs.statSync(pathname).isDirectory()) {      travel (pathname, callbakc);    }  else {      callback(pathname);    }  });}
  • 该函数以某个目录作为遍历的起点。遇到一个子目录时,就先接着遍历子目录。遇到一个文件时,就把文件的绝对路径传给回调函数。回调函数拿到文件路径后,就可以做各种判断和处理。因此假设有以下目录:
- /home/user/    - foo/        x.js    - bar/        y.js    z.css
  • 使用以下代码遍历该目录时,得到的输入如下。
travel('/home/user', function (pathname) {    console.log(pathname);});------------------------/home/user/foo/x.js/home/user/bar/y.js/home/user/z.css

异步遍历

  • 如果读取目录或读取文件状态时使用的是异步API,目录遍历函数实现起来会有些复杂,但原理完全相同
function travel(dir, callback, finish) {    fs.readdir(dir, function (err, files) {        (function next(i) {            if (i < files.length) {                var pathname = path.join(dir, files[i]);                fs.stat(pathname, function (err, stats) {                    if (stats.isDirectory()) {                        travel(pathname, callback, function () {                            next(i + 1);                        });                    } else {                        callback(pathname, function () {                            next(i + 1);                        });                    }                });            } else {                finish && finish();            }        }(0));    });}

文本编码

  • 常用的文本编码有UTF8和GBK两种,并且UTF8文件还可能带有BOM。在读取不同编码的文本文件时,需要将文件内容转换为JS使用的UTF8编码字符串后才能正常处理。

BOM的移除

  • BOM用于标记一个文本文件使用Unicode编码,其本身是一个Unicode字符("\uFEFF"),位于文本文件头部
  • 在不同的Unicode编码下,BOM字符对应的二进制字节如下:
Bytes      Encoding----------------------------    FE FF       UTF16BE    FF FE       UTF16LE    EF BB BF    UTF8
  • 因此,可以根据文本文件头几个字节等于啥来判断文件是否包含BOM,以及使用哪种Unicode编码。

  • BOM字符虽然起到了标记文件编码的作用,其本身却不属于文件内容的一部分,如果读取文本文件时不去掉BOM,在某些使用场景下就会有问题。

  • 例如我们把几个JS文件合并成一个文件后,如果文件中间含有BOM字符,就会导致浏览器JS语法错误。因此,使用NodeJS读取文本文件时,一般需要去掉BOM。

  • 以下代码实现了识别和去除UTF8 BOM的功能。

function readText(pathname) {    var bin = fs.readFileSync(pathname);    if (bin[0] === 0xEF && bin[1] === 0xBB && bin[2] === 0xBF) {        bin = bin.slice(3);    }    return bin.toString('utf-8');}

GBK转UTF8

  • NodeJS支持在读取文本文件时,或者在Buffer转换为字符串时指定文本编码; 但是,GBK编码不在NodeJS自身支持范围内。
  • 一般我们借助iconv-lite这个三方包来转换编码。使用NPM下载该包后,可以按下边方式编写一个读取GBK文本文件的函数。
var iconv = require('iconv-lite');function readGBKText(pathname) {    var bin = fs.readFileSync(pathname);    return iconv.decode(bin, 'gbk');}

单字节编码

  • 无法预知需要读取的文件采用哪种编码,因此也就无法指定正确的编码

  • 首先,如果一个文本文件只包含英文字符,比如Hello World,那无论用GBK编码或是UTF8编码读取这个文件都是没问题的。这是因为在这些编码下,ASCII0~128范围内字符都使用相同的单字节编码。

  • 反过来讲,即使一个文本文件中有中文等字符,如果需要处理的字符仅在ASCII0~128范围内,比如除了注释和字符串以外的JS代码,就可以统一使用单字节编码来读取文件,不用关心文件的实际编码是GBK还是UTF8。

1. GBK编码源文件内容:    var foo = '中文';2. 对应字节:    76 61 72 20 66 6F 6F 20 3D 20 27 D6 D0 CE C4 27 3B3. 使用单字节编码读取后得到的内容:    var foo = '{乱码}{乱码}{乱码}{乱码}';4. 替换内容:    var bar = '{乱码}{乱码}{乱码}{乱码}';5. 使用单字节编码保存后对应字节:    76 61 72 20 62 61 72 20 3D 20 27 D6 D0 CE C4 27 3B6. 使用GBK编码读取后得到内容:    var bar = '中文';
  • 这里的诀窍在于,不管大于0xEF的单个字节在单字节编码下被解析成什么乱码字符,使用同样的单字节编码保存这些乱码字符时,背后对应的字节保持不变。

  • NodeJS中自带了一种binary编码可以用来实现这个方法

function replace(pathname) {    var str = fs.readFileSync(pathname, 'binary');    str = str.replace('foo', 'bar');    fs.writeFileSync(pathname, str, 'binary');}

转载于:https://www.cnblogs.com/jinkspeng/p/4395575.html

你可能感兴趣的文章
Jquery:怎样让子窗体的div显示在父窗体之上
查看>>
01概率
查看>>
Shell脚本
查看>>
MatLab Load cv::Mat 导入数据
查看>>
html+css相关笔记(一)
查看>>
基于块流协议保证音频优先发送
查看>>
关于互联网的一些数据
查看>>
数据预处理:独热编码(One-Hot Encoding)
查看>>
python将对象名的字符串类型,转化为相应对象的操作方法
查看>>
【NLP新闻-2013.06.03】New Book Where Humans Meet Machines
查看>>
mongodb安装4.0(rpm)
查看>>
DispatcherServlet的url mapping为“/”时,对根路径访问的处理
查看>>
备忘pwnable.kr 之passcode
查看>>
好久没敲代码了,手有点生——一个小小的时钟
查看>>
运算符 AS和IS 的区别
查看>>
(转)详解C中volatile关键字
查看>>
easyui时的时间格式yyyy-MM-dd与yyyy-MM-ddd HH:mm:ss
查看>>
专题:动态内存分配----基础概念篇
查看>>
Codeforces Round #426 (Div. 2) (A B C)
查看>>
The Most Simple Introduction to Hypothesis Testing
查看>>