[MIT公开课(计算机教育中缺失的一课)]2.Shell工具与脚本

   日期:2020-08-29     浏览:137    评论:0    
核心提示:MIT计算机教育中缺失的一课上一讲:Overview+Shell笔记文章目录MIT计算机教育中缺失的一课前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建

上一讲:Overview+Shell笔记
下一讲:编辑器(Vim)

目录

    • Shell 脚本
    • Shell工具
      • 查看命令如何使用
      • 查找文件
      • 查找代码
      • 查找 shell 命令
      • 文件夹导航
    • 课后练习

Shell 脚本

大多数shell都有自己的一套脚本语言,包括变量、控制流和自己的语法。shell脚本与其他脚本语言不同之处在于,shell脚本针对shell所从事的相关工作进行来优化。因此,创建命令流程(pipelines)、将结果保存到文件、从标准输入中读取输入,这些都是shell脚本中的原生操作,这让它比通用的脚本语言更易用。本节中,我们会专注于bash脚本,因为它最流行,应用更为广泛。

在bash中为变量赋值的语法是foo=bar,访问变量中存储的数值,其语法为 $foo。 需要注意的是,foo = bar (使用空格隔开)是不能正确工作的,因为解释器会调用程序foo 并将 = 和 bar作为参数。 总的来说,在shell脚本中使用空格会起到分割参数的作用,有时候可能会造成混淆,请务必多加检查。

Bash中的字符串通过’ 和 "分隔符来定义,但是它们的含义并不相同。以’定义的字符串为原义字符串,其中的变量不会被转义,而 "定义的字符串会将变量值进行替换:

lilhoe@LilHoedeMacBook-Pro Downloads % hsj=ad
lilhoe@LilHoedeMacBook-Pro Downloads % echo $hsj
ad
lilhoe@LilHoedeMacBook-Pro Downloads % echo "$hsj"
ad
lilhoe@LilHoedeMacBook-Pro Downloads % echo '$hsj'
$hsj
lilhoe@LilHoedeMacBook-Pro Downloads % 

bash 也支持函数,它可以接受参数并基于参数进行操作。下面这个函数是一个例子,它会创建一个函数并使用cd进入该文件夹。首先输入vim adh.sh进入文件编程模式,点击i进入修改模式:

mcd () {
    mkdir -p "$1"
    cd "$1"
}


这里 $1 是脚本到第一个参数。与其他脚本语言不同到是,bash使用了很多特殊到变量来表示参数、错误代码和相关变量。下面是列举来其中一些变量,更完整到列表可以参考 这里。

$0 - 脚本名
$1 到 $9 - 脚本到参数。
$1 是第一个参数,依此类推。
$@ - 所有参数
$# - 参数个数
$? -前一个命令到返回值
$$ - 当前脚本到进程识别码
!! - 完整到上一条命令,包括参数。常见应用:当你因为权限不足执行命令失败时,可以使用sudo !!再尝试一次。
$_ - 上一条命令的最后一个参数。如果你正在使用的是交互式shell,你可以通过按下 Esc 之后键入 .来获取这个值。

最后键入:q!退出,若文件有修改键入:wq保存退出。

通过source adh.sh指令执行adh.sh文件,看似没有事情发生,但是adh文件已经被执行。输入mcd test会从工具目录转到测试目录。

命令通常使用 STDOUT来返回输出值,使用STDERR 来返回错误及错误码,便于脚本以更加友好到方式报告错误。 返回码或退出状态是脚本/命令之间交流执行状态到方式。返回值0表示正常执行,其他所有非0的返回值都表示有错误发生。

退出码可以搭配&& (与操作符) 和 || (或操作符)使用,用来进行条件判断,决定是否执行其他程序。同一行的多个命令可以用 ; 分隔。程序 true 的返回码永远是0,false 的返回码永远是1。

另一个常见的模式是以变量的形式获取一个命令的输出,这可以通过 命令替换 (command substitution)实现。

当您通过 $( CMD ) 这样的方式来执行CMD 这个命令时,然后它的输出结果会替换掉 $( CMD ) 。例如,如果执行 for file in $(ls) ,shell首先将调用ls ,然后遍历得到的这些返回值。

还有一个冷门的类似特性是 进程替换(process substitution), <( CMD ) 会执行 CMD 并将结果输出到一个临时文件中,并将 <( CMD ) 替换成临时文件名。这在我们希望返回值通过文件而不是STDIN传递时很有用。例如, diff <(ls foo) <(ls bar) 会显示文件夹 foo 和 bar 中文件的区别。

下面这个例子展示了一部分上面提到的特性。这段脚本会遍历我们提供的参数,使用grep 搜索字符串 foobar,如果没有找到,则将其作为注释追加到文件中。将如下文件保存到example.sh中:

#!/bin/bash

echo "Starting program at $(date)" # date会被替换成日期和时间

echo "Running program $0 with $# arguments with pid $$"

for file in $@; do
    grep foobar $file > /dev/null 2> /dev/null
    # 如果模式没有找到,则grep退出状态为 1
    # 我们将标准输出流和标准错误流重定向到Null,因为我们并不关心这些信息
    if [[ $? -ne 0 ]]; then
    # -ne for "not equal", for more details see "man test"
        echo "File $file does not have any foobar, adding one"
        echo "# foobar" >> "$file"
    fi
done

在bash中进行比较时,尽量使用双方括号 [[ ]] 而不是单方括号 [ ],这样会降低犯错的几率,尽管这样并不能兼容 sh。 更详细的说明参见这里。

当执行脚本时,我们经常需要提供形式类似的参数。bash使我们可以轻松的实现这一操作,它可以基于文件扩展名展开表达式。这一技术被称为shell的 通配( globbing)

通配符 - 当你想要利用通配符进行匹配时,你可以分别使用 ? 和 * 来匹配一个或任意个字符。例如,对于文件foo, foo1, foo2, foo10 和 bar, rm foo?这条命令会删除foo1 和 foo2 ,而rm foo* 则会删除除了bar之外的所有文件。
花括号{} - 当你有一系列的指令,其中包含一段公共子串时,可以用花括号来自动展开这些命令。这在批量移动或转换文件时非常方便。

convert image.{png,jpg}
# 会展开为
convert image.png image.jpg

cp /path/to/project/{foo,bar,baz}.sh /newpath
# 会展开为
cp /path/to/project/foo.sh /path/to/project/bar.sh /path/to/project/baz.sh /newpath

# 也可以结合通配使用
mv *{.py,.sh} folder
# 会移动所有 *.py 和 *.sh 文件

mkdir foo bar

# 下面命令会创建foo/a, foo/b, ... foo/h, bar/a, bar/b, ... bar/h这些文件(即笛卡尔积运算)

touch {foo,bar}/{a..h}
touch foo/x bar/y
# 显示foo和bar文件的不同 
diff <(ls foo) <(ls bar)
# 输出
# < x
# ---
# > y

(Mac系统中运行convert指令会报错,原因是Mac的convert封装在textutil中,textutil 是一个系统自带的,用于处理文稿的命令)

编写 bash 脚本有时候会很别扭和反直觉。例如 shellcheck这样的工具可以帮助你定位sh/bash脚本中的错误。

在Mac系统上,如果安装了Homebrew,可以直接在终端输入brew install shellcheck即可成功安装。下举例检测example.sh文件:

lilhoe@LilHoedeMacBook-Pro Downloads % shellcheck example.sh  

In example.sh line 6:
    grep foobar $file > /dev/null 2> /dev/null>
    ^-- SC1009: The mentioned syntax error was in this simple command.
                                              ^-- SC1073: Couldn't parse this redirection. Fix to allow more checks. ^-- SC1072: Fix any mentioned problems and try again. For more information: https://www.shellcheck.net/wiki/SC1072 -- Fix any mentioned problems and t... https://www.shellcheck.net/wiki/SC1073 -- Couldn't parse this redirection. ...
  https://www.shellcheck.net/wiki/SC1009 -- The mentioned syntax error was in...
lilhoe@LilHoedeMacBook-Pro Downloads % 

注意,脚本并不一定只有用bash写才能在终端里调用。比如说,这是一段Python脚本,作用是将输入的参数倒序输出:

vim test.py
#!/usr/local/bin/python
import sys
for arg in reversed(sys.argv[1:]):
    print(arg)

通过python的方式执行文件:

python test.py a b c
c
b
a

通过shell的方式执行文件:

在这里插入代码片

shell知道去用python解释器而不是shell命令来运行这段脚本,是因为脚本的开头第一行的shebang。

在shebang行中使用 env 命令是一种好的实践,它会利用环境变量中的程序来解析该脚本,这样就提高来您的脚本的可移植性。env 会利用我们第一节讲座中介绍过的PATH 环境变量来进行定位。 例如,使用了env的shebang看上去时这样的#!/usr/bin/env python

  • shell函数和脚本有如下一些不同点:
  1. 函数只能用与shell使用相同的语言,脚本可以使用任意语言。因此在脚本中包含 shebang 是很重要的。

  2. 函数仅在定义时被加载,脚本会在每次被执行时加载。这让函数的加载比脚本略快一些,但每次修改函数定义,都要重新加载一次。

  3. 函数会在当前的shell环境中执行,脚本会在单独的进程中执行。因此,函数可以对环境变量进行更改,比如改变当前工作目录,脚本则不行。脚本需要使用 export 将环境变量导出,并将值传递给环境变量。

  4. 与其他程序语言一样,函数可以提高代码模块性、代码复用性并创建清晰性的结构。shell脚本中往往也会包含它们自己的函数定义。

Shell工具

查看命令如何使用

最常用的方法是为对应的命令行添加-h 或 --help 标记。另外一个更详细的方法则是使用man 命令。

在交互式的、基于字符处理的终端窗口中,一般也可以通过 :help 命令或键入 ?来获取帮助。

有时候手册内容太过详实,让我们难以在其中查找哪些最常用的标记和语法。 TLDR pages 是一个很不错的替代品,它提供了一些案例,可以帮助您快速找到正确的选项。

(博主的Macbook上安装了tldr但是键入该命令没有反应,还希望有用的朋友看到了在评论区指点一下!)

查找文件

所有的类UNIX系统都包含一个名为 find的工具,它是shell上用于查找文件的绝佳工具。find命令会递归地搜索符合条件的文件,例如:

# 查找所有名称为src的文件夹("."表示当前文件夹 -name 表示名字 -type 表示类型 d为文件夹
find . -name src -type d
# 查找所有文件夹路径中包含test的python文件
find . -path '**/test*.py' -type f
# 查找前一天修改的所有文件(-mtime表示修改时间)
find . -mtime -1
# 查找所有大小在500k至10M的tar.gz文件
find . -size +500k -size -10M -name '*.tar.gz'

除了列出所寻找的文件之外,find还能对所有查找到的文件进行操作。这能极大地简化一些单调的任务。

# Delete all files with .tmp extension
find . -name '*.tmp' -exec rm {} \;
# Find all PNG files and convert them to JPG
find . -name '*.png' -exec convert {} {.}.jpg \;

尽管 find 用途广泛,它的语法却比较难以记忆。例如,为了查找满足模式 PATTERN 的文件,您需要执行 find -name ‘PATTERN’ (如果您希望模式匹配时是不区分大小写,可以使用-iname选项)。

您当然可以使用alias设置别名来简化上述操作,但shell的哲学之一便是寻找(更好用的)替代方案。 记住,shell最好的特性就是您只是在调用程序,因此您只要找到合适的替代程序即可(甚至自己编写)。

例如, fd 就是一个更简单、更快速、更友好的程序,它可以用来作为find的替代品。它有很多不错的默认设置,例如输出着色、默认支持正则匹配、支持unicode并且我认为它的语法更符合直觉。以模式PATTERN 搜索的语法是 fd PATTERN。

大多数人都认为 find 和 fd 已经很好用了,但是有的人可能向知道,我们是不可以可以有更高效的方法,例如不要每次都搜索文件而是通过编译索引或建立数据库的方式来实现更加快速地搜索。

这就要靠 locate 了。 locate 使用一个由 updatedb负责更新的数据库,在大多数系统中 updatedb 都会通过 cron每日更新。这便需要我们在速度和时效性之间作出权衡。而且,find 和类似的工具可以通过别的属性比如文件大小、修改时间或是权限来查找文件,locate则只能通过文件名。 here有一个更详细的对比。

查找代码

查找文件是很有用的技能,但是很多时候您的目标其实是查看文件的内容。一个最常见的场景是您希望查找具有某种模式的全部文件,并找它们的位置。

为了实现这一点,很多类UNIX的系统都提供了grep命令,它是用于对输入文本进行匹配的通用工具。grep 有很多选项,这也使它成为一个非常全能的工具。其中我经常使用的有 -C :获取查找结果的上下文(Context);-v 将对结果进行反选(Invert),也就是输出不匹配的结果。举例来说, grep -C 5 会输出匹配结果前后五行。当需要搜索大量文件的时候,使用 -R 会递归地进入子目录并搜索所有的文本文件。

但是,我们有很多办法可以对 grep -R 进行改进,例如使其忽略.git 文件夹,使用多CPU等等。因此也出现了很多它的替代品,包括 ack, ag 和 rg。我比较常用的是 ripgrep (rg) ,因为它速度快,而且用法非常符合直觉。例子如下:

# 查找所有使用了 requests 库的文件
rg -t py 'import requests'
# 查找所有没有写 shebang 的文件(包含隐藏文件)
rg -u --files-without-match "^#!"
# 查找所有的foo字符串,并打印其之后的5行
rg foo -A 5
# 打印匹配的统计信息(匹配的行和文件的数量)
rg --stats PATTERN

查找 shell 命令

首先,按向上的方向键会显示你使用过的上一条命令,继续按上键则会遍历整个历史记录。

history 命令允许您以程序员的方式来访问shell中输入的历史命令。这个命令会在标准输出中打印shell中的里面命令。如果我们要搜索历史记录,则可以利用管道将输出结果传递给 grep 进行模式搜索。 history | grep find 会打印包含find子串的命令:

lilhoe@LilHoedeMacBook-Pro ~ % history|grep man
  851  man locales
  852  man locale
  855  man
  856  man rg
  858  man rrg
  859  man rg
  862  man ag

对于大多数的shell来说,您可以使用 Ctrl+R 对命令历史记录进行回溯搜索。敲 Ctrl+R 后您可以输入子串来进行匹配,查找历史命令行。反复按下就会在所有搜索结果中循环。在 zsh中,使用方向键上或下也可以完成这项工作。

Ctrl+R 可以配合 fzf 使用。fzf 是一个通用对模糊查找工具,它可以和很多命令一起使用。这里我们可以对历史命令进行模糊查找并将结果以赏心悦目的格式输出。

另外一个和历史命令相关的技巧我喜欢称之为基于历史的自动补全。 这一特性最初是由 fish shell 创建的,它可以根据您最近使用过的开头相同的命令,动态地对当前对shell命令进行补全。这一功能在 zsh 中也可以使用,它可以极大对提高用户体验。

最后,有一点值得注意,输入命令时,如果您在命令的开头加上一个空格,它就不会被加进shell记录中。当你输入包含密码或是其他敏感信息的命令时会用到这一特性。如果你不小心忘了在前面加空格,可以通过编辑。bash_history或 .zhistory 来手动地从历史记录中移除那一项。

文件夹导航

如何才能高效地在目录 间随意切换呢?有很多简便的方法可以做到,比如设置alias,使用 ln -s创建符号连接等。

用fasd可以查找最常用和/或最近使用的文件和目录。Fasd 基于 frecency对文件和文件排序,也就是说它会同时针对频率(frequency )和时效( recency)进行排序。

最直接对用法是自动跳转 (autojump),对于经常访问的目录,在目录名子串前加入一个命令 z 就可以快速切换命令到该目录。例如, 如果您经常访问/home/user/files/cool_project 目录,那么可以直接使用 z cool 跳转到该目录。

还有一些更复杂的工具可以用来概览目录结构,例如 tree, broot 或更加完整对文件管理器,例如 nnn 或 ranger。

  • tree使用举例:
# 递归列出当前文件夹的所有内容
ls -r

输出:

可见这种列表的形式非常不清晰,没有显示层次结构。再输入tree命令,输出结果将变成树状图:

  • broot使用举例:

当我继续键入内容,该树状图会根据键入的内容匹配出符合的节点动态修改,如我输入rr:

课后练习

  1. 阅读 man ls ,然后使用ls 命令进行如下操作:

所有文件(包括隐藏文件)
文件打印以人类可以理解的格式输出 (例如,使用454M 而不是 454279954)
文件以最近访问顺序排序
以彩色文本显示输出结果

典型输出如下:

 -rw-r--r--   1 user group 1.1M Jan 14 09:53 baz
 drwxr-xr-x   5 user group  160 Jan 14 09:53 .
 -rw-r--r--   1 user group  514 Jan 14 06:42 bar
 -rw-r--r--   1 user group 106M Jan 13 12:12 foo
 drwx------+ 47 user group 1.5K Jan 12 18:08 ..
  1. 编写两个bash函数 marco 和 polo 执行下面的操作。 每当你执行 marco 时,当前的工作目录应当以某种形式保存,当执行 polo 时,无论现在处在什么目录下,都应当 cd 回到当时执行 marco 的目录。 为了方便debug,你可以把代码写在单独的文件 marco.sh 中,并通过 source marco.sh命令,(重新)加载函数。

  2. 假设您有一个命令,它很少出错。因此为了在出错时能够对其进行调试,需要花费大量的时间重现错误并捕获输出。 编写一段bash脚本,运行如下的脚本直到它出错,将它的标准输出和标准错误流记录到文件,并在最后输出所有内容。 加分项:报告脚本在失败前共运行了多少次。

 #!/usr/bin/env bash

 n=$(( RANDOM % 100 ))

 if [[ n -eq 42 ]]; then
    echo "Something went wrong"
    >&2 echo "The error was using magic numbers"
    exit 1
 fi

 echo "Everything went according to plan"
  1. 本节课我们讲解了 find 命令的 -exec 参数非常强大,它可以对我们查找对文件进行操作。但是,如果我们要对所有文件进行操作呢?例如创建一个zip压缩文件?我们已经知道,命令行可以从参数或标准输入接受输入。在用管道连接命令时,我们将标准输出和标准输入连接起来,但是有些命令,例如tar 则需要从参数接受输入。这里我们可以使用xargs 命令,它可以使用标准输入中的内容作为参数。 例如 ls | xargs rm 会删除当前目录中的所有文件。
    您的任务是编写一个命令,它可以递归地查找文件夹中所有的HTML文件,并将它们压缩成zip文件。注意,即使文件名中包含空格,您的命令也应该能够正确执行(提示:查看 xargs的参数-d)

  2. (进阶) 编写一个命令或脚本递归的查找文件夹中最近使用的文件。更通用的做法,你可以按照最近的使用时间列出文件吗?

参考:
https://missing-semester-cn.github.io/2020/shell-tools/

 
打赏
 本文转载自:网络 
所有权利归属于原作者,如文章来源标示错误或侵犯了您的权利请联系微信13520258486
更多>最近资讯中心
更多>最新资讯中心
0相关评论

推荐图文
推荐资讯中心
点击排行
最新信息
新手指南
采购商服务
供应商服务
交易安全
关注我们
手机网站:
新浪微博:
微信关注:

13520258486

周一至周五 9:00-18:00
(其他时间联系在线客服)

24小时在线客服