pwn-栈溢出(1)

栈溢出

简介

计算机程序的运行依赖于函数调用栈。栈溢出是指在栈内写入超出长度限制的数据,从而破坏程序运行甚至获得系统控制权的攻击手段。
为了实现栈溢出,要满足两个条件。

  • 第一,程序要有向栈内写入数据的行为;
  • 第二,程序并不限制写入数据的长度。

历史上第一例被广泛注意的“莫里斯蠕虫”病毒就是利用C语言标准库的 gets() 函数并未限制输入数据长度的漏洞,从而实现了栈溢出。

背景知识-函数调用栈

函数调用栈是指程序运行时内存一段连续的区域,用来保存函数运行时的状态信息,包括函数参数与局部变量等。称之为“栈”是因为发生函数调用时,调用函数(caller)的状态被保存在栈内,被调用函数(callee)的状态被压入调用栈的栈顶;在函数调用结束时,栈顶的函数(callee)状态被弹出,栈顶恢复到调用函数(caller)的状态。

函数调用栈在内存中从高地址向低地址生长,所以栈顶对应的内存地址在压栈时变小,退栈时变大。

  1. 函数调用发生和结束时调用栈的变化
  2. 函数状态主要涉及三个寄存器--esp,ebp,eip。
    • esp 用来存储函数调用栈的栈顶地址,在压栈和退栈时发生变化。
    • ebp 用来存储当前函数状态的基地址,在函数运行时不变,可以用来索引确定函数参数或局部变量的位置。
    • eip 用来存储即将执行的程序指令的地址,cpu 依照 eip 的存储内容读取指令并执行,eip 随之指向相邻的下一条指令,如此反复,程序就得以连续执行指令。

下面是发生函数调用时,栈顶函数状态以及上述寄存器的变化。变化的核心任务是将调用函数(caller)的状态保存起来,同时创建被调用函数(callee)的状态。

(1)子过程参数入栈:首先将被调用函数(callee)的参数按照逆序依次压入栈内。如果被调用函数(callee)不需要参数,则没有这一步骤。这些参数仍会保存在调用函数(caller)的函数状态内,之后压入栈内的数据都会作为被调用函数(callee)的函数状态来保存。

(2)调用函数(父过程)的返回地址入栈:将调用函数(caller)进行调用之后的下一条指令地址作为返回地址压入栈内。这样调用函数(caller)的 eip(指令)信息得以保存。(在执行完调用函数后回到主函数,能够继续执行主函数指令的指令地址)

(3)将调用函数的基地址(ebp)入栈,并将当前栈顶地址传到ebp寄存器:将当前的ebp 寄存器的值(也就是调用函数的基地址)压入栈内,并将 ebp 寄存器的值更新为当前栈顶的地址。这样调用函数(caller)的 ebp(基地址)信息得以保存。同时,ebp 被更新为被调用函数(callee)的基地址。

(4)将被调用函数的局部变量压入栈内

在压栈的过程中,esp 寄存器的值不断减小(对应于栈从内存高地址向低地址生长)。压入栈内的数据包括调用参数、返回地址、调用函数的基地址,以及局部变量,其中调用参数以外的数据共同构成了被调用函数(callee)的状态。在发生调用时,程序还会将被调用函数(callee)的指令地址存到 eip 寄存器内,这样程序就可以依次执行被调用函数的指令了。

函数调用结束时,栈顶函数状态以及上述寄存器的变化。变化的核心任务是丢弃被调用函数(callee)的状态,并将栈顶恢复为调用函数(caller)的状态。
(1) 将被调用函数的局部变量弹出栈外:首先被调用函数的局部变量会从栈内直接弹出,栈顶会指向被调用函数(callee)的基地址。

(2)将调用函数(caller)的基地址(ebp)弹出栈外,并存到 ebp 寄存器内:将基地址内存储的调用函数(caller)的基地址从栈内弹出,并存到 ebp 寄存器内。这样调用函数(caller)的 ebp(基地址)信息得以恢复。此时栈顶会指向返回地址。

(3)将调用函数的返回地址弹出栈外,并存到 eip 寄存器内

总过程总结为下图:

技术清单

当函数正在执行内部指令的过程中无法拿到程序的控制权,只有在发生函数调用或者结束函数调用时,程序的控制权会在函数状态之间发生跳转,这时才可以通过修改函数状态来实现攻击。而控制程序执行指令最关键的寄存器就是 eip,所以目标就是让 eip 载入攻击指令的地址。

  1. 函数调用结束时,如果要让 eip 指向攻击指令,需要哪些准备?

    • 首先,在退栈过程中,返回地址会被传给 eip,所以只需要让溢出数据用攻击指令的地址来覆盖返回地址就可以了。
    • 其次,可以在溢出数据内包含一段攻击指令,也可以在内存其他位置寻找可用的攻击指令。
  2. 函数调用发生时,如果要让 eip 指向攻击指令,需要哪些准备?

    • 这时,eip 会指向原程序中某个指定的函数,没法通过改写返回地址来控制了,不过可以“偷梁换柱”--将原本指定的函数在调用时替换为其他函数。

一共包括下面的四种情况:

  • 修改返回地址,让其指向溢出数据中的一段指令(shellcode)
  • 修改返回地址,让其指向内存中已有的某个函数(return2libc)
  • 修改返回地址,让其指向内存中已有的一段指令(ROP)
  • 修改某个被调用函数的地址,让其指向另一个函数(hijack GOT)

Shellcode

(修改返回地址,让其指向溢出数据中的一段指令)

要完成的任务包括:在溢出数据内包含一段攻击指令,用攻击指令的起始地址覆盖掉返回地址。攻击指令一般都是用来打开 shell,从而可以获得当前进程的控制权,所以这类指令片段也被成为“shellcode”。shellcode 可以用汇编语言来写再转成对应的机器码,也可以上网搜索直接复制粘贴。
下面是溢出数据的组成,shellcode 所用溢出数据的构造。
payload : padding1 + address of shellcode + padding2 + shellcode

padding1 处的数据可以随意填充(注意如果利用字符串程序输入溢出数据不要包含 “\x00” ,否则向程序传入溢出数据时会造成截断),长度应该刚好覆盖函数的基地址。address of shellcode 是后面 shellcode 起始处的地址,用来覆盖返回地址。padding2 处的数据也可以随意填充,长度可以任意。shellcode 应该为十六进制的机器码格式。

  1. 返回地址之前的填充数据(padding1)应该多长?

我们可以用调试工具(例如 gdb)查看汇编代码来确定这个距离,也可以在运行程序时用不断增加输入长度的方法来试探(如果返回地址被无效地址例如“AAAA”覆盖,程序会终止并报错)。一般是缓冲区大小+ebp大小 [esp-0x100],32位机器时,ebp为4字节,所以填充数据大小为:0x100+4=300个字节

  1. shellcode起始地址应该是多少?

可以在调试工具里查看返回地址的位置(可以查看 ebp 的内容然后再加4(32位机),参见前面关于函数状态的解释),可是在调试工具里的这个地址和正常运行时并不一致,这是运行时环境变量等因素有所不同造成的。所以这种情况下只能得到大致但不确切的 shellcode 起始地址,解决办法是在 padding2 里填充若干长度的 “\x90”。这个机器码对应的指令是 NOP (No Operation),也就是告诉 CPU 什么也不做,然后跳到下一条指令。有了这一段 NOP 的填充,只要返回地址能够命中这一段中的任意位置,都可以无副作用地跳转到 shellcode 的起始处,所以这种方法被称为 NOP Sled(中文含义是“滑雪橇”)。这样就可以通过增加 NOP 填充来配合试验 shellcode 起始地址。

操作系统可以将函数调用栈的起始地址设为随机化(这种技术被称为内存布局随机化,即Address Space Layout Randomization (ASLR) ),这样程序每次运行时函数返回地址会随机变化。反之如果操作系统关闭了上述的随机化(这是技术可以生效的前提),那么程序每次运行时函数返回地址会是相同的,这样可以通过输入无效的溢出数据来生成core文件,再通过调试工具在core文件中找到返回地址的位置,从而确定 shellcode 的起始地址。

文章目录
  1. 1. 栈溢出
    1. 1.1. 简介
    2. 1.2. 背景知识-函数调用栈
    3. 1.3. 技术清单
    4. 1.4. Shellcode