IR剖析

llvm-ir-tutorial/LLVM IR入门指南(2)——Hello world.md at master · Evian-Zhang/llvm-ir-tutorial · GitHub

LLVM IR最基本的程序

一个macOS 10.15编译的IR

; main.ll
target datalayout = "e-m:o-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-apple-macosx10.15.0"

define i32 @main() {
	ret i32 0
}

这个程序可以看作最简单的C语言代码:

int main() {
	return 0;
}

在macOS 10.15上编译而成的结果。

IR 解读

注释

首先,第一行; main.ll。这是一个注释。在LLVM IR中,注释以;开头,并一直延伸到行尾。

目标数据分布和平台

第二行和第三行的target datalayouttarget triple,则是注明了目标汇编代码的数据分布和平台。我们之前提到过,LLVM是一个面向多平台的深度定制化编译器后端,而我们LLVM IR的目的,则是让LLVM后端根据IR代码生成相应平台的汇编代码。所以,我们需要在IR代码中指明我们需要生成哪一个平台的代码,也就是target triple字段。类似地,我们还需要定制数据的大小端序、对齐形式等需求,所以我们也需要指明target datalayout字段。关于这两个字段的值的详细情况,我们可以参考Data LayoutTarget Triple这两个官方文档。我们可以对照官方文档,解释我们在macOS上得到的结果:

target datalayout = "e-m:o-i64:64-f80:128-n8:16:32:64-S128"

表示:

target triple = "x86_64-apple-macosx10.15.0"

表示:

在一般情况下,我们都是想生成当前平台的代码,也就是说不太会改动这两个值。因此,我们可以直接写一个简单的test.c程序,然后使用

clang -S -emit-llvm test.c

生成LLVM IR代码test.ll,在test.ll中找到target datalayouttarget triple这两个字段,然后拷贝到我们的代码中即可。

比方说,我在x86_64指令集的Ubuntu 20.04的机器上得到的就是:

target datalayout = "e-m:e-p270:32:32-p271:32:32-p272:64:64-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-pc-linux-gnu"

和我们在macOS上生成的代码就不太一样。

主程序

主程序是可执行程序的入口点,所以任何可执行程序都需要main函数才能运行。所以,

define i32 @main() {
	ret i32 0
}

就是这段代码的主程序。关于正式的函数、指令的定义,我会在之后的文章中提及。这里我们只需要知道,在@main()之后的,就是这个函数的函数体,ret i32 0就代表C语言中的return 0;。因此,如果我们要增加代码,就只需要在大括号内,ret i32 0前增加代码即可。