工控网首页
>

应用设计

>

ARM处理器Linux下浮点运算单元运用

ARM处理器Linux下浮点运算单元运用

1). 浮点运算单元(FPU)简介

Float Point Unit,浮点运算单元是专用于浮点运算的协处理器,在计算领域,例如三角函数以及时域频域变换通常会用到浮点运算。当CPU执行一个需要浮点数运算的程序时,有三种方式可以执行:软件仿真器(浮点运算函数库)、附加浮点运算器和集成浮点运算单元。区别于以往的ARM9处理器,目前基于Cortex构架的ARM处理均集成了浮点运算单元。如Nvidia Tegra 2, Tegra 3 NXP/Freescale i.MX 6集成了VFPv3浮点运算单元,NXP/Freescale i.MX 7 则集成了VFPv4浮点运算单元。ARM 浮点架构VFP为半精度、单精度和双精度浮点运算中的浮点操作提供硬件支持。它完全符合 IEEE 754 标准,并提供完全软件库支持,与 NEONTM 多媒体处理功能结合使用时,可增强图像应用程序的性能(如缩放、2D 3D 转换、字体生成和数字过滤)。

2). 浮点调用约定(Calling Convention

调用约定由应用二进制接口(Application Binary Interface, ABI)来定义参数是如何在调用过程中传递以及如何获取返回值,对于ARM CPU常用的ABIEABI,提供了两种互相不兼容的方式来传递浮点数:

调用约定

描述

GCC   flag

EABI soft-float

Floats are passed in normal (integer) registers.

-mfloat-abi=soft or -mfloat-abi=softfp

EABI hard-float

Floats are passed in floating point registers (VFP).

-mfloat-abi=hard

通常交叉编译ToolChain已经配置好所需的ABI而无需在命令行重新设置,并且ToolChain提供的库也已经自动配置为对应的数据格式。

两个二进制文件(如可执行文件和C库文件)使用不同的调用约定,相互之间是不兼容的。所有的程序和库必须遵循同一个调用约定进行编译,要么软浮点,要么硬浮点。如果你试图在一个基于硬浮点编译的平台上运行一个基于软浮点的程序时,会出现” No such file or directory ” 错误,尽管这这个文件是存在的并且可以执行。

另外,硬浮点调用约定需要使用浮点运算单元(FPU)的寄存器,因此在不带有浮点运算单元寄存器的处理器上则无法实现。

下面列出ToradexColibri Tegra ARM 计算机模块BSP 上所采用的调用约定

BSP   Version

Calling   Convention

BSP V1.x

EABI soft-float

BSP V2.x and later

EABI hard-float

3). 协处理器/硬件引擎

如本文开篇所述,目前基于Cortex架构的ARM处理器都内置了浮点运算单元(FPU)来加速浮点数据操作,通常浮点运算单元会添加额外的指令到现有的指令集中。于此相关的NEON指令集添加了单指令多数据操作(single instruction act on multiple data SIMD),它实现的是NEON 媒体处理器引擎,提供了基于VFPv3指令集的浮点运算单元功能。

更多介绍请参考:

- en.wikipedia.org/wiki/ARM_architecture

- wiki.debian.org/ArmHardFloatPort/VfpComparison

./ Toradex Colibri产品系列所提供的协处理器/硬件引擎

Module/CPU   family

VFP   Unit

NEON   unit

Colibri PXA(1)

-

-

Colibri/Apalis iMX6

VFPv3

Yes

Colibri T20

VFPv3-D16

-

Colibri/Apalis T30

VFPv3

Yes

Colibri VFxx

VFPv3

Yes

(1)    注:PXA 系列核心板没有硬件浮点运算单元,但是GCC编译器提供了经过优化的基于IntelInteger SIMD extension(iWMMXt)的软浮点运算仿真功能。

4). 编译器选项

相关介绍请见如下,下面同样以Toradex产品为例:

gcc.gnu.org/onlinedocs/gcc-4.7.3/gcc/ARM-Options.html#ARM-Options

./ Toradex Colibri Tegra 系列BSP 编译器选项

BSP   Version

GCC flag

BSP V1.x

-march=armv7-a -mfloat-abi=softfp -mfpu=vfpv3-d16

BSP V2.x and later

-march=armv7-a -mfloat-abi=hard -mfpu=vfpv3-d16

./ Toradex Colibri PXA编译器选项

使用软浮点调用约定编译器,同时编译器选项不能包含FPU相关,产生的代码中不包含由FPU来执行的指令,而是依赖于CPU整数指令集基于相关库进行运算。

----------------------------------------------------------------------------------------

-march=armv5te -mtune=xscale -O3

----------------------------------------------------------------------------------------

./ Toradex Colibri T20编译器选项

产生的代码兼容于含NEON协处理器的CPU 。取决于在mfloat-abi 选项所配置的调用约定为”softfp” 还是”hard”

----------------------------------------------------------------------------------------

-march=armv7-a -mfloat-abi=xxx -mfpu=vfpv3-d16 -mtune=cortex-a9 -O3

----------------------------------------------------------------------------------------

./ Toradex Colibri/Apalis i.MX6/T30编译器选项

取决于在mfloat-abi选项所配置的调用约定为”softfp” 还是”hard”

----------------------------------------------------------------------------------------

-march=armv7-a -mfloat-abi=xxx -mfpu=neon -mtune=cortex-a9 -O3

----------------------------------------------------------------------------------------

./ Toradex Colibri VFxx编译器选项

取决于在mfloat-abi选项所配置的调用约定为”softfp” 还是”hard”,未来可以通过更多的mfpu 选项来优化NEON的实现。

----------------------------------------------------------------------------------------

-march=armv7-a -mfloat-abi=xxx -mfpu=neon -mtune=cortex-a5 -O3

----------------------------------------------------------------------------------------

5). 检测一个二进制文件的浮点调用约定

同样以Toradex产品为例,其所发布的Linux Images 所有的object 目标文件都使用ELF,详细介绍请参考:

en.wikipedia.org/wiki/Executable_and_Linkable_Format

首先架构信息(如i686 或者ARM)可以通过” file ‘afile’“程序来获取,架构相关属性信息可以通过” readelf –A ‘afile’ “程序来获取(原生或者交叉编译ToolChain都可以使用readelf

如果readelf命令输出信息里面包含"Tag_ABI_VFP_args: VFP registers",则调用约定为硬浮点;如没有,则为软浮点。

./ Colibri T20 编译的共享目标文件为例

•使用 VFPv3-D16指令和寄存器

•不使用 SIMDextensions

•硬调用约定

---------------------------------------------------------------------------------------------------------------------------------------------------

$ file colibri-t20/usr/lib/libcurl.so.5.3.0

colibri-t20/usr/lib/libcurl.so.5.3.0: ELF 32-bit LSB shared object,ARM, version 1 (SYSV), dynamically linked, not stripped

$ readelf -A colibri-t20/usr/lib/libcurl.so.5.3.0

Attribute Section: aeabi

File Attributes

 Tag_CPU_name:"7-A"

 Tag_CPU_arch: v7

 Tag_CPU_arch_profile:Application

 Tag_ARM_ISA_use: Yes

 Tag_THUMB_ISA_use: Thumb-2

 Tag_FP_arch: VFPv3-D16

 Tag_ABI_PCS_wchar_t: 4

 Tag_ABI_FP_denormal: Needed

 Tag_ABI_FP_exceptions:Needed

 Tag_ABI_FP_number_model:IEEE 754

 Tag_ABI_align_needed: 8-byte

 Tag_ABI_align_preserved:8-byte, except leaf SP

 Tag_ABI_enum_size: int

 Tag_ABI_HardFP_use: SP andDP

 Tag_ABI_VFP_args: VFPregisters

 Tag_CPU_unaligned_access: v6

---------------------------------------------------------------------------------------------------------------------------------------------------

./ NXP/FreescaleVybrid 编译的共享目标文件为例

•使用 VFPv3 指令和寄存器

•使用用 NEONSIMD extensions

•软调用约定

---------------------------------------------------------------------------------------------------------------------------------------------------

$ file twr-vf65gs10/usr/lib/libcurl.so.5.3.0

twr-vf65gs10/usr/lib/libcurl.so.5.3.0: ELF 32-bit LSB shared object,ARM, version 1 (SYSV), dynamically linked, not stripped

$ readelf -A twr-vf65gs10/usr/lib/libcurl.so.5.3.0

Attribute Section: aeabi

File Attributes

 Tag_CPU_name:"7-A"

 Tag_CPU_arch: v7

 Tag_CPU_arch_profile:Application

 Tag_ARM_ISA_use: Yes

 Tag_THUMB_ISA_use: Thumb-2

 Tag_FP_arch: VFPv3

 Tag_Advanced_SIMD_arch:NEONv1

 Tag_ABI_PCS_wchar_t: 4

 Tag_ABI_FP_denormal: Needed

 Tag_ABI_FP_exceptions:Needed

 Tag_ABI_FP_number_model:IEEE 754

 Tag_ABI_align_needed: 8-byte

 Tag_ABI_align_preserved:8-byte, except leaf SP

 Tag_ABI_enum_size: int

 Tag_ABI_HardFP_use: SP andDP

 Tag_CPU_unaligned_access: v6

---------------------------------------------------------------------------------------------------------------------------------------------------

./ Colibri PXA 编译的共享目标文件为例

•不使用浮点运算单元

•不使用SIMDextensions

•软调用约定

---------------------------------------------------------------------------------------------------------------------------------------------------

$ file colibri-pxa/usr/lib/libcurl.so.5.3.0

colibri-pxa/usr/lib/libcurl.so.5.3.0: ELF 32-bit LSB shared object,ARM, version 1 (SYSV), dynamically linked, not stripped

$ readelf -A colibri-pxa/usr/lib/libcurl.so.5.3.0

Attribute Section: aeabi

File Attributes

 Tag_CPU_name:"5TE"

 Tag_CPU_arch: v5TE

 Tag_ARM_ISA_use: Yes

 Tag_THUMB_ISA_use: Thumb-1

 Tag_ABI_PCS_wchar_t: 4

 Tag_ABI_FP_denormal: Needed

 Tag_ABI_FP_exceptions:Needed

 Tag_ABI_FP_number_model:IEEE 754

 Tag_ABI_align8_neededU: Yes

 Tag_ABI_align8_preserved:Yes, except leaf SP

 Tag_ABI_enum_size: int

审核编辑(
王静
)
投诉建议

提交

查看更多评论
其他资讯

查看更多

在 Linux 系统上 Docker 容器的性能影响

上游优先 - Toradex 采用主线内核支持

NXP iMX8M Plus M7核心FreeRTOS开发

嵌入式Linux上使用Ramoops

使用容器编译Yocto镜像