arch/arm/crypto/sha512-core.S_shipped at v5.13

tjh.dev / kernel
fork
Linux kernel mirror (for testing) git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.git
kernel os linux
fork
kernel / arch / arm / crypto / sha512-core.S_shipped
at v5.13 1869 lines 43 kB view raw
wrap content
   1@ SPDX-License-Identifier: GPL-2.0
   2
   3@ This code is taken from the OpenSSL project but the author (Andy Polyakov)
   4@ has relicensed it under the GPLv2. Therefore this program is free software;
   5@ you can redistribute it and/or modify it under the terms of the GNU General
   6@ Public License version 2 as published by the Free Software Foundation.
   7@
   8@ The original headers, including the original license headers, are
   9@ included below for completeness.
  10
  11@ ====================================================================
  12@ Written by Andy Polyakov <appro@openssl.org> for the OpenSSL
  13@ project. The module is, however, dual licensed under OpenSSL and
  14@ CRYPTOGAMS licenses depending on where you obtain it. For further
  15@ details see https://www.openssl.org/~appro/cryptogams/.
  16@ ====================================================================
  17
  18@ SHA512 block procedure for ARMv4. September 2007.
  19
  20@ This code is ~4.5 (four and a half) times faster than code generated
  21@ by gcc 3.4 and it spends ~72 clock cycles per byte [on single-issue
  22@ Xscale PXA250 core].
  23@
  24@ July 2010.
  25@
  26@ Rescheduling for dual-issue pipeline resulted in 6% improvement on
  27@ Cortex A8 core and ~40 cycles per processed byte.
  28
  29@ February 2011.
  30@
  31@ Profiler-assisted and platform-specific optimization resulted in 7%
  32@ improvement on Coxtex A8 core and ~38 cycles per byte.
  33
  34@ March 2011.
  35@
  36@ Add NEON implementation. On Cortex A8 it was measured to process
  37@ one byte in 23.3 cycles or ~60% faster than integer-only code.
  38
  39@ August 2012.
  40@
  41@ Improve NEON performance by 12% on Snapdragon S4. In absolute
  42@ terms it's 22.6 cycles per byte, which is disappointing result.
  43@ Technical writers asserted that 3-way S4 pipeline can sustain
  44@ multiple NEON instructions per cycle, but dual NEON issue could
  45@ not be observed, see https://www.openssl.org/~appro/Snapdragon-S4.html
  46@ for further details. On side note Cortex-A15 processes one byte in
  47@ 16 cycles.
  48
  49@ Byte order [in]dependence. =========================================
  50@
  51@ Originally caller was expected to maintain specific *dword* order in
  52@ h[0-7], namely with most significant dword at *lower* address, which
  53@ was reflected in below two parameters as 0 and 4. Now caller is
  54@ expected to maintain native byte order for whole 64-bit values.
  55#ifndef __KERNEL__
  56# include "arm_arch.h"
  57# define VFP_ABI_PUSH	vstmdb	sp!,{d8-d15}
  58# define VFP_ABI_POP	vldmia	sp!,{d8-d15}
  59#else
  60# define __ARM_ARCH__ __LINUX_ARM_ARCH__
  61# define __ARM_MAX_ARCH__ 7
  62# define VFP_ABI_PUSH
  63# define VFP_ABI_POP
  64#endif
  65
  66#ifdef __ARMEL__
  67# define LO 0
  68# define HI 4
  69# define WORD64(hi0,lo0,hi1,lo1)	.word	lo0,hi0, lo1,hi1
  70#else
  71# define HI 0
  72# define LO 4
  73# define WORD64(hi0,lo0,hi1,lo1)	.word	hi0,lo0, hi1,lo1
  74#endif
  75
  76.text
  77#if __ARM_ARCH__<7
  78.code	32
  79#else
  80.syntax unified
  81# ifdef __thumb2__
  82.thumb
  83# else
  84.code   32
  85# endif
  86#endif
  87
  88.type	K512,%object
  89.align	5
  90K512:
  91WORD64(0x428a2f98,0xd728ae22, 0x71374491,0x23ef65cd)
  92WORD64(0xb5c0fbcf,0xec4d3b2f, 0xe9b5dba5,0x8189dbbc)
  93WORD64(0x3956c25b,0xf348b538, 0x59f111f1,0xb605d019)
  94WORD64(0x923f82a4,0xaf194f9b, 0xab1c5ed5,0xda6d8118)
  95WORD64(0xd807aa98,0xa3030242, 0x12835b01,0x45706fbe)
  96WORD64(0x243185be,0x4ee4b28c, 0x550c7dc3,0xd5ffb4e2)
  97WORD64(0x72be5d74,0xf27b896f, 0x80deb1fe,0x3b1696b1)
  98WORD64(0x9bdc06a7,0x25c71235, 0xc19bf174,0xcf692694)
  99WORD64(0xe49b69c1,0x9ef14ad2, 0xefbe4786,0x384f25e3)
 100WORD64(0x0fc19dc6,0x8b8cd5b5, 0x240ca1cc,0x77ac9c65)
 101WORD64(0x2de92c6f,0x592b0275, 0x4a7484aa,0x6ea6e483)
 102WORD64(0x5cb0a9dc,0xbd41fbd4, 0x76f988da,0x831153b5)
 103WORD64(0x983e5152,0xee66dfab, 0xa831c66d,0x2db43210)
 104WORD64(0xb00327c8,0x98fb213f, 0xbf597fc7,0xbeef0ee4)
 105WORD64(0xc6e00bf3,0x3da88fc2, 0xd5a79147,0x930aa725)
 106WORD64(0x06ca6351,0xe003826f, 0x14292967,0x0a0e6e70)
 107WORD64(0x27b70a85,0x46d22ffc, 0x2e1b2138,0x5c26c926)
 108WORD64(0x4d2c6dfc,0x5ac42aed, 0x53380d13,0x9d95b3df)
 109WORD64(0x650a7354,0x8baf63de, 0x766a0abb,0x3c77b2a8)
 110WORD64(0x81c2c92e,0x47edaee6, 0x92722c85,0x1482353b)
 111WORD64(0xa2bfe8a1,0x4cf10364, 0xa81a664b,0xbc423001)
 112WORD64(0xc24b8b70,0xd0f89791, 0xc76c51a3,0x0654be30)
 113WORD64(0xd192e819,0xd6ef5218, 0xd6990624,0x5565a910)
 114WORD64(0xf40e3585,0x5771202a, 0x106aa070,0x32bbd1b8)
 115WORD64(0x19a4c116,0xb8d2d0c8, 0x1e376c08,0x5141ab53)
 116WORD64(0x2748774c,0xdf8eeb99, 0x34b0bcb5,0xe19b48a8)
 117WORD64(0x391c0cb3,0xc5c95a63, 0x4ed8aa4a,0xe3418acb)
 118WORD64(0x5b9cca4f,0x7763e373, 0x682e6ff3,0xd6b2b8a3)
 119WORD64(0x748f82ee,0x5defb2fc, 0x78a5636f,0x43172f60)
 120WORD64(0x84c87814,0xa1f0ab72, 0x8cc70208,0x1a6439ec)
 121WORD64(0x90befffa,0x23631e28, 0xa4506ceb,0xde82bde9)
 122WORD64(0xbef9a3f7,0xb2c67915, 0xc67178f2,0xe372532b)
 123WORD64(0xca273ece,0xea26619c, 0xd186b8c7,0x21c0c207)
 124WORD64(0xeada7dd6,0xcde0eb1e, 0xf57d4f7f,0xee6ed178)
 125WORD64(0x06f067aa,0x72176fba, 0x0a637dc5,0xa2c898a6)
 126WORD64(0x113f9804,0xbef90dae, 0x1b710b35,0x131c471b)
 127WORD64(0x28db77f5,0x23047d84, 0x32caab7b,0x40c72493)
 128WORD64(0x3c9ebe0a,0x15c9bebc, 0x431d67c4,0x9c100d4c)
 129WORD64(0x4cc5d4be,0xcb3e42b6, 0x597f299c,0xfc657e2a)
 130WORD64(0x5fcb6fab,0x3ad6faec, 0x6c44198c,0x4a475817)
 131.size	K512,.-K512
 132#if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
 133.LOPENSSL_armcap:
 134.word	OPENSSL_armcap_P-sha512_block_data_order
 135.skip	32-4
 136#else
 137.skip	32
 138#endif
 139
 140.global	sha512_block_data_order
 141.type	sha512_block_data_order,%function
 142sha512_block_data_order:
 143.Lsha512_block_data_order:
 144#if __ARM_ARCH__<7
 145	sub	r3,pc,#8		@ sha512_block_data_order
 146#else
 147	adr	r3,.Lsha512_block_data_order
 148#endif
 149#if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
 150	ldr	r12,.LOPENSSL_armcap
 151	ldr	r12,[r3,r12]		@ OPENSSL_armcap_P
 152	tst	r12,#1
 153	bne	.LNEON
 154#endif
 155	add	r2,r1,r2,lsl#7	@ len to point at the end of inp
 156	stmdb	sp!,{r4-r12,lr}
 157	sub	r14,r3,#672		@ K512
 158	sub	sp,sp,#9*8
 159
 160	ldr	r7,[r0,#32+LO]
 161	ldr	r8,[r0,#32+HI]
 162	ldr	r9, [r0,#48+LO]
 163	ldr	r10, [r0,#48+HI]
 164	ldr	r11, [r0,#56+LO]
 165	ldr	r12, [r0,#56+HI]
 166.Loop:
 167	str	r9, [sp,#48+0]
 168	str	r10, [sp,#48+4]
 169	str	r11, [sp,#56+0]
 170	str	r12, [sp,#56+4]
 171	ldr	r5,[r0,#0+LO]
 172	ldr	r6,[r0,#0+HI]
 173	ldr	r3,[r0,#8+LO]
 174	ldr	r4,[r0,#8+HI]
 175	ldr	r9, [r0,#16+LO]
 176	ldr	r10, [r0,#16+HI]
 177	ldr	r11, [r0,#24+LO]
 178	ldr	r12, [r0,#24+HI]
 179	str	r3,[sp,#8+0]
 180	str	r4,[sp,#8+4]
 181	str	r9, [sp,#16+0]
 182	str	r10, [sp,#16+4]
 183	str	r11, [sp,#24+0]
 184	str	r12, [sp,#24+4]
 185	ldr	r3,[r0,#40+LO]
 186	ldr	r4,[r0,#40+HI]
 187	str	r3,[sp,#40+0]
 188	str	r4,[sp,#40+4]
 189
 190.L00_15:
 191#if __ARM_ARCH__<7
 192	ldrb	r3,[r1,#7]
 193	ldrb	r9, [r1,#6]
 194	ldrb	r10, [r1,#5]
 195	ldrb	r11, [r1,#4]
 196	ldrb	r4,[r1,#3]
 197	ldrb	r12, [r1,#2]
 198	orr	r3,r3,r9,lsl#8
 199	ldrb	r9, [r1,#1]
 200	orr	r3,r3,r10,lsl#16
 201	ldrb	r10, [r1],#8
 202	orr	r3,r3,r11,lsl#24
 203	orr	r4,r4,r12,lsl#8
 204	orr	r4,r4,r9,lsl#16
 205	orr	r4,r4,r10,lsl#24
 206#else
 207	ldr	r3,[r1,#4]
 208	ldr	r4,[r1],#8
 209#ifdef __ARMEL__
 210	rev	r3,r3
 211	rev	r4,r4
 212#endif
 213#endif
 214	@ Sigma1(x)	(ROTR((x),14) ^ ROTR((x),18)  ^ ROTR((x),41))
 215	@ LO		lo>>14^hi<<18 ^ lo>>18^hi<<14 ^ hi>>9^lo<<23
 216	@ HI		hi>>14^lo<<18 ^ hi>>18^lo<<14 ^ lo>>9^hi<<23
 217	mov	r9,r7,lsr#14
 218	str	r3,[sp,#64+0]
 219	mov	r10,r8,lsr#14
 220	str	r4,[sp,#64+4]
 221	eor	r9,r9,r8,lsl#18
 222	ldr	r11,[sp,#56+0]	@ h.lo
 223	eor	r10,r10,r7,lsl#18
 224	ldr	r12,[sp,#56+4]	@ h.hi
 225	eor	r9,r9,r7,lsr#18
 226	eor	r10,r10,r8,lsr#18
 227	eor	r9,r9,r8,lsl#14
 228	eor	r10,r10,r7,lsl#14
 229	eor	r9,r9,r8,lsr#9
 230	eor	r10,r10,r7,lsr#9
 231	eor	r9,r9,r7,lsl#23
 232	eor	r10,r10,r8,lsl#23	@ Sigma1(e)
 233	adds	r3,r3,r9
 234	ldr	r9,[sp,#40+0]	@ f.lo
 235	adc	r4,r4,r10		@ T += Sigma1(e)
 236	ldr	r10,[sp,#40+4]	@ f.hi
 237	adds	r3,r3,r11
 238	ldr	r11,[sp,#48+0]	@ g.lo
 239	adc	r4,r4,r12		@ T += h
 240	ldr	r12,[sp,#48+4]	@ g.hi
 241
 242	eor	r9,r9,r11
 243	str	r7,[sp,#32+0]
 244	eor	r10,r10,r12
 245	str	r8,[sp,#32+4]
 246	and	r9,r9,r7
 247	str	r5,[sp,#0+0]
 248	and	r10,r10,r8
 249	str	r6,[sp,#0+4]
 250	eor	r9,r9,r11
 251	ldr	r11,[r14,#LO]	@ K[i].lo
 252	eor	r10,r10,r12		@ Ch(e,f,g)
 253	ldr	r12,[r14,#HI]	@ K[i].hi
 254
 255	adds	r3,r3,r9
 256	ldr	r7,[sp,#24+0]	@ d.lo
 257	adc	r4,r4,r10		@ T += Ch(e,f,g)
 258	ldr	r8,[sp,#24+4]	@ d.hi
 259	adds	r3,r3,r11
 260	and	r9,r11,#0xff
 261	adc	r4,r4,r12		@ T += K[i]
 262	adds	r7,r7,r3
 263	ldr	r11,[sp,#8+0]	@ b.lo
 264	adc	r8,r8,r4		@ d += T
 265	teq	r9,#148
 266
 267	ldr	r12,[sp,#16+0]	@ c.lo
 268#if __ARM_ARCH__>=7
 269	it	eq			@ Thumb2 thing, sanity check in ARM
 270#endif
 271	orreq	r14,r14,#1
 272	@ Sigma0(x)	(ROTR((x),28) ^ ROTR((x),34) ^ ROTR((x),39))
 273	@ LO		lo>>28^hi<<4  ^ hi>>2^lo<<30 ^ hi>>7^lo<<25
 274	@ HI		hi>>28^lo<<4  ^ lo>>2^hi<<30 ^ lo>>7^hi<<25
 275	mov	r9,r5,lsr#28
 276	mov	r10,r6,lsr#28
 277	eor	r9,r9,r6,lsl#4
 278	eor	r10,r10,r5,lsl#4
 279	eor	r9,r9,r6,lsr#2
 280	eor	r10,r10,r5,lsr#2
 281	eor	r9,r9,r5,lsl#30
 282	eor	r10,r10,r6,lsl#30
 283	eor	r9,r9,r6,lsr#7
 284	eor	r10,r10,r5,lsr#7
 285	eor	r9,r9,r5,lsl#25
 286	eor	r10,r10,r6,lsl#25	@ Sigma0(a)
 287	adds	r3,r3,r9
 288	and	r9,r5,r11
 289	adc	r4,r4,r10		@ T += Sigma0(a)
 290
 291	ldr	r10,[sp,#8+4]	@ b.hi
 292	orr	r5,r5,r11
 293	ldr	r11,[sp,#16+4]	@ c.hi
 294	and	r5,r5,r12
 295	and	r12,r6,r10
 296	orr	r6,r6,r10
 297	orr	r5,r5,r9		@ Maj(a,b,c).lo
 298	and	r6,r6,r11
 299	adds	r5,r5,r3
 300	orr	r6,r6,r12		@ Maj(a,b,c).hi
 301	sub	sp,sp,#8
 302	adc	r6,r6,r4		@ h += T
 303	tst	r14,#1
 304	add	r14,r14,#8
 305	tst	r14,#1
 306	beq	.L00_15
 307	ldr	r9,[sp,#184+0]
 308	ldr	r10,[sp,#184+4]
 309	bic	r14,r14,#1
 310.L16_79:
 311	@ sigma0(x)	(ROTR((x),1)  ^ ROTR((x),8)  ^ ((x)>>7))
 312	@ LO		lo>>1^hi<<31  ^ lo>>8^hi<<24 ^ lo>>7^hi<<25
 313	@ HI		hi>>1^lo<<31  ^ hi>>8^lo<<24 ^ hi>>7
 314	mov	r3,r9,lsr#1
 315	ldr	r11,[sp,#80+0]
 316	mov	r4,r10,lsr#1
 317	ldr	r12,[sp,#80+4]
 318	eor	r3,r3,r10,lsl#31
 319	eor	r4,r4,r9,lsl#31
 320	eor	r3,r3,r9,lsr#8
 321	eor	r4,r4,r10,lsr#8
 322	eor	r3,r3,r10,lsl#24
 323	eor	r4,r4,r9,lsl#24
 324	eor	r3,r3,r9,lsr#7
 325	eor	r4,r4,r10,lsr#7
 326	eor	r3,r3,r10,lsl#25
 327
 328	@ sigma1(x)	(ROTR((x),19) ^ ROTR((x),61) ^ ((x)>>6))
 329	@ LO		lo>>19^hi<<13 ^ hi>>29^lo<<3 ^ lo>>6^hi<<26
 330	@ HI		hi>>19^lo<<13 ^ lo>>29^hi<<3 ^ hi>>6
 331	mov	r9,r11,lsr#19
 332	mov	r10,r12,lsr#19
 333	eor	r9,r9,r12,lsl#13
 334	eor	r10,r10,r11,lsl#13
 335	eor	r9,r9,r12,lsr#29
 336	eor	r10,r10,r11,lsr#29
 337	eor	r9,r9,r11,lsl#3
 338	eor	r10,r10,r12,lsl#3
 339	eor	r9,r9,r11,lsr#6
 340	eor	r10,r10,r12,lsr#6
 341	ldr	r11,[sp,#120+0]
 342	eor	r9,r9,r12,lsl#26
 343
 344	ldr	r12,[sp,#120+4]
 345	adds	r3,r3,r9
 346	ldr	r9,[sp,#192+0]
 347	adc	r4,r4,r10
 348
 349	ldr	r10,[sp,#192+4]
 350	adds	r3,r3,r11
 351	adc	r4,r4,r12
 352	adds	r3,r3,r9
 353	adc	r4,r4,r10
 354	@ Sigma1(x)	(ROTR((x),14) ^ ROTR((x),18)  ^ ROTR((x),41))
 355	@ LO		lo>>14^hi<<18 ^ lo>>18^hi<<14 ^ hi>>9^lo<<23
 356	@ HI		hi>>14^lo<<18 ^ hi>>18^lo<<14 ^ lo>>9^hi<<23
 357	mov	r9,r7,lsr#14
 358	str	r3,[sp,#64+0]
 359	mov	r10,r8,lsr#14
 360	str	r4,[sp,#64+4]
 361	eor	r9,r9,r8,lsl#18
 362	ldr	r11,[sp,#56+0]	@ h.lo
 363	eor	r10,r10,r7,lsl#18
 364	ldr	r12,[sp,#56+4]	@ h.hi
 365	eor	r9,r9,r7,lsr#18
 366	eor	r10,r10,r8,lsr#18
 367	eor	r9,r9,r8,lsl#14
 368	eor	r10,r10,r7,lsl#14
 369	eor	r9,r9,r8,lsr#9
 370	eor	r10,r10,r7,lsr#9
 371	eor	r9,r9,r7,lsl#23
 372	eor	r10,r10,r8,lsl#23	@ Sigma1(e)
 373	adds	r3,r3,r9
 374	ldr	r9,[sp,#40+0]	@ f.lo
 375	adc	r4,r4,r10		@ T += Sigma1(e)
 376	ldr	r10,[sp,#40+4]	@ f.hi
 377	adds	r3,r3,r11
 378	ldr	r11,[sp,#48+0]	@ g.lo
 379	adc	r4,r4,r12		@ T += h
 380	ldr	r12,[sp,#48+4]	@ g.hi
 381
 382	eor	r9,r9,r11
 383	str	r7,[sp,#32+0]
 384	eor	r10,r10,r12
 385	str	r8,[sp,#32+4]
 386	and	r9,r9,r7
 387	str	r5,[sp,#0+0]
 388	and	r10,r10,r8
 389	str	r6,[sp,#0+4]
 390	eor	r9,r9,r11
 391	ldr	r11,[r14,#LO]	@ K[i].lo
 392	eor	r10,r10,r12		@ Ch(e,f,g)
 393	ldr	r12,[r14,#HI]	@ K[i].hi
 394
 395	adds	r3,r3,r9
 396	ldr	r7,[sp,#24+0]	@ d.lo
 397	adc	r4,r4,r10		@ T += Ch(e,f,g)
 398	ldr	r8,[sp,#24+4]	@ d.hi
 399	adds	r3,r3,r11
 400	and	r9,r11,#0xff
 401	adc	r4,r4,r12		@ T += K[i]
 402	adds	r7,r7,r3
 403	ldr	r11,[sp,#8+0]	@ b.lo
 404	adc	r8,r8,r4		@ d += T
 405	teq	r9,#23
 406
 407	ldr	r12,[sp,#16+0]	@ c.lo
 408#if __ARM_ARCH__>=7
 409	it	eq			@ Thumb2 thing, sanity check in ARM
 410#endif
 411	orreq	r14,r14,#1
 412	@ Sigma0(x)	(ROTR((x),28) ^ ROTR((x),34) ^ ROTR((x),39))
 413	@ LO		lo>>28^hi<<4  ^ hi>>2^lo<<30 ^ hi>>7^lo<<25
 414	@ HI		hi>>28^lo<<4  ^ lo>>2^hi<<30 ^ lo>>7^hi<<25
 415	mov	r9,r5,lsr#28
 416	mov	r10,r6,lsr#28
 417	eor	r9,r9,r6,lsl#4
 418	eor	r10,r10,r5,lsl#4
 419	eor	r9,r9,r6,lsr#2
 420	eor	r10,r10,r5,lsr#2
 421	eor	r9,r9,r5,lsl#30
 422	eor	r10,r10,r6,lsl#30
 423	eor	r9,r9,r6,lsr#7
 424	eor	r10,r10,r5,lsr#7
 425	eor	r9,r9,r5,lsl#25
 426	eor	r10,r10,r6,lsl#25	@ Sigma0(a)
 427	adds	r3,r3,r9
 428	and	r9,r5,r11
 429	adc	r4,r4,r10		@ T += Sigma0(a)
 430
 431	ldr	r10,[sp,#8+4]	@ b.hi
 432	orr	r5,r5,r11
 433	ldr	r11,[sp,#16+4]	@ c.hi
 434	and	r5,r5,r12
 435	and	r12,r6,r10
 436	orr	r6,r6,r10
 437	orr	r5,r5,r9		@ Maj(a,b,c).lo
 438	and	r6,r6,r11
 439	adds	r5,r5,r3
 440	orr	r6,r6,r12		@ Maj(a,b,c).hi
 441	sub	sp,sp,#8
 442	adc	r6,r6,r4		@ h += T
 443	tst	r14,#1
 444	add	r14,r14,#8
 445#if __ARM_ARCH__>=7
 446	ittt	eq			@ Thumb2 thing, sanity check in ARM
 447#endif
 448	ldreq	r9,[sp,#184+0]
 449	ldreq	r10,[sp,#184+4]
 450	beq	.L16_79
 451	bic	r14,r14,#1
 452
 453	ldr	r3,[sp,#8+0]
 454	ldr	r4,[sp,#8+4]
 455	ldr	r9, [r0,#0+LO]
 456	ldr	r10, [r0,#0+HI]
 457	ldr	r11, [r0,#8+LO]
 458	ldr	r12, [r0,#8+HI]
 459	adds	r9,r5,r9
 460	str	r9, [r0,#0+LO]
 461	adc	r10,r6,r10
 462	str	r10, [r0,#0+HI]
 463	adds	r11,r3,r11
 464	str	r11, [r0,#8+LO]
 465	adc	r12,r4,r12
 466	str	r12, [r0,#8+HI]
 467
 468	ldr	r5,[sp,#16+0]
 469	ldr	r6,[sp,#16+4]
 470	ldr	r3,[sp,#24+0]
 471	ldr	r4,[sp,#24+4]
 472	ldr	r9, [r0,#16+LO]
 473	ldr	r10, [r0,#16+HI]
 474	ldr	r11, [r0,#24+LO]
 475	ldr	r12, [r0,#24+HI]
 476	adds	r9,r5,r9
 477	str	r9, [r0,#16+LO]
 478	adc	r10,r6,r10
 479	str	r10, [r0,#16+HI]
 480	adds	r11,r3,r11
 481	str	r11, [r0,#24+LO]
 482	adc	r12,r4,r12
 483	str	r12, [r0,#24+HI]
 484
 485	ldr	r3,[sp,#40+0]
 486	ldr	r4,[sp,#40+4]
 487	ldr	r9, [r0,#32+LO]
 488	ldr	r10, [r0,#32+HI]
 489	ldr	r11, [r0,#40+LO]
 490	ldr	r12, [r0,#40+HI]
 491	adds	r7,r7,r9
 492	str	r7,[r0,#32+LO]
 493	adc	r8,r8,r10
 494	str	r8,[r0,#32+HI]
 495	adds	r11,r3,r11
 496	str	r11, [r0,#40+LO]
 497	adc	r12,r4,r12
 498	str	r12, [r0,#40+HI]
 499
 500	ldr	r5,[sp,#48+0]
 501	ldr	r6,[sp,#48+4]
 502	ldr	r3,[sp,#56+0]
 503	ldr	r4,[sp,#56+4]
 504	ldr	r9, [r0,#48+LO]
 505	ldr	r10, [r0,#48+HI]
 506	ldr	r11, [r0,#56+LO]
 507	ldr	r12, [r0,#56+HI]
 508	adds	r9,r5,r9
 509	str	r9, [r0,#48+LO]
 510	adc	r10,r6,r10
 511	str	r10, [r0,#48+HI]
 512	adds	r11,r3,r11
 513	str	r11, [r0,#56+LO]
 514	adc	r12,r4,r12
 515	str	r12, [r0,#56+HI]
 516
 517	add	sp,sp,#640
 518	sub	r14,r14,#640
 519
 520	teq	r1,r2
 521	bne	.Loop
 522
 523	add	sp,sp,#8*9		@ destroy frame
 524#if __ARM_ARCH__>=5
 525	ldmia	sp!,{r4-r12,pc}
 526#else
 527	ldmia	sp!,{r4-r12,lr}
 528	tst	lr,#1
 529	moveq	pc,lr			@ be binary compatible with V4, yet
 530	.word	0xe12fff1e			@ interoperable with Thumb ISA:-)
 531#endif
 532.size	sha512_block_data_order,.-sha512_block_data_order
 533#if __ARM_MAX_ARCH__>=7
 534.arch	armv7-a
 535.fpu	neon
 536
 537.global	sha512_block_data_order_neon
 538.type	sha512_block_data_order_neon,%function
 539.align	4
 540sha512_block_data_order_neon:
 541.LNEON:
 542	dmb				@ errata #451034 on early Cortex A8
 543	add	r2,r1,r2,lsl#7	@ len to point at the end of inp
 544	VFP_ABI_PUSH
 545	adr	r3,.Lsha512_block_data_order
 546	sub	r3,r3,.Lsha512_block_data_order-K512
 547	vldmia	r0,{d16-d23}		@ load context
 548.Loop_neon:
 549	vshr.u64	d24,d20,#14	@ 0
 550#if 0<16
 551	vld1.64		{d0},[r1]!	@ handles unaligned
 552#endif
 553	vshr.u64	d25,d20,#18
 554#if 0>0
 555	 vadd.i64	d16,d30			@ h+=Maj from the past
 556#endif
 557	vshr.u64	d26,d20,#41
 558	vld1.64		{d28},[r3,:64]!	@ K[i++]
 559	vsli.64		d24,d20,#50
 560	vsli.64		d25,d20,#46
 561	vmov		d29,d20
 562	vsli.64		d26,d20,#23
 563#if 0<16 && defined(__ARMEL__)
 564	vrev64.8	d0,d0
 565#endif
 566	veor		d25,d24
 567	vbsl		d29,d21,d22		@ Ch(e,f,g)
 568	vshr.u64	d24,d16,#28
 569	veor		d26,d25			@ Sigma1(e)
 570	vadd.i64	d27,d29,d23
 571	vshr.u64	d25,d16,#34
 572	vsli.64		d24,d16,#36
 573	vadd.i64	d27,d26
 574	vshr.u64	d26,d16,#39
 575	vadd.i64	d28,d0
 576	vsli.64		d25,d16,#30
 577	veor		d30,d16,d17
 578	vsli.64		d26,d16,#25
 579	veor		d23,d24,d25
 580	vadd.i64	d27,d28
 581	vbsl		d30,d18,d17		@ Maj(a,b,c)
 582	veor		d23,d26			@ Sigma0(a)
 583	vadd.i64	d19,d27
 584	vadd.i64	d30,d27
 585	@ vadd.i64	d23,d30
 586	vshr.u64	d24,d19,#14	@ 1
 587#if 1<16
 588	vld1.64		{d1},[r1]!	@ handles unaligned
 589#endif
 590	vshr.u64	d25,d19,#18
 591#if 1>0
 592	 vadd.i64	d23,d30			@ h+=Maj from the past
 593#endif
 594	vshr.u64	d26,d19,#41
 595	vld1.64		{d28},[r3,:64]!	@ K[i++]
 596	vsli.64		d24,d19,#50
 597	vsli.64		d25,d19,#46
 598	vmov		d29,d19
 599	vsli.64		d26,d19,#23
 600#if 1<16 && defined(__ARMEL__)
 601	vrev64.8	d1,d1
 602#endif
 603	veor		d25,d24
 604	vbsl		d29,d20,d21		@ Ch(e,f,g)
 605	vshr.u64	d24,d23,#28
 606	veor		d26,d25			@ Sigma1(e)
 607	vadd.i64	d27,d29,d22
 608	vshr.u64	d25,d23,#34
 609	vsli.64		d24,d23,#36
 610	vadd.i64	d27,d26
 611	vshr.u64	d26,d23,#39
 612	vadd.i64	d28,d1
 613	vsli.64		d25,d23,#30
 614	veor		d30,d23,d16
 615	vsli.64		d26,d23,#25
 616	veor		d22,d24,d25
 617	vadd.i64	d27,d28
 618	vbsl		d30,d17,d16		@ Maj(a,b,c)
 619	veor		d22,d26			@ Sigma0(a)
 620	vadd.i64	d18,d27
 621	vadd.i64	d30,d27
 622	@ vadd.i64	d22,d30
 623	vshr.u64	d24,d18,#14	@ 2
 624#if 2<16
 625	vld1.64		{d2},[r1]!	@ handles unaligned
 626#endif
 627	vshr.u64	d25,d18,#18
 628#if 2>0
 629	 vadd.i64	d22,d30			@ h+=Maj from the past
 630#endif
 631	vshr.u64	d26,d18,#41
 632	vld1.64		{d28},[r3,:64]!	@ K[i++]
 633	vsli.64		d24,d18,#50
 634	vsli.64		d25,d18,#46
 635	vmov		d29,d18
 636	vsli.64		d26,d18,#23
 637#if 2<16 && defined(__ARMEL__)
 638	vrev64.8	d2,d2
 639#endif
 640	veor		d25,d24
 641	vbsl		d29,d19,d20		@ Ch(e,f,g)
 642	vshr.u64	d24,d22,#28
 643	veor		d26,d25			@ Sigma1(e)
 644	vadd.i64	d27,d29,d21
 645	vshr.u64	d25,d22,#34
 646	vsli.64		d24,d22,#36
 647	vadd.i64	d27,d26
 648	vshr.u64	d26,d22,#39
 649	vadd.i64	d28,d2
 650	vsli.64		d25,d22,#30
 651	veor		d30,d22,d23
 652	vsli.64		d26,d22,#25
 653	veor		d21,d24,d25
 654	vadd.i64	d27,d28
 655	vbsl		d30,d16,d23		@ Maj(a,b,c)
 656	veor		d21,d26			@ Sigma0(a)
 657	vadd.i64	d17,d27
 658	vadd.i64	d30,d27
 659	@ vadd.i64	d21,d30
 660	vshr.u64	d24,d17,#14	@ 3
 661#if 3<16
 662	vld1.64		{d3},[r1]!	@ handles unaligned
 663#endif
 664	vshr.u64	d25,d17,#18
 665#if 3>0
 666	 vadd.i64	d21,d30			@ h+=Maj from the past
 667#endif
 668	vshr.u64	d26,d17,#41
 669	vld1.64		{d28},[r3,:64]!	@ K[i++]
 670	vsli.64		d24,d17,#50
 671	vsli.64		d25,d17,#46
 672	vmov		d29,d17
 673	vsli.64		d26,d17,#23
 674#if 3<16 && defined(__ARMEL__)
 675	vrev64.8	d3,d3
 676#endif
 677	veor		d25,d24
 678	vbsl		d29,d18,d19		@ Ch(e,f,g)
 679	vshr.u64	d24,d21,#28
 680	veor		d26,d25			@ Sigma1(e)
 681	vadd.i64	d27,d29,d20
 682	vshr.u64	d25,d21,#34
 683	vsli.64		d24,d21,#36
 684	vadd.i64	d27,d26
 685	vshr.u64	d26,d21,#39
 686	vadd.i64	d28,d3
 687	vsli.64		d25,d21,#30
 688	veor		d30,d21,d22
 689	vsli.64		d26,d21,#25
 690	veor		d20,d24,d25
 691	vadd.i64	d27,d28
 692	vbsl		d30,d23,d22		@ Maj(a,b,c)
 693	veor		d20,d26			@ Sigma0(a)
 694	vadd.i64	d16,d27
 695	vadd.i64	d30,d27
 696	@ vadd.i64	d20,d30
 697	vshr.u64	d24,d16,#14	@ 4
 698#if 4<16
 699	vld1.64		{d4},[r1]!	@ handles unaligned
 700#endif
 701	vshr.u64	d25,d16,#18
 702#if 4>0
 703	 vadd.i64	d20,d30			@ h+=Maj from the past
 704#endif
 705	vshr.u64	d26,d16,#41
 706	vld1.64		{d28},[r3,:64]!	@ K[i++]
 707	vsli.64		d24,d16,#50
 708	vsli.64		d25,d16,#46
 709	vmov		d29,d16
 710	vsli.64		d26,d16,#23
 711#if 4<16 && defined(__ARMEL__)
 712	vrev64.8	d4,d4
 713#endif
 714	veor		d25,d24
 715	vbsl		d29,d17,d18		@ Ch(e,f,g)
 716	vshr.u64	d24,d20,#28
 717	veor		d26,d25			@ Sigma1(e)
 718	vadd.i64	d27,d29,d19
 719	vshr.u64	d25,d20,#34
 720	vsli.64		d24,d20,#36
 721	vadd.i64	d27,d26
 722	vshr.u64	d26,d20,#39
 723	vadd.i64	d28,d4
 724	vsli.64		d25,d20,#30
 725	veor		d30,d20,d21
 726	vsli.64		d26,d20,#25
 727	veor		d19,d24,d25
 728	vadd.i64	d27,d28
 729	vbsl		d30,d22,d21		@ Maj(a,b,c)
 730	veor		d19,d26			@ Sigma0(a)
 731	vadd.i64	d23,d27
 732	vadd.i64	d30,d27
 733	@ vadd.i64	d19,d30
 734	vshr.u64	d24,d23,#14	@ 5
 735#if 5<16
 736	vld1.64		{d5},[r1]!	@ handles unaligned
 737#endif
 738	vshr.u64	d25,d23,#18
 739#if 5>0
 740	 vadd.i64	d19,d30			@ h+=Maj from the past
 741#endif
 742	vshr.u64	d26,d23,#41
 743	vld1.64		{d28},[r3,:64]!	@ K[i++]
 744	vsli.64		d24,d23,#50
 745	vsli.64		d25,d23,#46
 746	vmov		d29,d23
 747	vsli.64		d26,d23,#23
 748#if 5<16 && defined(__ARMEL__)
 749	vrev64.8	d5,d5
 750#endif
 751	veor		d25,d24
 752	vbsl		d29,d16,d17		@ Ch(e,f,g)
 753	vshr.u64	d24,d19,#28
 754	veor		d26,d25			@ Sigma1(e)
 755	vadd.i64	d27,d29,d18
 756	vshr.u64	d25,d19,#34
 757	vsli.64		d24,d19,#36
 758	vadd.i64	d27,d26
 759	vshr.u64	d26,d19,#39
 760	vadd.i64	d28,d5
 761	vsli.64		d25,d19,#30
 762	veor		d30,d19,d20
 763	vsli.64		d26,d19,#25
 764	veor		d18,d24,d25
 765	vadd.i64	d27,d28
 766	vbsl		d30,d21,d20		@ Maj(a,b,c)
 767	veor		d18,d26			@ Sigma0(a)
 768	vadd.i64	d22,d27
 769	vadd.i64	d30,d27
 770	@ vadd.i64	d18,d30
 771	vshr.u64	d24,d22,#14	@ 6
 772#if 6<16
 773	vld1.64		{d6},[r1]!	@ handles unaligned
 774#endif
 775	vshr.u64	d25,d22,#18
 776#if 6>0
 777	 vadd.i64	d18,d30			@ h+=Maj from the past
 778#endif
 779	vshr.u64	d26,d22,#41
 780	vld1.64		{d28},[r3,:64]!	@ K[i++]
 781	vsli.64		d24,d22,#50
 782	vsli.64		d25,d22,#46
 783	vmov		d29,d22
 784	vsli.64		d26,d22,#23
 785#if 6<16 && defined(__ARMEL__)
 786	vrev64.8	d6,d6
 787#endif
 788	veor		d25,d24
 789	vbsl		d29,d23,d16		@ Ch(e,f,g)
 790	vshr.u64	d24,d18,#28
 791	veor		d26,d25			@ Sigma1(e)
 792	vadd.i64	d27,d29,d17
 793	vshr.u64	d25,d18,#34
 794	vsli.64		d24,d18,#36
 795	vadd.i64	d27,d26
 796	vshr.u64	d26,d18,#39
 797	vadd.i64	d28,d6
 798	vsli.64		d25,d18,#30
 799	veor		d30,d18,d19
 800	vsli.64		d26,d18,#25
 801	veor		d17,d24,d25
 802	vadd.i64	d27,d28
 803	vbsl		d30,d20,d19		@ Maj(a,b,c)
 804	veor		d17,d26			@ Sigma0(a)
 805	vadd.i64	d21,d27
 806	vadd.i64	d30,d27
 807	@ vadd.i64	d17,d30
 808	vshr.u64	d24,d21,#14	@ 7
 809#if 7<16
 810	vld1.64		{d7},[r1]!	@ handles unaligned
 811#endif
 812	vshr.u64	d25,d21,#18
 813#if 7>0
 814	 vadd.i64	d17,d30			@ h+=Maj from the past
 815#endif
 816	vshr.u64	d26,d21,#41
 817	vld1.64		{d28},[r3,:64]!	@ K[i++]
 818	vsli.64		d24,d21,#50
 819	vsli.64		d25,d21,#46
 820	vmov		d29,d21
 821	vsli.64		d26,d21,#23
 822#if 7<16 && defined(__ARMEL__)
 823	vrev64.8	d7,d7
 824#endif
 825	veor		d25,d24
 826	vbsl		d29,d22,d23		@ Ch(e,f,g)
 827	vshr.u64	d24,d17,#28
 828	veor		d26,d25			@ Sigma1(e)
 829	vadd.i64	d27,d29,d16
 830	vshr.u64	d25,d17,#34
 831	vsli.64		d24,d17,#36
 832	vadd.i64	d27,d26
 833	vshr.u64	d26,d17,#39
 834	vadd.i64	d28,d7
 835	vsli.64		d25,d17,#30
 836	veor		d30,d17,d18
 837	vsli.64		d26,d17,#25
 838	veor		d16,d24,d25
 839	vadd.i64	d27,d28
 840	vbsl		d30,d19,d18		@ Maj(a,b,c)
 841	veor		d16,d26			@ Sigma0(a)
 842	vadd.i64	d20,d27
 843	vadd.i64	d30,d27
 844	@ vadd.i64	d16,d30
 845	vshr.u64	d24,d20,#14	@ 8
 846#if 8<16
 847	vld1.64		{d8},[r1]!	@ handles unaligned
 848#endif
 849	vshr.u64	d25,d20,#18
 850#if 8>0
 851	 vadd.i64	d16,d30			@ h+=Maj from the past
 852#endif
 853	vshr.u64	d26,d20,#41
 854	vld1.64		{d28},[r3,:64]!	@ K[i++]
 855	vsli.64		d24,d20,#50
 856	vsli.64		d25,d20,#46
 857	vmov		d29,d20
 858	vsli.64		d26,d20,#23
 859#if 8<16 && defined(__ARMEL__)
 860	vrev64.8	d8,d8
 861#endif
 862	veor		d25,d24
 863	vbsl		d29,d21,d22		@ Ch(e,f,g)
 864	vshr.u64	d24,d16,#28
 865	veor		d26,d25			@ Sigma1(e)
 866	vadd.i64	d27,d29,d23
 867	vshr.u64	d25,d16,#34
 868	vsli.64		d24,d16,#36
 869	vadd.i64	d27,d26
 870	vshr.u64	d26,d16,#39
 871	vadd.i64	d28,d8
 872	vsli.64		d25,d16,#30
 873	veor		d30,d16,d17
 874	vsli.64		d26,d16,#25
 875	veor		d23,d24,d25
 876	vadd.i64	d27,d28
 877	vbsl		d30,d18,d17		@ Maj(a,b,c)
 878	veor		d23,d26			@ Sigma0(a)
 879	vadd.i64	d19,d27
 880	vadd.i64	d30,d27
 881	@ vadd.i64	d23,d30
 882	vshr.u64	d24,d19,#14	@ 9
 883#if 9<16
 884	vld1.64		{d9},[r1]!	@ handles unaligned
 885#endif
 886	vshr.u64	d25,d19,#18
 887#if 9>0
 888	 vadd.i64	d23,d30			@ h+=Maj from the past
 889#endif
 890	vshr.u64	d26,d19,#41
 891	vld1.64		{d28},[r3,:64]!	@ K[i++]
 892	vsli.64		d24,d19,#50
 893	vsli.64		d25,d19,#46
 894	vmov		d29,d19
 895	vsli.64		d26,d19,#23
 896#if 9<16 && defined(__ARMEL__)
 897	vrev64.8	d9,d9
 898#endif
 899	veor		d25,d24
 900	vbsl		d29,d20,d21		@ Ch(e,f,g)
 901	vshr.u64	d24,d23,#28
 902	veor		d26,d25			@ Sigma1(e)
 903	vadd.i64	d27,d29,d22
 904	vshr.u64	d25,d23,#34
 905	vsli.64		d24,d23,#36
 906	vadd.i64	d27,d26
 907	vshr.u64	d26,d23,#39
 908	vadd.i64	d28,d9
 909	vsli.64		d25,d23,#30
 910	veor		d30,d23,d16
 911	vsli.64		d26,d23,#25
 912	veor		d22,d24,d25
 913	vadd.i64	d27,d28
 914	vbsl		d30,d17,d16		@ Maj(a,b,c)
 915	veor		d22,d26			@ Sigma0(a)
 916	vadd.i64	d18,d27
 917	vadd.i64	d30,d27
 918	@ vadd.i64	d22,d30
 919	vshr.u64	d24,d18,#14	@ 10
 920#if 10<16
 921	vld1.64		{d10},[r1]!	@ handles unaligned
 922#endif
 923	vshr.u64	d25,d18,#18
 924#if 10>0
 925	 vadd.i64	d22,d30			@ h+=Maj from the past
 926#endif
 927	vshr.u64	d26,d18,#41
 928	vld1.64		{d28},[r3,:64]!	@ K[i++]
 929	vsli.64		d24,d18,#50
 930	vsli.64		d25,d18,#46
 931	vmov		d29,d18
 932	vsli.64		d26,d18,#23
 933#if 10<16 && defined(__ARMEL__)
 934	vrev64.8	d10,d10
 935#endif
 936	veor		d25,d24
 937	vbsl		d29,d19,d20		@ Ch(e,f,g)
 938	vshr.u64	d24,d22,#28
 939	veor		d26,d25			@ Sigma1(e)
 940	vadd.i64	d27,d29,d21
 941	vshr.u64	d25,d22,#34
 942	vsli.64		d24,d22,#36
 943	vadd.i64	d27,d26
 944	vshr.u64	d26,d22,#39
 945	vadd.i64	d28,d10
 946	vsli.64		d25,d22,#30
 947	veor		d30,d22,d23
 948	vsli.64		d26,d22,#25
 949	veor		d21,d24,d25
 950	vadd.i64	d27,d28
 951	vbsl		d30,d16,d23		@ Maj(a,b,c)
 952	veor		d21,d26			@ Sigma0(a)
 953	vadd.i64	d17,d27
 954	vadd.i64	d30,d27
 955	@ vadd.i64	d21,d30
 956	vshr.u64	d24,d17,#14	@ 11
 957#if 11<16
 958	vld1.64		{d11},[r1]!	@ handles unaligned
 959#endif
 960	vshr.u64	d25,d17,#18
 961#if 11>0
 962	 vadd.i64	d21,d30			@ h+=Maj from the past
 963#endif
 964	vshr.u64	d26,d17,#41
 965	vld1.64		{d28},[r3,:64]!	@ K[i++]
 966	vsli.64		d24,d17,#50
 967	vsli.64		d25,d17,#46
 968	vmov		d29,d17
 969	vsli.64		d26,d17,#23
 970#if 11<16 && defined(__ARMEL__)
 971	vrev64.8	d11,d11
 972#endif
 973	veor		d25,d24
 974	vbsl		d29,d18,d19		@ Ch(e,f,g)
 975	vshr.u64	d24,d21,#28
 976	veor		d26,d25			@ Sigma1(e)
 977	vadd.i64	d27,d29,d20
 978	vshr.u64	d25,d21,#34
 979	vsli.64		d24,d21,#36
 980	vadd.i64	d27,d26
 981	vshr.u64	d26,d21,#39
 982	vadd.i64	d28,d11
 983	vsli.64		d25,d21,#30
 984	veor		d30,d21,d22
 985	vsli.64		d26,d21,#25
 986	veor		d20,d24,d25
 987	vadd.i64	d27,d28
 988	vbsl		d30,d23,d22		@ Maj(a,b,c)
 989	veor		d20,d26			@ Sigma0(a)
 990	vadd.i64	d16,d27
 991	vadd.i64	d30,d27
 992	@ vadd.i64	d20,d30
 993	vshr.u64	d24,d16,#14	@ 12
 994#if 12<16
 995	vld1.64		{d12},[r1]!	@ handles unaligned
 996#endif
 997	vshr.u64	d25,d16,#18
 998#if 12>0
 999	 vadd.i64	d20,d30			@ h+=Maj from the past
1000#endif
1001	vshr.u64	d26,d16,#41
1002	vld1.64		{d28},[r3,:64]!	@ K[i++]
1003	vsli.64		d24,d16,#50
1004	vsli.64		d25,d16,#46
1005	vmov		d29,d16
1006	vsli.64		d26,d16,#23
1007#if 12<16 && defined(__ARMEL__)
1008	vrev64.8	d12,d12
1009#endif
1010	veor		d25,d24
1011	vbsl		d29,d17,d18		@ Ch(e,f,g)
1012	vshr.u64	d24,d20,#28
1013	veor		d26,d25			@ Sigma1(e)
1014	vadd.i64	d27,d29,d19
1015	vshr.u64	d25,d20,#34
1016	vsli.64		d24,d20,#36
1017	vadd.i64	d27,d26
1018	vshr.u64	d26,d20,#39
1019	vadd.i64	d28,d12
1020	vsli.64		d25,d20,#30
1021	veor		d30,d20,d21
1022	vsli.64		d26,d20,#25
1023	veor		d19,d24,d25
1024	vadd.i64	d27,d28
1025	vbsl		d30,d22,d21		@ Maj(a,b,c)
1026	veor		d19,d26			@ Sigma0(a)
1027	vadd.i64	d23,d27
1028	vadd.i64	d30,d27
1029	@ vadd.i64	d19,d30
1030	vshr.u64	d24,d23,#14	@ 13
1031#if 13<16
1032	vld1.64		{d13},[r1]!	@ handles unaligned
1033#endif
1034	vshr.u64	d25,d23,#18
1035#if 13>0
1036	 vadd.i64	d19,d30			@ h+=Maj from the past
1037#endif
1038	vshr.u64	d26,d23,#41
1039	vld1.64		{d28},[r3,:64]!	@ K[i++]
1040	vsli.64		d24,d23,#50
1041	vsli.64		d25,d23,#46
1042	vmov		d29,d23
1043	vsli.64		d26,d23,#23
1044#if 13<16 && defined(__ARMEL__)
1045	vrev64.8	d13,d13
1046#endif
1047	veor		d25,d24
1048	vbsl		d29,d16,d17		@ Ch(e,f,g)
1049	vshr.u64	d24,d19,#28
1050	veor		d26,d25			@ Sigma1(e)
1051	vadd.i64	d27,d29,d18
1052	vshr.u64	d25,d19,#34
1053	vsli.64		d24,d19,#36
1054	vadd.i64	d27,d26
1055	vshr.u64	d26,d19,#39
1056	vadd.i64	d28,d13
1057	vsli.64		d25,d19,#30
1058	veor		d30,d19,d20
1059	vsli.64		d26,d19,#25
1060	veor		d18,d24,d25
1061	vadd.i64	d27,d28
1062	vbsl		d30,d21,d20		@ Maj(a,b,c)
1063	veor		d18,d26			@ Sigma0(a)
1064	vadd.i64	d22,d27
1065	vadd.i64	d30,d27
1066	@ vadd.i64	d18,d30
1067	vshr.u64	d24,d22,#14	@ 14
1068#if 14<16
1069	vld1.64		{d14},[r1]!	@ handles unaligned
1070#endif
1071	vshr.u64	d25,d22,#18
1072#if 14>0
1073	 vadd.i64	d18,d30			@ h+=Maj from the past
1074#endif
1075	vshr.u64	d26,d22,#41
1076	vld1.64		{d28},[r3,:64]!	@ K[i++]
1077	vsli.64		d24,d22,#50
1078	vsli.64		d25,d22,#46
1079	vmov		d29,d22
1080	vsli.64		d26,d22,#23
1081#if 14<16 && defined(__ARMEL__)
1082	vrev64.8	d14,d14
1083#endif
1084	veor		d25,d24
1085	vbsl		d29,d23,d16		@ Ch(e,f,g)
1086	vshr.u64	d24,d18,#28
1087	veor		d26,d25			@ Sigma1(e)
1088	vadd.i64	d27,d29,d17
1089	vshr.u64	d25,d18,#34
1090	vsli.64		d24,d18,#36
1091	vadd.i64	d27,d26
1092	vshr.u64	d26,d18,#39
1093	vadd.i64	d28,d14
1094	vsli.64		d25,d18,#30
1095	veor		d30,d18,d19
1096	vsli.64		d26,d18,#25
1097	veor		d17,d24,d25
1098	vadd.i64	d27,d28
1099	vbsl		d30,d20,d19		@ Maj(a,b,c)
1100	veor		d17,d26			@ Sigma0(a)
1101	vadd.i64	d21,d27
1102	vadd.i64	d30,d27
1103	@ vadd.i64	d17,d30
1104	vshr.u64	d24,d21,#14	@ 15
1105#if 15<16
1106	vld1.64		{d15},[r1]!	@ handles unaligned
1107#endif
1108	vshr.u64	d25,d21,#18
1109#if 15>0
1110	 vadd.i64	d17,d30			@ h+=Maj from the past
1111#endif
1112	vshr.u64	d26,d21,#41
1113	vld1.64		{d28},[r3,:64]!	@ K[i++]
1114	vsli.64		d24,d21,#50
1115	vsli.64		d25,d21,#46
1116	vmov		d29,d21
1117	vsli.64		d26,d21,#23
1118#if 15<16 && defined(__ARMEL__)
1119	vrev64.8	d15,d15
1120#endif
1121	veor		d25,d24
1122	vbsl		d29,d22,d23		@ Ch(e,f,g)
1123	vshr.u64	d24,d17,#28
1124	veor		d26,d25			@ Sigma1(e)
1125	vadd.i64	d27,d29,d16
1126	vshr.u64	d25,d17,#34
1127	vsli.64		d24,d17,#36
1128	vadd.i64	d27,d26
1129	vshr.u64	d26,d17,#39
1130	vadd.i64	d28,d15
1131	vsli.64		d25,d17,#30
1132	veor		d30,d17,d18
1133	vsli.64		d26,d17,#25
1134	veor		d16,d24,d25
1135	vadd.i64	d27,d28
1136	vbsl		d30,d19,d18		@ Maj(a,b,c)
1137	veor		d16,d26			@ Sigma0(a)
1138	vadd.i64	d20,d27
1139	vadd.i64	d30,d27
1140	@ vadd.i64	d16,d30
1141	mov		r12,#4
1142.L16_79_neon:
1143	subs		r12,#1
1144	vshr.u64	q12,q7,#19
1145	vshr.u64	q13,q7,#61
1146	 vadd.i64	d16,d30			@ h+=Maj from the past
1147	vshr.u64	q15,q7,#6
1148	vsli.64		q12,q7,#45
1149	vext.8		q14,q0,q1,#8	@ X[i+1]
1150	vsli.64		q13,q7,#3
1151	veor		q15,q12
1152	vshr.u64	q12,q14,#1
1153	veor		q15,q13				@ sigma1(X[i+14])
1154	vshr.u64	q13,q14,#8
1155	vadd.i64	q0,q15
1156	vshr.u64	q15,q14,#7
1157	vsli.64		q12,q14,#63
1158	vsli.64		q13,q14,#56
1159	vext.8		q14,q4,q5,#8	@ X[i+9]
1160	veor		q15,q12
1161	vshr.u64	d24,d20,#14		@ from NEON_00_15
1162	vadd.i64	q0,q14
1163	vshr.u64	d25,d20,#18		@ from NEON_00_15
1164	veor		q15,q13				@ sigma0(X[i+1])
1165	vshr.u64	d26,d20,#41		@ from NEON_00_15
1166	vadd.i64	q0,q15
1167	vld1.64		{d28},[r3,:64]!	@ K[i++]
1168	vsli.64		d24,d20,#50
1169	vsli.64		d25,d20,#46
1170	vmov		d29,d20
1171	vsli.64		d26,d20,#23
1172#if 16<16 && defined(__ARMEL__)
1173	vrev64.8	,
1174#endif
1175	veor		d25,d24
1176	vbsl		d29,d21,d22		@ Ch(e,f,g)
1177	vshr.u64	d24,d16,#28
1178	veor		d26,d25			@ Sigma1(e)
1179	vadd.i64	d27,d29,d23
1180	vshr.u64	d25,d16,#34
1181	vsli.64		d24,d16,#36
1182	vadd.i64	d27,d26
1183	vshr.u64	d26,d16,#39
1184	vadd.i64	d28,d0
1185	vsli.64		d25,d16,#30
1186	veor		d30,d16,d17
1187	vsli.64		d26,d16,#25
1188	veor		d23,d24,d25
1189	vadd.i64	d27,d28
1190	vbsl		d30,d18,d17		@ Maj(a,b,c)
1191	veor		d23,d26			@ Sigma0(a)
1192	vadd.i64	d19,d27
1193	vadd.i64	d30,d27
1194	@ vadd.i64	d23,d30
1195	vshr.u64	d24,d19,#14	@ 17
1196#if 17<16
1197	vld1.64		{d1},[r1]!	@ handles unaligned
1198#endif
1199	vshr.u64	d25,d19,#18
1200#if 17>0
1201	 vadd.i64	d23,d30			@ h+=Maj from the past
1202#endif
1203	vshr.u64	d26,d19,#41
1204	vld1.64		{d28},[r3,:64]!	@ K[i++]
1205	vsli.64		d24,d19,#50
1206	vsli.64		d25,d19,#46
1207	vmov		d29,d19
1208	vsli.64		d26,d19,#23
1209#if 17<16 && defined(__ARMEL__)
1210	vrev64.8	,
1211#endif
1212	veor		d25,d24
1213	vbsl		d29,d20,d21		@ Ch(e,f,g)
1214	vshr.u64	d24,d23,#28
1215	veor		d26,d25			@ Sigma1(e)
1216	vadd.i64	d27,d29,d22
1217	vshr.u64	d25,d23,#34
1218	vsli.64		d24,d23,#36
1219	vadd.i64	d27,d26
1220	vshr.u64	d26,d23,#39
1221	vadd.i64	d28,d1
1222	vsli.64		d25,d23,#30
1223	veor		d30,d23,d16
1224	vsli.64		d26,d23,#25
1225	veor		d22,d24,d25
1226	vadd.i64	d27,d28
1227	vbsl		d30,d17,d16		@ Maj(a,b,c)
1228	veor		d22,d26			@ Sigma0(a)
1229	vadd.i64	d18,d27
1230	vadd.i64	d30,d27
1231	@ vadd.i64	d22,d30
1232	vshr.u64	q12,q0,#19
1233	vshr.u64	q13,q0,#61
1234	 vadd.i64	d22,d30			@ h+=Maj from the past
1235	vshr.u64	q15,q0,#6
1236	vsli.64		q12,q0,#45
1237	vext.8		q14,q1,q2,#8	@ X[i+1]
1238	vsli.64		q13,q0,#3
1239	veor		q15,q12
1240	vshr.u64	q12,q14,#1
1241	veor		q15,q13				@ sigma1(X[i+14])
1242	vshr.u64	q13,q14,#8
1243	vadd.i64	q1,q15
1244	vshr.u64	q15,q14,#7
1245	vsli.64		q12,q14,#63
1246	vsli.64		q13,q14,#56
1247	vext.8		q14,q5,q6,#8	@ X[i+9]
1248	veor		q15,q12
1249	vshr.u64	d24,d18,#14		@ from NEON_00_15
1250	vadd.i64	q1,q14
1251	vshr.u64	d25,d18,#18		@ from NEON_00_15
1252	veor		q15,q13				@ sigma0(X[i+1])
1253	vshr.u64	d26,d18,#41		@ from NEON_00_15
1254	vadd.i64	q1,q15
1255	vld1.64		{d28},[r3,:64]!	@ K[i++]
1256	vsli.64		d24,d18,#50
1257	vsli.64		d25,d18,#46
1258	vmov		d29,d18
1259	vsli.64		d26,d18,#23
1260#if 18<16 && defined(__ARMEL__)
1261	vrev64.8	,
1262#endif
1263	veor		d25,d24
1264	vbsl		d29,d19,d20		@ Ch(e,f,g)
1265	vshr.u64	d24,d22,#28
1266	veor		d26,d25			@ Sigma1(e)
1267	vadd.i64	d27,d29,d21
1268	vshr.u64	d25,d22,#34
1269	vsli.64		d24,d22,#36
1270	vadd.i64	d27,d26
1271	vshr.u64	d26,d22,#39
1272	vadd.i64	d28,d2
1273	vsli.64		d25,d22,#30
1274	veor		d30,d22,d23
1275	vsli.64		d26,d22,#25
1276	veor		d21,d24,d25
1277	vadd.i64	d27,d28
1278	vbsl		d30,d16,d23		@ Maj(a,b,c)
1279	veor		d21,d26			@ Sigma0(a)
1280	vadd.i64	d17,d27
1281	vadd.i64	d30,d27
1282	@ vadd.i64	d21,d30
1283	vshr.u64	d24,d17,#14	@ 19
1284#if 19<16
1285	vld1.64		{d3},[r1]!	@ handles unaligned
1286#endif
1287	vshr.u64	d25,d17,#18
1288#if 19>0
1289	 vadd.i64	d21,d30			@ h+=Maj from the past
1290#endif
1291	vshr.u64	d26,d17,#41
1292	vld1.64		{d28},[r3,:64]!	@ K[i++]
1293	vsli.64		d24,d17,#50
1294	vsli.64		d25,d17,#46
1295	vmov		d29,d17
1296	vsli.64		d26,d17,#23
1297#if 19<16 && defined(__ARMEL__)
1298	vrev64.8	,
1299#endif
1300	veor		d25,d24
1301	vbsl		d29,d18,d19		@ Ch(e,f,g)
1302	vshr.u64	d24,d21,#28
1303	veor		d26,d25			@ Sigma1(e)
1304	vadd.i64	d27,d29,d20
1305	vshr.u64	d25,d21,#34
1306	vsli.64		d24,d21,#36
1307	vadd.i64	d27,d26
1308	vshr.u64	d26,d21,#39
1309	vadd.i64	d28,d3
1310	vsli.64		d25,d21,#30
1311	veor		d30,d21,d22
1312	vsli.64		d26,d21,#25
1313	veor		d20,d24,d25
1314	vadd.i64	d27,d28
1315	vbsl		d30,d23,d22		@ Maj(a,b,c)
1316	veor		d20,d26			@ Sigma0(a)
1317	vadd.i64	d16,d27
1318	vadd.i64	d30,d27
1319	@ vadd.i64	d20,d30
1320	vshr.u64	q12,q1,#19
1321	vshr.u64	q13,q1,#61
1322	 vadd.i64	d20,d30			@ h+=Maj from the past
1323	vshr.u64	q15,q1,#6
1324	vsli.64		q12,q1,#45
1325	vext.8		q14,q2,q3,#8	@ X[i+1]
1326	vsli.64		q13,q1,#3
1327	veor		q15,q12
1328	vshr.u64	q12,q14,#1
1329	veor		q15,q13				@ sigma1(X[i+14])
1330	vshr.u64	q13,q14,#8
1331	vadd.i64	q2,q15
1332	vshr.u64	q15,q14,#7
1333	vsli.64		q12,q14,#63
1334	vsli.64		q13,q14,#56
1335	vext.8		q14,q6,q7,#8	@ X[i+9]
1336	veor		q15,q12
1337	vshr.u64	d24,d16,#14		@ from NEON_00_15
1338	vadd.i64	q2,q14
1339	vshr.u64	d25,d16,#18		@ from NEON_00_15
1340	veor		q15,q13				@ sigma0(X[i+1])
1341	vshr.u64	d26,d16,#41		@ from NEON_00_15
1342	vadd.i64	q2,q15
1343	vld1.64		{d28},[r3,:64]!	@ K[i++]
1344	vsli.64		d24,d16,#50
1345	vsli.64		d25,d16,#46
1346	vmov		d29,d16
1347	vsli.64		d26,d16,#23
1348#if 20<16 && defined(__ARMEL__)
1349	vrev64.8	,
1350#endif
1351	veor		d25,d24
1352	vbsl		d29,d17,d18		@ Ch(e,f,g)
1353	vshr.u64	d24,d20,#28
1354	veor		d26,d25			@ Sigma1(e)
1355	vadd.i64	d27,d29,d19
1356	vshr.u64	d25,d20,#34
1357	vsli.64		d24,d20,#36
1358	vadd.i64	d27,d26
1359	vshr.u64	d26,d20,#39
1360	vadd.i64	d28,d4
1361	vsli.64		d25,d20,#30
1362	veor		d30,d20,d21
1363	vsli.64		d26,d20,#25
1364	veor		d19,d24,d25
1365	vadd.i64	d27,d28
1366	vbsl		d30,d22,d21		@ Maj(a,b,c)
1367	veor		d19,d26			@ Sigma0(a)
1368	vadd.i64	d23,d27
1369	vadd.i64	d30,d27
1370	@ vadd.i64	d19,d30
1371	vshr.u64	d24,d23,#14	@ 21
1372#if 21<16
1373	vld1.64		{d5},[r1]!	@ handles unaligned
1374#endif
1375	vshr.u64	d25,d23,#18
1376#if 21>0
1377	 vadd.i64	d19,d30			@ h+=Maj from the past
1378#endif
1379	vshr.u64	d26,d23,#41
1380	vld1.64		{d28},[r3,:64]!	@ K[i++]
1381	vsli.64		d24,d23,#50
1382	vsli.64		d25,d23,#46
1383	vmov		d29,d23
1384	vsli.64		d26,d23,#23
1385#if 21<16 && defined(__ARMEL__)
1386	vrev64.8	,
1387#endif
1388	veor		d25,d24
1389	vbsl		d29,d16,d17		@ Ch(e,f,g)
1390	vshr.u64	d24,d19,#28
1391	veor		d26,d25			@ Sigma1(e)
1392	vadd.i64	d27,d29,d18
1393	vshr.u64	d25,d19,#34
1394	vsli.64		d24,d19,#36
1395	vadd.i64	d27,d26
1396	vshr.u64	d26,d19,#39
1397	vadd.i64	d28,d5
1398	vsli.64		d25,d19,#30
1399	veor		d30,d19,d20
1400	vsli.64		d26,d19,#25
1401	veor		d18,d24,d25
1402	vadd.i64	d27,d28
1403	vbsl		d30,d21,d20		@ Maj(a,b,c)
1404	veor		d18,d26			@ Sigma0(a)
1405	vadd.i64	d22,d27
1406	vadd.i64	d30,d27
1407	@ vadd.i64	d18,d30
1408	vshr.u64	q12,q2,#19
1409	vshr.u64	q13,q2,#61
1410	 vadd.i64	d18,d30			@ h+=Maj from the past
1411	vshr.u64	q15,q2,#6
1412	vsli.64		q12,q2,#45
1413	vext.8		q14,q3,q4,#8	@ X[i+1]
1414	vsli.64		q13,q2,#3
1415	veor		q15,q12
1416	vshr.u64	q12,q14,#1
1417	veor		q15,q13				@ sigma1(X[i+14])
1418	vshr.u64	q13,q14,#8
1419	vadd.i64	q3,q15
1420	vshr.u64	q15,q14,#7
1421	vsli.64		q12,q14,#63
1422	vsli.64		q13,q14,#56
1423	vext.8		q14,q7,q0,#8	@ X[i+9]
1424	veor		q15,q12
1425	vshr.u64	d24,d22,#14		@ from NEON_00_15
1426	vadd.i64	q3,q14
1427	vshr.u64	d25,d22,#18		@ from NEON_00_15
1428	veor		q15,q13				@ sigma0(X[i+1])
1429	vshr.u64	d26,d22,#41		@ from NEON_00_15
1430	vadd.i64	q3,q15
1431	vld1.64		{d28},[r3,:64]!	@ K[i++]
1432	vsli.64		d24,d22,#50
1433	vsli.64		d25,d22,#46
1434	vmov		d29,d22
1435	vsli.64		d26,d22,#23
1436#if 22<16 && defined(__ARMEL__)
1437	vrev64.8	,
1438#endif
1439	veor		d25,d24
1440	vbsl		d29,d23,d16		@ Ch(e,f,g)
1441	vshr.u64	d24,d18,#28
1442	veor		d26,d25			@ Sigma1(e)
1443	vadd.i64	d27,d29,d17
1444	vshr.u64	d25,d18,#34
1445	vsli.64		d24,d18,#36
1446	vadd.i64	d27,d26
1447	vshr.u64	d26,d18,#39
1448	vadd.i64	d28,d6
1449	vsli.64		d25,d18,#30
1450	veor		d30,d18,d19
1451	vsli.64		d26,d18,#25
1452	veor		d17,d24,d25
1453	vadd.i64	d27,d28
1454	vbsl		d30,d20,d19		@ Maj(a,b,c)
1455	veor		d17,d26			@ Sigma0(a)
1456	vadd.i64	d21,d27
1457	vadd.i64	d30,d27
1458	@ vadd.i64	d17,d30
1459	vshr.u64	d24,d21,#14	@ 23
1460#if 23<16
1461	vld1.64		{d7},[r1]!	@ handles unaligned
1462#endif
1463	vshr.u64	d25,d21,#18
1464#if 23>0
1465	 vadd.i64	d17,d30			@ h+=Maj from the past
1466#endif
1467	vshr.u64	d26,d21,#41
1468	vld1.64		{d28},[r3,:64]!	@ K[i++]
1469	vsli.64		d24,d21,#50
1470	vsli.64		d25,d21,#46
1471	vmov		d29,d21
1472	vsli.64		d26,d21,#23
1473#if 23<16 && defined(__ARMEL__)
1474	vrev64.8	,
1475#endif
1476	veor		d25,d24
1477	vbsl		d29,d22,d23		@ Ch(e,f,g)
1478	vshr.u64	d24,d17,#28
1479	veor		d26,d25			@ Sigma1(e)
1480	vadd.i64	d27,d29,d16
1481	vshr.u64	d25,d17,#34
1482	vsli.64		d24,d17,#36
1483	vadd.i64	d27,d26
1484	vshr.u64	d26,d17,#39
1485	vadd.i64	d28,d7
1486	vsli.64		d25,d17,#30
1487	veor		d30,d17,d18
1488	vsli.64		d26,d17,#25
1489	veor		d16,d24,d25
1490	vadd.i64	d27,d28
1491	vbsl		d30,d19,d18		@ Maj(a,b,c)
1492	veor		d16,d26			@ Sigma0(a)
1493	vadd.i64	d20,d27
1494	vadd.i64	d30,d27
1495	@ vadd.i64	d16,d30
1496	vshr.u64	q12,q3,#19
1497	vshr.u64	q13,q3,#61
1498	 vadd.i64	d16,d30			@ h+=Maj from the past
1499	vshr.u64	q15,q3,#6
1500	vsli.64		q12,q3,#45
1501	vext.8		q14,q4,q5,#8	@ X[i+1]
1502	vsli.64		q13,q3,#3
1503	veor		q15,q12
1504	vshr.u64	q12,q14,#1
1505	veor		q15,q13				@ sigma1(X[i+14])
1506	vshr.u64	q13,q14,#8
1507	vadd.i64	q4,q15
1508	vshr.u64	q15,q14,#7
1509	vsli.64		q12,q14,#63
1510	vsli.64		q13,q14,#56
1511	vext.8		q14,q0,q1,#8	@ X[i+9]
1512	veor		q15,q12
1513	vshr.u64	d24,d20,#14		@ from NEON_00_15
1514	vadd.i64	q4,q14
1515	vshr.u64	d25,d20,#18		@ from NEON_00_15
1516	veor		q15,q13				@ sigma0(X[i+1])
1517	vshr.u64	d26,d20,#41		@ from NEON_00_15
1518	vadd.i64	q4,q15
1519	vld1.64		{d28},[r3,:64]!	@ K[i++]
1520	vsli.64		d24,d20,#50
1521	vsli.64		d25,d20,#46
1522	vmov		d29,d20
1523	vsli.64		d26,d20,#23
1524#if 24<16 && defined(__ARMEL__)
1525	vrev64.8	,
1526#endif
1527	veor		d25,d24
1528	vbsl		d29,d21,d22		@ Ch(e,f,g)
1529	vshr.u64	d24,d16,#28
1530	veor		d26,d25			@ Sigma1(e)
1531	vadd.i64	d27,d29,d23
1532	vshr.u64	d25,d16,#34
1533	vsli.64		d24,d16,#36
1534	vadd.i64	d27,d26
1535	vshr.u64	d26,d16,#39
1536	vadd.i64	d28,d8
1537	vsli.64		d25,d16,#30
1538	veor		d30,d16,d17
1539	vsli.64		d26,d16,#25
1540	veor		d23,d24,d25
1541	vadd.i64	d27,d28
1542	vbsl		d30,d18,d17		@ Maj(a,b,c)
1543	veor		d23,d26			@ Sigma0(a)
1544	vadd.i64	d19,d27
1545	vadd.i64	d30,d27
1546	@ vadd.i64	d23,d30
1547	vshr.u64	d24,d19,#14	@ 25
1548#if 25<16
1549	vld1.64		{d9},[r1]!	@ handles unaligned
1550#endif
1551	vshr.u64	d25,d19,#18
1552#if 25>0
1553	 vadd.i64	d23,d30			@ h+=Maj from the past
1554#endif
1555	vshr.u64	d26,d19,#41
1556	vld1.64		{d28},[r3,:64]!	@ K[i++]
1557	vsli.64		d24,d19,#50
1558	vsli.64		d25,d19,#46
1559	vmov		d29,d19
1560	vsli.64		d26,d19,#23
1561#if 25<16 && defined(__ARMEL__)
1562	vrev64.8	,
1563#endif
1564	veor		d25,d24
1565	vbsl		d29,d20,d21		@ Ch(e,f,g)
1566	vshr.u64	d24,d23,#28
1567	veor		d26,d25			@ Sigma1(e)
1568	vadd.i64	d27,d29,d22
1569	vshr.u64	d25,d23,#34
1570	vsli.64		d24,d23,#36
1571	vadd.i64	d27,d26
1572	vshr.u64	d26,d23,#39
1573	vadd.i64	d28,d9
1574	vsli.64		d25,d23,#30
1575	veor		d30,d23,d16
1576	vsli.64		d26,d23,#25
1577	veor		d22,d24,d25
1578	vadd.i64	d27,d28
1579	vbsl		d30,d17,d16		@ Maj(a,b,c)
1580	veor		d22,d26			@ Sigma0(a)
1581	vadd.i64	d18,d27
1582	vadd.i64	d30,d27
1583	@ vadd.i64	d22,d30
1584	vshr.u64	q12,q4,#19
1585	vshr.u64	q13,q4,#61
1586	 vadd.i64	d22,d30			@ h+=Maj from the past
1587	vshr.u64	q15,q4,#6
1588	vsli.64		q12,q4,#45
1589	vext.8		q14,q5,q6,#8	@ X[i+1]
1590	vsli.64		q13,q4,#3
1591	veor		q15,q12
1592	vshr.u64	q12,q14,#1
1593	veor		q15,q13				@ sigma1(X[i+14])
1594	vshr.u64	q13,q14,#8
1595	vadd.i64	q5,q15
1596	vshr.u64	q15,q14,#7
1597	vsli.64		q12,q14,#63
1598	vsli.64		q13,q14,#56
1599	vext.8		q14,q1,q2,#8	@ X[i+9]
1600	veor		q15,q12
1601	vshr.u64	d24,d18,#14		@ from NEON_00_15
1602	vadd.i64	q5,q14
1603	vshr.u64	d25,d18,#18		@ from NEON_00_15
1604	veor		q15,q13				@ sigma0(X[i+1])
1605	vshr.u64	d26,d18,#41		@ from NEON_00_15
1606	vadd.i64	q5,q15
1607	vld1.64		{d28},[r3,:64]!	@ K[i++]
1608	vsli.64		d24,d18,#50
1609	vsli.64		d25,d18,#46
1610	vmov		d29,d18
1611	vsli.64		d26,d18,#23
1612#if 26<16 && defined(__ARMEL__)
1613	vrev64.8	,
1614#endif
1615	veor		d25,d24
1616	vbsl		d29,d19,d20		@ Ch(e,f,g)
1617	vshr.u64	d24,d22,#28
1618	veor		d26,d25			@ Sigma1(e)
1619	vadd.i64	d27,d29,d21
1620	vshr.u64	d25,d22,#34
1621	vsli.64		d24,d22,#36
1622	vadd.i64	d27,d26
1623	vshr.u64	d26,d22,#39
1624	vadd.i64	d28,d10
1625	vsli.64		d25,d22,#30
1626	veor		d30,d22,d23
1627	vsli.64		d26,d22,#25
1628	veor		d21,d24,d25
1629	vadd.i64	d27,d28
1630	vbsl		d30,d16,d23		@ Maj(a,b,c)
1631	veor		d21,d26			@ Sigma0(a)
1632	vadd.i64	d17,d27
1633	vadd.i64	d30,d27
1634	@ vadd.i64	d21,d30
1635	vshr.u64	d24,d17,#14	@ 27
1636#if 27<16
1637	vld1.64		{d11},[r1]!	@ handles unaligned
1638#endif
1639	vshr.u64	d25,d17,#18
1640#if 27>0
1641	 vadd.i64	d21,d30			@ h+=Maj from the past
1642#endif
1643	vshr.u64	d26,d17,#41
1644	vld1.64		{d28},[r3,:64]!	@ K[i++]
1645	vsli.64		d24,d17,#50
1646	vsli.64		d25,d17,#46
1647	vmov		d29,d17
1648	vsli.64		d26,d17,#23
1649#if 27<16 && defined(__ARMEL__)
1650	vrev64.8	,
1651#endif
1652	veor		d25,d24
1653	vbsl		d29,d18,d19		@ Ch(e,f,g)
1654	vshr.u64	d24,d21,#28
1655	veor		d26,d25			@ Sigma1(e)
1656	vadd.i64	d27,d29,d20
1657	vshr.u64	d25,d21,#34
1658	vsli.64		d24,d21,#36
1659	vadd.i64	d27,d26
1660	vshr.u64	d26,d21,#39
1661	vadd.i64	d28,d11
1662	vsli.64		d25,d21,#30
1663	veor		d30,d21,d22
1664	vsli.64		d26,d21,#25
1665	veor		d20,d24,d25
1666	vadd.i64	d27,d28
1667	vbsl		d30,d23,d22		@ Maj(a,b,c)
1668	veor		d20,d26			@ Sigma0(a)
1669	vadd.i64	d16,d27
1670	vadd.i64	d30,d27
1671	@ vadd.i64	d20,d30
1672	vshr.u64	q12,q5,#19
1673	vshr.u64	q13,q5,#61
1674	 vadd.i64	d20,d30			@ h+=Maj from the past
1675	vshr.u64	q15,q5,#6
1676	vsli.64		q12,q5,#45
1677	vext.8		q14,q6,q7,#8	@ X[i+1]
1678	vsli.64		q13,q5,#3
1679	veor		q15,q12
1680	vshr.u64	q12,q14,#1
1681	veor		q15,q13				@ sigma1(X[i+14])
1682	vshr.u64	q13,q14,#8
1683	vadd.i64	q6,q15
1684	vshr.u64	q15,q14,#7
1685	vsli.64		q12,q14,#63
1686	vsli.64		q13,q14,#56
1687	vext.8		q14,q2,q3,#8	@ X[i+9]
1688	veor		q15,q12
1689	vshr.u64	d24,d16,#14		@ from NEON_00_15
1690	vadd.i64	q6,q14
1691	vshr.u64	d25,d16,#18		@ from NEON_00_15
1692	veor		q15,q13				@ sigma0(X[i+1])
1693	vshr.u64	d26,d16,#41		@ from NEON_00_15
1694	vadd.i64	q6,q15
1695	vld1.64		{d28},[r3,:64]!	@ K[i++]
1696	vsli.64		d24,d16,#50
1697	vsli.64		d25,d16,#46
1698	vmov		d29,d16
1699	vsli.64		d26,d16,#23
1700#if 28<16 && defined(__ARMEL__)
1701	vrev64.8	,
1702#endif
1703	veor		d25,d24
1704	vbsl		d29,d17,d18		@ Ch(e,f,g)
1705	vshr.u64	d24,d20,#28
1706	veor		d26,d25			@ Sigma1(e)
1707	vadd.i64	d27,d29,d19
1708	vshr.u64	d25,d20,#34
1709	vsli.64		d24,d20,#36
1710	vadd.i64	d27,d26
1711	vshr.u64	d26,d20,#39
1712	vadd.i64	d28,d12
1713	vsli.64		d25,d20,#30
1714	veor		d30,d20,d21
1715	vsli.64		d26,d20,#25
1716	veor		d19,d24,d25
1717	vadd.i64	d27,d28
1718	vbsl		d30,d22,d21		@ Maj(a,b,c)
1719	veor		d19,d26			@ Sigma0(a)
1720	vadd.i64	d23,d27
1721	vadd.i64	d30,d27
1722	@ vadd.i64	d19,d30
1723	vshr.u64	d24,d23,#14	@ 29
1724#if 29<16
1725	vld1.64		{d13},[r1]!	@ handles unaligned
1726#endif
1727	vshr.u64	d25,d23,#18
1728#if 29>0
1729	 vadd.i64	d19,d30			@ h+=Maj from the past
1730#endif
1731	vshr.u64	d26,d23,#41
1732	vld1.64		{d28},[r3,:64]!	@ K[i++]
1733	vsli.64		d24,d23,#50
1734	vsli.64		d25,d23,#46
1735	vmov		d29,d23
1736	vsli.64		d26,d23,#23
1737#if 29<16 && defined(__ARMEL__)
1738	vrev64.8	,
1739#endif
1740	veor		d25,d24
1741	vbsl		d29,d16,d17		@ Ch(e,f,g)
1742	vshr.u64	d24,d19,#28
1743	veor		d26,d25			@ Sigma1(e)
1744	vadd.i64	d27,d29,d18
1745	vshr.u64	d25,d19,#34
1746	vsli.64		d24,d19,#36
1747	vadd.i64	d27,d26
1748	vshr.u64	d26,d19,#39
1749	vadd.i64	d28,d13
1750	vsli.64		d25,d19,#30
1751	veor		d30,d19,d20
1752	vsli.64		d26,d19,#25
1753	veor		d18,d24,d25
1754	vadd.i64	d27,d28
1755	vbsl		d30,d21,d20		@ Maj(a,b,c)
1756	veor		d18,d26			@ Sigma0(a)
1757	vadd.i64	d22,d27
1758	vadd.i64	d30,d27
1759	@ vadd.i64	d18,d30
1760	vshr.u64	q12,q6,#19
1761	vshr.u64	q13,q6,#61
1762	 vadd.i64	d18,d30			@ h+=Maj from the past
1763	vshr.u64	q15,q6,#6
1764	vsli.64		q12,q6,#45
1765	vext.8		q14,q7,q0,#8	@ X[i+1]
1766	vsli.64		q13,q6,#3
1767	veor		q15,q12
1768	vshr.u64	q12,q14,#1
1769	veor		q15,q13				@ sigma1(X[i+14])
1770	vshr.u64	q13,q14,#8
1771	vadd.i64	q7,q15
1772	vshr.u64	q15,q14,#7
1773	vsli.64		q12,q14,#63
1774	vsli.64		q13,q14,#56
1775	vext.8		q14,q3,q4,#8	@ X[i+9]
1776	veor		q15,q12
1777	vshr.u64	d24,d22,#14		@ from NEON_00_15
1778	vadd.i64	q7,q14
1779	vshr.u64	d25,d22,#18		@ from NEON_00_15
1780	veor		q15,q13				@ sigma0(X[i+1])
1781	vshr.u64	d26,d22,#41		@ from NEON_00_15
1782	vadd.i64	q7,q15
1783	vld1.64		{d28},[r3,:64]!	@ K[i++]
1784	vsli.64		d24,d22,#50
1785	vsli.64		d25,d22,#46
1786	vmov		d29,d22
1787	vsli.64		d26,d22,#23
1788#if 30<16 && defined(__ARMEL__)
1789	vrev64.8	,
1790#endif
1791	veor		d25,d24
1792	vbsl		d29,d23,d16		@ Ch(e,f,g)
1793	vshr.u64	d24,d18,#28
1794	veor		d26,d25			@ Sigma1(e)
1795	vadd.i64	d27,d29,d17
1796	vshr.u64	d25,d18,#34
1797	vsli.64		d24,d18,#36
1798	vadd.i64	d27,d26
1799	vshr.u64	d26,d18,#39
1800	vadd.i64	d28,d14
1801	vsli.64		d25,d18,#30
1802	veor		d30,d18,d19
1803	vsli.64		d26,d18,#25
1804	veor		d17,d24,d25
1805	vadd.i64	d27,d28
1806	vbsl		d30,d20,d19		@ Maj(a,b,c)
1807	veor		d17,d26			@ Sigma0(a)
1808	vadd.i64	d21,d27
1809	vadd.i64	d30,d27
1810	@ vadd.i64	d17,d30
1811	vshr.u64	d24,d21,#14	@ 31
1812#if 31<16
1813	vld1.64		{d15},[r1]!	@ handles unaligned
1814#endif
1815	vshr.u64	d25,d21,#18
1816#if 31>0
1817	 vadd.i64	d17,d30			@ h+=Maj from the past
1818#endif
1819	vshr.u64	d26,d21,#41
1820	vld1.64		{d28},[r3,:64]!	@ K[i++]
1821	vsli.64		d24,d21,#50
1822	vsli.64		d25,d21,#46
1823	vmov		d29,d21
1824	vsli.64		d26,d21,#23
1825#if 31<16 && defined(__ARMEL__)
1826	vrev64.8	,
1827#endif
1828	veor		d25,d24
1829	vbsl		d29,d22,d23		@ Ch(e,f,g)
1830	vshr.u64	d24,d17,#28
1831	veor		d26,d25			@ Sigma1(e)
1832	vadd.i64	d27,d29,d16
1833	vshr.u64	d25,d17,#34
1834	vsli.64		d24,d17,#36
1835	vadd.i64	d27,d26
1836	vshr.u64	d26,d17,#39
1837	vadd.i64	d28,d15
1838	vsli.64		d25,d17,#30
1839	veor		d30,d17,d18
1840	vsli.64		d26,d17,#25
1841	veor		d16,d24,d25
1842	vadd.i64	d27,d28
1843	vbsl		d30,d19,d18		@ Maj(a,b,c)
1844	veor		d16,d26			@ Sigma0(a)
1845	vadd.i64	d20,d27
1846	vadd.i64	d30,d27
1847	@ vadd.i64	d16,d30
1848	bne		.L16_79_neon
1849
1850	 vadd.i64	d16,d30		@ h+=Maj from the past
1851	vldmia		r0,{d24-d31}	@ load context to temp
1852	vadd.i64	q8,q12		@ vectorized accumulate
1853	vadd.i64	q9,q13
1854	vadd.i64	q10,q14
1855	vadd.i64	q11,q15
1856	vstmia		r0,{d16-d23}	@ save context
1857	teq		r1,r2
1858	sub		r3,#640	@ rewind K512
1859	bne		.Loop_neon
1860
1861	VFP_ABI_POP
1862	bx	lr				@ .word	0xe12fff1e
1863.size	sha512_block_data_order_neon,.-sha512_block_data_order_neon
1864#endif
1865.asciz	"SHA512 block transform for ARMv4/NEON, CRYPTOGAMS by <appro@openssl.org>"
1866.align	2
1867#if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
1868.comm	OPENSSL_armcap_P,4,4
1869#endif
Configure Feed

Configure Feed