From ce3139bc557ffbbf26e6b23c539db17881d7cd99 Mon Sep 17 00:00:00 2001 From: "Matthias J. Kannwischer" Date: Fri, 26 Jul 2024 17:24:50 +0800 Subject: [PATCH] armv9 platform + ntt-sve2 test --- Makefile | 1 + envs/cross-v9a/Makefile | 3 + envs/cross-v9a/inc/hal_env.h | 9 + envs/cross-v9a/src/hal.c | 172 ++ tests/common/misc.c | 5 + tests/common/misc.h | 8 +- tests/{ntt_sve2 => ntt-sve2}/main.c | 0 tests/ntt-sve2/ntt-sve2.mk | 20 + tests/{ntt_sve2 => ntt-sve2}/ntt.c | 0 tests/{ntt_sve2 => ntt-sve2}/ntt.h | 0 ...2_incomplete_33556993_28678040_var_3_3_0.s | 1475 --------- ...594067788289_60277548896192635_var_3_3_0.s | 2727 ----------------- ...594067788289_60277548896192635_var_3_3_1.s | 2727 ----------------- ...594067788289_60277548896192635_var_3_3_2.s | 2727 ----------------- .../manual/basemul_64_72057594067788289.s | 105 - tests/ntt_sve2/misc.c | 143 - tests/ntt_sve2/misc.h | 108 - 17 files changed, 217 insertions(+), 10013 deletions(-) create mode 100644 envs/cross-v9a/Makefile create mode 100644 envs/cross-v9a/inc/hal_env.h create mode 100644 envs/cross-v9a/src/hal.c rename tests/{ntt_sve2 => ntt-sve2}/main.c (100%) create mode 100644 tests/ntt-sve2/ntt-sve2.mk rename tests/{ntt_sve2 => ntt-sve2}/ntt.c (100%) rename tests/{ntt_sve2 => ntt-sve2}/ntt.h (100%) delete mode 100644 tests/ntt_sve2/auto/ntt_u32_incomplete_33556993_28678040_var_3_3_0.s delete mode 100644 tests/ntt_sve2/auto/ntt_u64_incomplete_72057594067788289_60277548896192635_var_3_3_0.s delete mode 100644 tests/ntt_sve2/auto/ntt_u64_incomplete_72057594067788289_60277548896192635_var_3_3_1.s delete mode 100644 tests/ntt_sve2/auto/ntt_u64_incomplete_72057594067788289_60277548896192635_var_3_3_2.s delete mode 100644 tests/ntt_sve2/manual/basemul_64_72057594067788289.s delete mode 100755 tests/ntt_sve2/misc.c delete mode 100755 tests/ntt_sve2/misc.h diff --git a/Makefile b/Makefile index a5988f2..4d27dc4 100644 --- a/Makefile +++ b/Makefile @@ -4,6 +4,7 @@ include tests/keccak-neon/keccak-neon.mk include tests/ntt-dilithium/ntt-dilithium.mk include tests/ntt-kyber/ntt-kyber.mk include tests/ntt-neon/ntt-neon.mk +include tests/ntt-sve2/ntt-sve2.mk testname = $(shell echo $(1) | tr '[a-z]' '[A-Z]' | tr '-' '_' | tr '/' '_') testdir = $(addprefix $(2),tests/$(firstword $(subst /, ,$1))/) diff --git a/envs/cross-v9a/Makefile b/envs/cross-v9a/Makefile new file mode 100644 index 0000000..43448b5 --- /dev/null +++ b/envs/cross-v9a/Makefile @@ -0,0 +1,3 @@ +CFLAGS += -march=armv9-a + +include ../common/cross.mk \ No newline at end of file diff --git a/envs/cross-v9a/inc/hal_env.h b/envs/cross-v9a/inc/hal_env.h new file mode 100644 index 0000000..e8dd570 --- /dev/null +++ b/envs/cross-v9a/inc/hal_env.h @@ -0,0 +1,9 @@ +#ifndef QEMU_V8A_HAL_ENV_H +#define QEMU_V8A_HAL_ENV_H + +#define SEP ; + +#define ASM_LOAD(dst,symbol) \ + adrp dst, symbol ; add dst, dst, :lo12:symbol; + +#endif diff --git a/envs/cross-v9a/src/hal.c b/envs/cross-v9a/src/hal.c new file mode 100644 index 0000000..e42ab50 --- /dev/null +++ b/envs/cross-v9a/src/hal.c @@ -0,0 +1,172 @@ +/* + * Copyright (c) 2022 Arm Limited + * SPDX-License-Identifier: MIT + * + * Permission is hereby granted, free of charge, to any person obtaining a copy + * of this software and associated documentation files (the "Software"), to deal + * in the Software without restriction, including without limitation the rights + * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell + * copies of the Software, and to permit persons to whom the Software is + * furnished to do so, subject to the following conditions: + * + * The above copyright notice and this permission notice shall be included in all + * copies or substantial portions of the Software. + * + * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR + * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, + * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE + * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER + * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, + * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE + * SOFTWARE. + * + */ + +#include + +/* Dependency on standard library: + * - rand(), srand() + * - time() + * - printf() + * - fflush() + */ +#include +#include +#include +#include + +#define FILENO stderr + +void rand_init( unsigned long seed ) +{ + ((void) seed); + srand(time(NULL)); +} + +uint8_t get_random_byte() +{ + return( rand() ); +} + +/* Debugging stubs */ + +void debug_test_start( const char *testname ) +{ + fprintf( FILENO, "%s ... ", testname ); + fflush( FILENO ); +} + +void debug_printf(const char * format, ... ) +{ + va_list argp; + va_start( argp, format ); + vfprintf( FILENO, format, argp ); + va_end( argp ); +} + +void debug_test_ok() { printf( "Ok\n" ); } +void debug_test_fail() { printf( "FAIL!\n" ); } + + +#if !defined(EXTERNAL_CYCLES) && !defined(PERF_CYCLES) && !defined(PMU_CYCLES) && !defined(NO_CYCLES) +#define NO_CYCLES +#endif + +#if defined(PMU_CYCLES) +void enable_cyclecounter() { + uint64_t tmp; + __asm __volatile ( + "mrs %[tmp], pmcr_el0\n" + "orr %[tmp], %[tmp], #1\n" + "msr pmcr_el0, %[tmp]\n" + "mrs %[tmp], pmcntenset_el0\n" + "orr %[tmp], %[tmp], #1<<31\n" + "msr pmcntenset_el0, %[tmp]\n" + : [tmp] "=r" (tmp) + ); +} + +void disable_cyclecounter() { + uint64_t tmp; + __asm __volatile ( + "mov %[tmp], #0x3f\n" + "orr %[tmp], %[tmp], #1<<31\n" + "msr pmcntenclr_el0, %[tmp]\n" + : [tmp] "=r" (tmp) + ); +} + +uint64_t get_cyclecounter() { + uint64_t retval; + __asm __volatile ( + "mrs %[retval], pmccntr_el0\n" + : [retval] "=r" (retval)); + return retval; +} + +#elif defined(PERF_CYCLES) + +#include +#include +#include +#include +#include +#include +#include +#include + +static int perf_fd = 0; +void enable_cyclecounter() { + struct perf_event_attr pe; + memset(&pe, 0, sizeof(struct perf_event_attr)); + pe.type = PERF_TYPE_HARDWARE; + pe.size = sizeof(struct perf_event_attr); + pe.config = PERF_COUNT_HW_CPU_CYCLES; + pe.disabled = 1; + pe.exclude_kernel = 1; + pe.exclude_hv = 1; + + perf_fd = syscall(__NR_perf_event_open, &pe, 0, -1, -1, 0); + + ioctl(perf_fd, PERF_EVENT_IOC_RESET, 0); + ioctl(perf_fd, PERF_EVENT_IOC_ENABLE, 0); +} + +void disable_cyclecounter() { + ioctl(perf_fd, PERF_EVENT_IOC_DISABLE, 0); + close(perf_fd); +} + +uint64_t get_cyclecounter() { + long long cpu_cycles; + ioctl(perf_fd, PERF_EVENT_IOC_DISABLE, 0); + ssize_t read_count = read(perf_fd, &cpu_cycles, sizeof(cpu_cycles)); + if (read_count < 0) { + perror("read"); + exit(EXIT_FAILURE); + } else if (read_count == 0) { + /* Should not happen */ + printf("perf counter empty\n"); + exit(EXIT_FAILURE); + } + ioctl(perf_fd, PERF_EVENT_IOC_ENABLE, 0); + return cpu_cycles; +} + +#elif defined(EXTERNAL_CYCLES) + +// nothing to do + +#else /* NO_CYCLES */ + +void enable_cyclecounter() { + return; +} +void disable_cyclecounter() { + return; +} +uint64_t get_cyclecounter() { + return(0); +} + +#endif /* NO_CYCLES */ diff --git a/tests/common/misc.c b/tests/common/misc.c index 9064fc6..7c2aa89 100644 --- a/tests/common/misc.c +++ b/tests/common/misc.c @@ -40,6 +40,7 @@ GEN_FILL_RANDOM(8) GEN_FILL_RANDOM(16) GEN_FILL_RANDOM(32) + GEN_FILL_RANDOM(64) #undef GEN_FILL_RANDOM #define GEN_COPY( bits ) \ @@ -52,6 +53,7 @@ GEN_COPY(8) GEN_COPY(16) GEN_COPY(32) + GEN_COPY(64) #undef GEN_COPY #define GEN_COMPARE_BUF( bits ) \ @@ -67,6 +69,7 @@ GEN_COMPARE_BUF(8) GEN_COMPARE_BUF(16) GEN_COMPARE_BUF(32) + GEN_COMPARE_BUF(64) #undef GEN_COMPARE_BUF #define GEN_PRINT_BUF( bits ) \ @@ -86,6 +89,7 @@ GEN_PRINT_BUF(8) GEN_PRINT_BUF(16) GEN_PRINT_BUF(32) + GEN_PRINT_BUF(64) #undef GEN_PRINT_BUF #define GEN_PRINT_BUF_S( bits ) \ @@ -105,6 +109,7 @@ GEN_PRINT_BUF_S(8) GEN_PRINT_BUF_S(16) GEN_PRINT_BUF_S(32) +GEN_PRINT_BUF_S(64) #undef GEN_PRINT_BUF_S /* Helper to transpose buffers in case this is needed for input preparation. */ diff --git a/tests/common/misc.h b/tests/common/misc.h index df6cf50..55ca882 100644 --- a/tests/common/misc.h +++ b/tests/common/misc.h @@ -66,11 +66,13 @@ void fill_random_u8 ( uint8_t *buf, unsigned len ); void fill_random_u16( uint16_t *buf, unsigned len ); void fill_random_u32( uint32_t *buf, unsigned len ); +void fill_random_u64( uint64_t *buf, unsigned len ); /* Copy buffers */ void copy_buf_u8 ( uint8_t *dst, uint8_t const *src, unsigned len ); void copy_buf_u16( uint16_t *dst, uint16_t const *src, unsigned len ); void copy_buf_u32( uint32_t *dst, uint32_t const *src, unsigned len ); +void copy_buf_u64( uint64_t *dst, uint64_t const *src, unsigned len ); /* Compare buffers * Same semantics as memcmp(), but we want to rely on stdlib @@ -78,6 +80,7 @@ void copy_buf_u32( uint32_t *dst, uint32_t const *src, unsigned len ); int compare_buf_u8 ( uint8_t const *src_a, uint8_t const *src_b, unsigned len ); int compare_buf_u16( uint16_t const *src_a, uint16_t const *src_b, unsigned len ); int compare_buf_u32( uint32_t const *src_a, uint32_t const *src_b, unsigned len ); +int compare_buf_u64( uint64_t const *src_a, uint64_t const *src_b, unsigned len ); static inline int compare_buf_s8( int8_t const *src_a, int8_t const *src_b, @@ -109,9 +112,11 @@ static inline int compare_buf_s32( int32_t const *src_a, void debug_print_buf_u8 ( uint8_t const *buf, unsigned entries, const char *prefix ); void debug_print_buf_u16( uint16_t const *buf, unsigned entries, const char *prefix ); void debug_print_buf_u32( uint32_t const *buf, unsigned entries, const char *prefix ); +void debug_print_buf_u64( uint64_t const *buf, unsigned entries, const char *prefix ); void debug_print_buf_s8 ( int8_t const *buf, unsigned entries, const char *prefix ); void debug_print_buf_s16( int16_t const *buf, unsigned entries, const char *prefix ); void debug_print_buf_s32( int32_t const *buf, unsigned entries, const char *prefix ); +void debug_print_buf_s64( int64_t const *buf, unsigned entries, const char *prefix ); /* Transpose buffers */ void buffer_transpose_u8 ( uint8_t *dst, uint8_t const *src, @@ -120,7 +125,8 @@ void buffer_transpose_u16( uint16_t *dst, uint16_t const *src, unsigned block_length, unsigned dim_x, unsigned dim_y ); void buffer_transpose_u32( uint32_t *dst, uint32_t const *src, unsigned block_length, unsigned dim_x, unsigned dim_y ); - +void buffer_transpose_u64( uint64_t *dst, uint64_t const *src, + unsigned block_length, unsigned dim_x, unsigned dim_y ); #define ALIGN(x) __attribute__((aligned(x))) #endif /* MVE_POLY_ARITHMETIC_TESTS_MISC */ diff --git a/tests/ntt_sve2/main.c b/tests/ntt-sve2/main.c similarity index 100% rename from tests/ntt_sve2/main.c rename to tests/ntt-sve2/main.c diff --git a/tests/ntt-sve2/ntt-sve2.mk b/tests/ntt-sve2/ntt-sve2.mk new file mode 100644 index 0000000..15cec9e --- /dev/null +++ b/tests/ntt-sve2/ntt-sve2.mk @@ -0,0 +1,20 @@ +# Test name - needs to match the directory name +TESTS += ntt-sve2 + +# All further variables must be prefixed with the capitalized test name + +# Platforms this test should run on (matching the directory name in envs/) +NTT_SVE2_PLATFORMS += cross-v9a + +# C sources required for this test +NTT_SVE2_SOURCES += main.c +NTT_SVE2_SOURCES += ntt.c + +# Assembly sources required for this test +NTT_SVE2_ASMS += ../../asm/manual/basemul_s64/basemul_64_72057594067788289.s + +NTT_SVE2_ASMDIR = ../../asm/auto/ntt_sve2 +NTT_SVE2_ASMS += $(NTT_SVE2_ASMDIR)/ntt_u32_incomplete_33556993_28678040_var_3_3_0.s +NTT_SVE2_ASMS += $(NTT_SVE2_ASMDIR)/ntt_u64_incomplete_72057594067788289_60277548896192635_var_3_3_0.s +NTT_SVE2_ASMS += $(NTT_SVE2_ASMDIR)/ntt_u64_incomplete_72057594067788289_60277548896192635_var_3_3_1.s +NTT_SVE2_ASMS += $(NTT_SVE2_ASMDIR)/ntt_u64_incomplete_72057594067788289_60277548896192635_var_3_3_2.s \ No newline at end of file diff --git a/tests/ntt_sve2/ntt.c b/tests/ntt-sve2/ntt.c similarity index 100% rename from tests/ntt_sve2/ntt.c rename to tests/ntt-sve2/ntt.c diff --git a/tests/ntt_sve2/ntt.h b/tests/ntt-sve2/ntt.h similarity index 100% rename from tests/ntt_sve2/ntt.h rename to tests/ntt-sve2/ntt.h diff --git a/tests/ntt_sve2/auto/ntt_u32_incomplete_33556993_28678040_var_3_3_0.s b/tests/ntt_sve2/auto/ntt_u32_incomplete_33556993_28678040_var_3_3_0.s deleted file mode 100644 index 1a3b890..0000000 --- a/tests/ntt_sve2/auto/ntt_u32_incomplete_33556993_28678040_var_3_3_0.s +++ /dev/null @@ -1,1475 +0,0 @@ - -/// -/// Copyright (c) 2021 Arm Limited -/// SPDX-License-Identifier: MIT -/// -/// Permission is hereby granted, free of charge, to any person obtaining a copy -/// of this software and associated documentation files (the "Software"), to deal -/// in the Software without restriction, including without limitation the rights -/// to use, copy, modify, merge, publish, distribute, sublicense, and/or sell -/// copies of the Software, and to permit persons to whom the Software is -/// furnished to do so, subject to the following conditions: -/// -/// The above copyright notice and this permission notice shall be included in all -/// copies or substantial portions of the Software. -/// -/// THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR -/// IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, -/// FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE -/// AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER -/// LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, -/// OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE -/// SOFTWARE - - -/// -/// This assembly code has been auto-generated. -/// Don't modify it directly. -/// - -modulus: -.word -33556993 -.word -33556993 -.word -33556993 -.word -33556993 -.align 6 -roots_merged: -.word 17702291 // Layer 0, block 0 -.word 3260327 // Layer 1, block 0 -.word 14579576 // Layer 1, block 1 -.word 0 // Layer None, block None -.word 1132860160 // Layer 0, block 0 -.word 208645003 // Layer 1, block 0 -.word 933021652 // Layer 1, block 1 -.word 0 // Layer None, block None -.word 6733847 // Layer 2, block 0 -.word 12909577 // Layer 2, block 1 -.word 14745691 // Layer 2, block 2 -.word 13512548 // Layer 2, block 3 -.word 430933318 // Layer 2, block 0 -.word 826149873 // Layer 2, block 1 -.word 943652201 // Layer 2, block 2 -.word 864737072 // Layer 2, block 3 -.word 20428075 // Layer 3, block 0 -.word 23825509 // Layer 4, block 0 -.word 27028662 // Layer 4, block 1 -.word 0 // Layer None, block None -.word 1307297022 // Layer 3, block 0 -.word 1524716204 // Layer 4, block 0 -.word 1729702351 // Layer 4, block 1 -.word 0 // Layer None, block None -.word 9010590 // Layer 5, block 0 -.word 20699126 // Layer 5, block 1 -.word 341080 // Layer 5, block 2 -.word 21220783 // Layer 5, block 3 -.word 576633749 // Layer 5, block 0 -.word 1324642962 // Layer 5, block 1 -.word 21827454 // Layer 5, block 2 -.word 1358026462 // Layer 5, block 3 -.word 14626653 // Layer 3, block 1 -.word 14833295 // Layer 4, block 2 -.word 2138810 // Layer 4, block 3 -.word 0 // Layer None, block None -.word 936034350 // Layer 3, block 1 -.word 949258429 // Layer 4, block 2 -.word 136873393 // Layer 4, block 3 -.word 0 // Layer None, block None -.word 25331745 // Layer 5, block 4 -.word 5289426 // Layer 5, block 5 -.word 5705868 // Layer 5, block 6 -.word 17686665 // Layer 5, block 7 -.word 1621107951 // Layer 5, block 4 -.word 338497429 // Layer 5, block 5 -.word 365147683 // Layer 5, block 6 -.word 1131860172 // Layer 5, block 7 -.word 29737761 // Layer 3, block 2 -.word 6490403 // Layer 4, block 4 -.word 19648405 // Layer 4, block 5 -.word 0 // Layer None, block None -.word 1903071454 // Layer 3, block 2 -.word 415354091 // Layer 4, block 4 -.word 1257401950 // Layer 4, block 5 -.word 0 // Layer None, block None -.word 9106105 // Layer 5, block 8 -.word 18817700 // Layer 5, block 9 -.word 1579445 // Layer 5, block 10 -.word 7769916 // Layer 5, block 11 -.word 582746243 // Layer 5, block 8 -.word 1204240888 // Layer 5, block 9 -.word 101076765 // Layer 5, block 10 -.word 497236673 // Layer 5, block 11 -.word 30285189 // Layer 3, block 3 -.word 31254932 // Layer 4, block 6 -.word 26362414 // Layer 4, block 7 -.word 0 // Layer None, block None -.word 1938104173 // Layer 3, block 3 -.word 2000162988 // Layer 4, block 6 -.word 1687065733 // Layer 4, block 7 -.word 0 // Layer None, block None -.word 21843119 // Layer 5, block 12 -.word 11828796 // Layer 5, block 13 -.word 19828530 // Layer 5, block 14 -.word 33201112 // Layer 5, block 15 -.word 1397852927 // Layer 5, block 12 -.word 756985168 // Layer 5, block 13 -.word 1268929071 // Layer 5, block 14 -.word 2124709002 // Layer 5, block 15 -.word 21289485 // Layer 3, block 4 -.word 572895 // Layer 4, block 8 -.word 26691971 // Layer 4, block 9 -.word 0 // Layer None, block None -.word 1362423055 // Layer 3, block 4 -.word 36662482 // Layer 4, block 8 -.word 1708155771 // Layer 4, block 9 -.word 0 // Layer None, block None -.word 23713020 // Layer 5, block 16 -.word 19537976 // Layer 5, block 17 -.word 8285889 // Layer 5, block 18 -.word 24690028 // Layer 5, block 19 -.word 1517517457 // Layer 5, block 16 -.word 1250335034 // Layer 5, block 17 -.word 530256425 // Layer 5, block 18 -.word 1580041197 // Layer 5, block 19 -.word 9914896 // Layer 3, block 5 -.word 9249292 // Layer 4, block 10 -.word 29292862 // Layer 4, block 11 -.word 0 // Layer None, block None -.word 634504916 // Layer 3, block 5 -.word 591909511 // Layer 4, block 10 -.word 1874600091 // Layer 4, block 11 -.word 0 // Layer None, block None -.word 4778209 // Layer 5, block 20 -.word 13113327 // Layer 5, block 21 -.word 25384023 // Layer 5, block 22 -.word 10905370 // Layer 5, block 23 -.word 305782038 // Layer 5, block 20 -.word 839188878 // Layer 5, block 21 -.word 1624453488 // Layer 5, block 22 -.word 697890414 // Layer 5, block 23 -.word 22603682 // Layer 3, block 6 -.word 8247799 // Layer 4, block 12 -.word 5086187 // Layer 4, block 13 -.word 0 // Layer None, block None -.word 1446525244 // Layer 3, block 6 -.word 527818851 // Layer 4, block 12 -.word 325491125 // Layer 4, block 13 -.word 0 // Layer None, block None -.word 16167867 // Layer 5, block 24 -.word 22046437 // Layer 5, block 25 -.word 656361 // Layer 5, block 26 -.word 18153794 // Layer 5, block 27 -.word 1034664519 // Layer 5, block 24 -.word 1410864286 // Layer 5, block 25 -.word 42003898 // Layer 5, block 26 -.word 1161754147 // Layer 5, block 27 -.word 16204162 // Layer 3, block 7 -.word 28113639 // Layer 4, block 14 -.word 8471290 // Layer 4, block 15 -.word 0 // Layer None, block None -.word 1036987221 // Layer 3, block 7 -.word 1799135579 // Layer 4, block 14 -.word 542121183 // Layer 4, block 15 -.word 0 // Layer None, block None -.word 3732072 // Layer 5, block 28 -.word 22126384 // Layer 5, block 29 -.word 9445744 // Layer 5, block 30 -.word 794839 // Layer 5, block 31 -.word 238834379 // Layer 5, block 28 -.word 1415980503 // Layer 5, block 29 -.word 604481480 // Layer 5, block 30 -.word 50865814 // Layer 5, block 31 -.text -.type ntt_u32_incomplete_sve2_asm_var_3_3_0, %function -.global ntt_u32_incomplete_sve2_asm_var_3_3_0 -modulus_addr: .quad modulus -roots_merged_addr: .quad roots_merged -ntt_u32_incomplete_sve2_asm_var_3_3_0: -// Save GPRs -sub sp, sp, #(16*5+16) -stp x19, x20, [sp, #16*0] -stp x19, x20, [sp, #16*0] -stp x21, x22, [sp, #16*1] -stp x23, x24, [sp, #16*2] -stp x25, x26, [sp, #16*3] -stp x27, x28, [sp, #16*4] -str x29, [sp, #16*5] -// Save SVE2 vector registers -sub sp, sp, #(16*4) -stp d8, d9, [sp, #16*0] -stp d10, d11, [sp, #16*1] -stp d12, d13, [sp, #16*2] -stp d14, d15, [sp, #16*3] -ldr x17, modulus_addr -ldr q31, [x17] -ptrue P0.s -ldr x17, roots_merged_addr -ldr q3, [x17, #+0] -ldr q2, [x17, #+16] -ldr q1, [x17, #+32] -ldr q0, [x17, #+48] -ldr q30, [x0, #960] -ldr q29, [x0, #832] -ldr q28, [x0, #576] -ldr q27, [x0, #704] -ldr q26, [x0, #448] -ldr q25, [x0, #320] -ldr q24, [x0, #64] -ldr q23, [x0, #192] -sqrdmulh z22.s, z30.s, z2.s[0] -mul z30.s, z30.s,z3.s[0] -mla z30.s, P0/M, z22.s, z31.s -sub z22.s, z26.s, z30.s -add z26.s, z26.s, z30.s -sqrdmulh z30.s, z29.s, z2.s[0] -mul z29.s, z29.s,z3.s[0] -mla z29.s, P0/M, z30.s, z31.s -sub z30.s, z25.s, z29.s -add z25.s, z25.s, z29.s -sqrdmulh z29.s, z28.s, z2.s[0] -mul z28.s, z28.s,z3.s[0] -mla z28.s, P0/M, z29.s, z31.s -sub z29.s, z24.s, z28.s -add z24.s, z24.s, z28.s -sqrdmulh z28.s, z27.s, z2.s[0] -mul z27.s, z27.s,z3.s[0] -mla z27.s, P0/M, z28.s, z31.s -sub z28.s, z23.s, z27.s -add z23.s, z23.s, z27.s -sqrdmulh z27.s, z26.s, z2.s[1] -mul z26.s, z26.s,z3.s[1] -mla z26.s, P0/M, z27.s, z31.s -sub z27.s, z23.s, z26.s -add z23.s, z23.s, z26.s -sqrdmulh z26.s, z25.s, z2.s[1] -mul z25.s, z25.s,z3.s[1] -mla z25.s, P0/M, z26.s, z31.s -sub z26.s, z24.s, z25.s -add z24.s, z24.s, z25.s -sqrdmulh z25.s, z22.s, z2.s[2] -mul z22.s, z22.s,z3.s[2] -mla z22.s, P0/M, z25.s, z31.s -sub z25.s, z28.s, z22.s -add z28.s, z28.s, z22.s -sqrdmulh z22.s, z30.s, z2.s[2] -mul z30.s, z30.s,z3.s[2] -mla z30.s, P0/M, z22.s, z31.s -sub z22.s, z29.s, z30.s -add z29.s, z29.s, z30.s -sqrdmulh z30.s, z23.s, z0.s[0] -mul z23.s, z23.s,z1.s[0] -mla z23.s, P0/M, z30.s, z31.s -sub z30.s, z24.s, z23.s -add z24.s, z24.s, z23.s -str q24, [x0, #64] -str q30, [x0, #192] -sqrdmulh z30.s, z27.s, z0.s[1] -mul z27.s, z27.s,z1.s[1] -mla z27.s, P0/M, z30.s, z31.s -sub z30.s, z26.s, z27.s -add z26.s, z26.s, z27.s -str q26, [x0, #320] -str q30, [x0, #448] -sqrdmulh z30.s, z25.s, z0.s[3] -mul z25.s, z25.s,z1.s[3] -mla z25.s, P0/M, z30.s, z31.s -sub z30.s, z22.s, z25.s -add z22.s, z22.s, z25.s -str q22, [x0, #832] -str q30, [x0, #960] -sqrdmulh z30.s, z28.s, z0.s[2] -mul z28.s, z28.s,z1.s[2] -mla z28.s, P0/M, z30.s, z31.s -sub z30.s, z29.s, z28.s -add z29.s, z29.s, z28.s -str q29, [x0, #576] -str q30, [x0, #704] -ldr q30, [x0, #976] -ldr q29, [x0, #848] -ldr q28, [x0, #592] -ldr q22, [x0, #720] -ldr q25, [x0, #464] -ldr q26, [x0, #336] -ldr q27, [x0, #80] -ldr q24, [x0, #208] -sqrdmulh z23.s, z30.s, z2.s[0] -mul z30.s, z30.s,z3.s[0] -mla z30.s, P0/M, z23.s, z31.s -sub z23.s, z25.s, z30.s -add z25.s, z25.s, z30.s -sqrdmulh z30.s, z29.s, z2.s[0] -mul z29.s, z29.s,z3.s[0] -mla z29.s, P0/M, z30.s, z31.s -sub z30.s, z26.s, z29.s -add z26.s, z26.s, z29.s -sqrdmulh z29.s, z28.s, z2.s[0] -mul z28.s, z28.s,z3.s[0] -mla z28.s, P0/M, z29.s, z31.s -sub z29.s, z27.s, z28.s -add z27.s, z27.s, z28.s -sqrdmulh z28.s, z22.s, z2.s[0] -mul z22.s, z22.s,z3.s[0] -mla z22.s, P0/M, z28.s, z31.s -sub z28.s, z24.s, z22.s -add z24.s, z24.s, z22.s -sqrdmulh z22.s, z25.s, z2.s[1] -mul z25.s, z25.s,z3.s[1] -mla z25.s, P0/M, z22.s, z31.s -sub z22.s, z24.s, z25.s -add z24.s, z24.s, z25.s -sqrdmulh z25.s, z26.s, z2.s[1] -mul z26.s, z26.s,z3.s[1] -mla z26.s, P0/M, z25.s, z31.s -sub z25.s, z27.s, z26.s -add z27.s, z27.s, z26.s -sqrdmulh z26.s, z23.s, z2.s[2] -mul z23.s, z23.s,z3.s[2] -mla z23.s, P0/M, z26.s, z31.s -sub z26.s, z28.s, z23.s -add z28.s, z28.s, z23.s -sqrdmulh z23.s, z30.s, z2.s[2] -mul z30.s, z30.s,z3.s[2] -mla z30.s, P0/M, z23.s, z31.s -sub z23.s, z29.s, z30.s -add z29.s, z29.s, z30.s -sqrdmulh z30.s, z24.s, z0.s[0] -mul z24.s, z24.s,z1.s[0] -mla z24.s, P0/M, z30.s, z31.s -sub z30.s, z27.s, z24.s -add z27.s, z27.s, z24.s -str q27, [x0, #80] -str q30, [x0, #208] -sqrdmulh z30.s, z22.s, z0.s[1] -mul z22.s, z22.s,z1.s[1] -mla z22.s, P0/M, z30.s, z31.s -sub z30.s, z25.s, z22.s -add z25.s, z25.s, z22.s -str q25, [x0, #336] -str q30, [x0, #464] -sqrdmulh z30.s, z26.s, z0.s[3] -mul z26.s, z26.s,z1.s[3] -mla z26.s, P0/M, z30.s, z31.s -sub z30.s, z23.s, z26.s -add z23.s, z23.s, z26.s -str q23, [x0, #848] -str q30, [x0, #976] -sqrdmulh z30.s, z28.s, z0.s[2] -mul z28.s, z28.s,z1.s[2] -mla z28.s, P0/M, z30.s, z31.s -sub z30.s, z29.s, z28.s -add z29.s, z29.s, z28.s -str q29, [x0, #592] -str q30, [x0, #720] -ldr q30, [x0, #992] -ldr q29, [x0, #864] -ldr q28, [x0, #608] -ldr q23, [x0, #736] -ldr q26, [x0, #480] -ldr q25, [x0, #352] -ldr q22, [x0, #96] -ldr q27, [x0, #224] -sqrdmulh z24.s, z30.s, z2.s[0] -mul z30.s, z30.s,z3.s[0] -mla z30.s, P0/M, z24.s, z31.s -sub z24.s, z26.s, z30.s -add z26.s, z26.s, z30.s -sqrdmulh z30.s, z29.s, z2.s[0] -mul z29.s, z29.s,z3.s[0] -mla z29.s, P0/M, z30.s, z31.s -sub z30.s, z25.s, z29.s -add z25.s, z25.s, z29.s -sqrdmulh z29.s, z28.s, z2.s[0] -mul z28.s, z28.s,z3.s[0] -mla z28.s, P0/M, z29.s, z31.s -sub z29.s, z22.s, z28.s -add z22.s, z22.s, z28.s -sqrdmulh z28.s, z23.s, z2.s[0] -mul z23.s, z23.s,z3.s[0] -mla z23.s, P0/M, z28.s, z31.s -sub z28.s, z27.s, z23.s -add z27.s, z27.s, z23.s -sqrdmulh z23.s, z26.s, z2.s[1] -mul z26.s, z26.s,z3.s[1] -mla z26.s, P0/M, z23.s, z31.s -sub z23.s, z27.s, z26.s -add z27.s, z27.s, z26.s -sqrdmulh z26.s, z25.s, z2.s[1] -mul z25.s, z25.s,z3.s[1] -mla z25.s, P0/M, z26.s, z31.s -sub z26.s, z22.s, z25.s -add z22.s, z22.s, z25.s -sqrdmulh z25.s, z24.s, z2.s[2] -mul z24.s, z24.s,z3.s[2] -mla z24.s, P0/M, z25.s, z31.s -sub z25.s, z28.s, z24.s -add z28.s, z28.s, z24.s -sqrdmulh z24.s, z30.s, z2.s[2] -mul z30.s, z30.s,z3.s[2] -mla z30.s, P0/M, z24.s, z31.s -sub z24.s, z29.s, z30.s -add z29.s, z29.s, z30.s -sqrdmulh z30.s, z27.s, z0.s[0] -mul z27.s, z27.s,z1.s[0] -mla z27.s, P0/M, z30.s, z31.s -sub z30.s, z22.s, z27.s -add z22.s, z22.s, z27.s -str q22, [x0, #96] -str q30, [x0, #224] -sqrdmulh z30.s, z23.s, z0.s[1] -mul z23.s, z23.s,z1.s[1] -mla z23.s, P0/M, z30.s, z31.s -sub z30.s, z26.s, z23.s -add z26.s, z26.s, z23.s -str q26, [x0, #352] -str q30, [x0, #480] -sqrdmulh z30.s, z25.s, z0.s[3] -mul z25.s, z25.s,z1.s[3] -mla z25.s, P0/M, z30.s, z31.s -sub z30.s, z24.s, z25.s -add z24.s, z24.s, z25.s -str q24, [x0, #864] -str q30, [x0, #992] -sqrdmulh z30.s, z28.s, z0.s[2] -mul z28.s, z28.s,z1.s[2] -mla z28.s, P0/M, z30.s, z31.s -sub z30.s, z29.s, z28.s -add z29.s, z29.s, z28.s -str q29, [x0, #608] -str q30, [x0, #736] -ldr q30, [x0, #1008] -ldr q29, [x0, #880] -ldr q28, [x0, #624] -ldr q24, [x0, #752] -ldr q25, [x0, #496] -ldr q26, [x0, #368] -ldr q23, [x0, #112] -ldr q22, [x0, #240] -sqrdmulh z27.s, z30.s, z2.s[0] -mul z30.s, z30.s,z3.s[0] -mla z30.s, P0/M, z27.s, z31.s -sub z27.s, z25.s, z30.s -add z25.s, z25.s, z30.s -sqrdmulh z30.s, z29.s, z2.s[0] -mul z29.s, z29.s,z3.s[0] -mla z29.s, P0/M, z30.s, z31.s -sub z30.s, z26.s, z29.s -add z26.s, z26.s, z29.s -sqrdmulh z29.s, z28.s, z2.s[0] -mul z28.s, z28.s,z3.s[0] -mla z28.s, P0/M, z29.s, z31.s -sub z29.s, z23.s, z28.s -add z23.s, z23.s, z28.s -sqrdmulh z28.s, z24.s, z2.s[0] -mul z24.s, z24.s,z3.s[0] -mla z24.s, P0/M, z28.s, z31.s -sub z28.s, z22.s, z24.s -add z22.s, z22.s, z24.s -sqrdmulh z24.s, z25.s, z2.s[1] -mul z25.s, z25.s,z3.s[1] -mla z25.s, P0/M, z24.s, z31.s -sub z24.s, z22.s, z25.s -add z22.s, z22.s, z25.s -sqrdmulh z25.s, z26.s, z2.s[1] -mul z26.s, z26.s,z3.s[1] -mla z26.s, P0/M, z25.s, z31.s -sub z25.s, z23.s, z26.s -add z23.s, z23.s, z26.s -sqrdmulh z26.s, z27.s, z2.s[2] -mul z27.s, z27.s,z3.s[2] -mla z27.s, P0/M, z26.s, z31.s -sub z26.s, z28.s, z27.s -add z28.s, z28.s, z27.s -sqrdmulh z27.s, z30.s, z2.s[2] -mul z30.s, z30.s,z3.s[2] -mla z30.s, P0/M, z27.s, z31.s -sub z27.s, z29.s, z30.s -add z29.s, z29.s, z30.s -sqrdmulh z30.s, z22.s, z0.s[0] -mul z22.s, z22.s,z1.s[0] -mla z22.s, P0/M, z30.s, z31.s -sub z30.s, z23.s, z22.s -add z23.s, z23.s, z22.s -str q23, [x0, #112] -str q30, [x0, #240] -sqrdmulh z30.s, z24.s, z0.s[1] -mul z24.s, z24.s,z1.s[1] -mla z24.s, P0/M, z30.s, z31.s -sub z30.s, z25.s, z24.s -add z25.s, z25.s, z24.s -str q25, [x0, #368] -str q30, [x0, #496] -sqrdmulh z30.s, z26.s, z0.s[3] -mul z26.s, z26.s,z1.s[3] -mla z26.s, P0/M, z30.s, z31.s -sub z30.s, z27.s, z26.s -add z27.s, z27.s, z26.s -str q27, [x0, #880] -str q30, [x0, #1008] -sqrdmulh z30.s, z28.s, z0.s[2] -mul z28.s, z28.s,z1.s[2] -mla z28.s, P0/M, z30.s, z31.s -sub z30.s, z29.s, z28.s -add z29.s, z29.s, z28.s -str q29, [x0, #624] -str q30, [x0, #752] -ldr q30, [x0, #896] -ldr q29, [x0, #768] -ldr q28, [x0, #512] -ldr q27, [x0, #640] -ldr q26, [x0, #384] -ldr q25, [x0, #256] -ldr q24, [x0, #0] -ldr q23, [x0, #128] -sqrdmulh z22.s, z30.s, z2.s[0] -mul z30.s, z30.s,z3.s[0] -mla z30.s, P0/M, z22.s, z31.s -sub z22.s, z26.s, z30.s -add z26.s, z26.s, z30.s -sqrdmulh z30.s, z29.s, z2.s[0] -mul z29.s, z29.s,z3.s[0] -mla z29.s, P0/M, z30.s, z31.s -sub z30.s, z25.s, z29.s -add z25.s, z25.s, z29.s -sqrdmulh z29.s, z28.s, z2.s[0] -mul z28.s, z28.s,z3.s[0] -mla z28.s, P0/M, z29.s, z31.s -sub z29.s, z24.s, z28.s -add z24.s, z24.s, z28.s -sqrdmulh z28.s, z27.s, z2.s[0] -mul z27.s, z27.s,z3.s[0] -mla z27.s, P0/M, z28.s, z31.s -sub z28.s, z23.s, z27.s -add z23.s, z23.s, z27.s -sqrdmulh z27.s, z26.s, z2.s[1] -mul z26.s, z26.s,z3.s[1] -mla z26.s, P0/M, z27.s, z31.s -sub z27.s, z23.s, z26.s -add z23.s, z23.s, z26.s -sqrdmulh z26.s, z25.s, z2.s[1] -mul z25.s, z25.s,z3.s[1] -mla z25.s, P0/M, z26.s, z31.s -sub z26.s, z24.s, z25.s -add z24.s, z24.s, z25.s -sqrdmulh z25.s, z22.s, z2.s[2] -mul z22.s, z22.s,z3.s[2] -mla z22.s, P0/M, z25.s, z31.s -sub z25.s, z28.s, z22.s -add z28.s, z28.s, z22.s -sqrdmulh z22.s, z30.s, z2.s[2] -mul z30.s, z30.s,z3.s[2] -mla z30.s, P0/M, z22.s, z31.s -sub z22.s, z29.s, z30.s -add z29.s, z29.s, z30.s -sqrdmulh z30.s, z23.s, z0.s[0] -mul z23.s, z23.s,z1.s[0] -mla z23.s, P0/M, z30.s, z31.s -sub z30.s, z24.s, z23.s -add z24.s, z24.s, z23.s -str q24, [x0, #0] -str q30, [x0, #128] -sqrdmulh z30.s, z27.s, z0.s[1] -mul z27.s, z27.s,z1.s[1] -mla z27.s, P0/M, z30.s, z31.s -sub z30.s, z26.s, z27.s -add z26.s, z26.s, z27.s -str q26, [x0, #256] -str q30, [x0, #384] -sqrdmulh z30.s, z25.s, z0.s[3] -mul z25.s, z25.s,z1.s[3] -mla z25.s, P0/M, z30.s, z31.s -sub z30.s, z22.s, z25.s -add z22.s, z22.s, z25.s -str q22, [x0, #768] -str q30, [x0, #896] -sqrdmulh z30.s, z28.s, z0.s[2] -mul z28.s, z28.s,z1.s[2] -mla z28.s, P0/M, z30.s, z31.s -sub z30.s, z29.s, z28.s -add z29.s, z29.s, z28.s -str q29, [x0, #512] -str q30, [x0, #640] -ldr q30, [x0, #912] -ldr q29, [x0, #784] -ldr q28, [x0, #528] -ldr q22, [x0, #656] -ldr q25, [x0, #400] -ldr q26, [x0, #272] -ldr q27, [x0, #16] -ldr q24, [x0, #144] -sqrdmulh z23.s, z30.s, z2.s[0] -mul z30.s, z30.s,z3.s[0] -mla z30.s, P0/M, z23.s, z31.s -sub z23.s, z25.s, z30.s -add z25.s, z25.s, z30.s -sqrdmulh z30.s, z29.s, z2.s[0] -mul z29.s, z29.s,z3.s[0] -mla z29.s, P0/M, z30.s, z31.s -sub z30.s, z26.s, z29.s -add z26.s, z26.s, z29.s -sqrdmulh z29.s, z28.s, z2.s[0] -mul z28.s, z28.s,z3.s[0] -mla z28.s, P0/M, z29.s, z31.s -sub z29.s, z27.s, z28.s -add z27.s, z27.s, z28.s -sqrdmulh z28.s, z22.s, z2.s[0] -mul z22.s, z22.s,z3.s[0] -mla z22.s, P0/M, z28.s, z31.s -sub z28.s, z24.s, z22.s -add z24.s, z24.s, z22.s -sqrdmulh z22.s, z25.s, z2.s[1] -mul z25.s, z25.s,z3.s[1] -mla z25.s, P0/M, z22.s, z31.s -sub z22.s, z24.s, z25.s -add z24.s, z24.s, z25.s -sqrdmulh z25.s, z26.s, z2.s[1] -mul z26.s, z26.s,z3.s[1] -mla z26.s, P0/M, z25.s, z31.s -sub z25.s, z27.s, z26.s -add z27.s, z27.s, z26.s -sqrdmulh z26.s, z23.s, z2.s[2] -mul z23.s, z23.s,z3.s[2] -mla z23.s, P0/M, z26.s, z31.s -sub z26.s, z28.s, z23.s -add z28.s, z28.s, z23.s -sqrdmulh z23.s, z30.s, z2.s[2] -mul z30.s, z30.s,z3.s[2] -mla z30.s, P0/M, z23.s, z31.s -sub z23.s, z29.s, z30.s -add z29.s, z29.s, z30.s -sqrdmulh z30.s, z24.s, z0.s[0] -mul z24.s, z24.s,z1.s[0] -mla z24.s, P0/M, z30.s, z31.s -sub z30.s, z27.s, z24.s -add z27.s, z27.s, z24.s -str q27, [x0, #16] -str q30, [x0, #144] -sqrdmulh z30.s, z22.s, z0.s[1] -mul z22.s, z22.s,z1.s[1] -mla z22.s, P0/M, z30.s, z31.s -sub z30.s, z25.s, z22.s -add z25.s, z25.s, z22.s -str q25, [x0, #272] -str q30, [x0, #400] -sqrdmulh z30.s, z26.s, z0.s[3] -mul z26.s, z26.s,z1.s[3] -mla z26.s, P0/M, z30.s, z31.s -sub z30.s, z23.s, z26.s -add z23.s, z23.s, z26.s -str q23, [x0, #784] -str q30, [x0, #912] -sqrdmulh z30.s, z28.s, z0.s[2] -mul z28.s, z28.s,z1.s[2] -mla z28.s, P0/M, z30.s, z31.s -sub z30.s, z29.s, z28.s -add z29.s, z29.s, z28.s -str q29, [x0, #528] -str q30, [x0, #656] -ldr q30, [x0, #928] -ldr q29, [x0, #800] -ldr q28, [x0, #544] -ldr q23, [x0, #672] -ldr q26, [x0, #416] -ldr q25, [x0, #288] -ldr q22, [x0, #32] -ldr q27, [x0, #160] -sqrdmulh z24.s, z30.s, z2.s[0] -mul z30.s, z30.s,z3.s[0] -mla z30.s, P0/M, z24.s, z31.s -sub z24.s, z26.s, z30.s -add z26.s, z26.s, z30.s -sqrdmulh z30.s, z29.s, z2.s[0] -mul z29.s, z29.s,z3.s[0] -mla z29.s, P0/M, z30.s, z31.s -sub z30.s, z25.s, z29.s -add z25.s, z25.s, z29.s -sqrdmulh z29.s, z28.s, z2.s[0] -mul z28.s, z28.s,z3.s[0] -mla z28.s, P0/M, z29.s, z31.s -sub z29.s, z22.s, z28.s -add z22.s, z22.s, z28.s -sqrdmulh z28.s, z23.s, z2.s[0] -mul z23.s, z23.s,z3.s[0] -mla z23.s, P0/M, z28.s, z31.s -sub z28.s, z27.s, z23.s -add z27.s, z27.s, z23.s -sqrdmulh z23.s, z26.s, z2.s[1] -mul z26.s, z26.s,z3.s[1] -mla z26.s, P0/M, z23.s, z31.s -sub z23.s, z27.s, z26.s -add z27.s, z27.s, z26.s -sqrdmulh z26.s, z25.s, z2.s[1] -mul z25.s, z25.s,z3.s[1] -mla z25.s, P0/M, z26.s, z31.s -sub z26.s, z22.s, z25.s -add z22.s, z22.s, z25.s -sqrdmulh z25.s, z24.s, z2.s[2] -mul z24.s, z24.s,z3.s[2] -mla z24.s, P0/M, z25.s, z31.s -sub z25.s, z28.s, z24.s -add z28.s, z28.s, z24.s -sqrdmulh z24.s, z30.s, z2.s[2] -mul z30.s, z30.s,z3.s[2] -mla z30.s, P0/M, z24.s, z31.s -sub z24.s, z29.s, z30.s -add z29.s, z29.s, z30.s -sqrdmulh z30.s, z27.s, z0.s[0] -mul z27.s, z27.s,z1.s[0] -mla z27.s, P0/M, z30.s, z31.s -sub z30.s, z22.s, z27.s -add z22.s, z22.s, z27.s -str q22, [x0, #32] -str q30, [x0, #160] -sqrdmulh z30.s, z23.s, z0.s[1] -mul z23.s, z23.s,z1.s[1] -mla z23.s, P0/M, z30.s, z31.s -sub z30.s, z26.s, z23.s -add z26.s, z26.s, z23.s -str q26, [x0, #288] -str q30, [x0, #416] -sqrdmulh z30.s, z25.s, z0.s[3] -mul z25.s, z25.s,z1.s[3] -mla z25.s, P0/M, z30.s, z31.s -sub z30.s, z24.s, z25.s -add z24.s, z24.s, z25.s -str q24, [x0, #800] -str q30, [x0, #928] -sqrdmulh z30.s, z28.s, z0.s[2] -mul z28.s, z28.s,z1.s[2] -mla z28.s, P0/M, z30.s, z31.s -sub z30.s, z29.s, z28.s -add z29.s, z29.s, z28.s -str q29, [x0, #544] -str q30, [x0, #672] -ldr q30, [x0, #944] -ldr q29, [x0, #816] -ldr q28, [x0, #560] -ldr q24, [x0, #688] -ldr q25, [x0, #432] -ldr q26, [x0, #304] -ldr q23, [x0, #48] -ldr q22, [x0, #176] -sqrdmulh z27.s, z30.s, z2.s[0] -mul z30.s, z30.s,z3.s[0] -mla z30.s, P0/M, z27.s, z31.s -sub z27.s, z25.s, z30.s -add z25.s, z25.s, z30.s -sqrdmulh z30.s, z29.s, z2.s[0] -mul z29.s, z29.s,z3.s[0] -mla z29.s, P0/M, z30.s, z31.s -sub z30.s, z26.s, z29.s -add z26.s, z26.s, z29.s -sqrdmulh z29.s, z28.s, z2.s[0] -mul z28.s, z28.s,z3.s[0] -mla z28.s, P0/M, z29.s, z31.s -sub z29.s, z23.s, z28.s -add z23.s, z23.s, z28.s -sqrdmulh z28.s, z24.s, z2.s[0] -mul z24.s, z24.s,z3.s[0] -mla z24.s, P0/M, z28.s, z31.s -sub z28.s, z22.s, z24.s -add z22.s, z22.s, z24.s -sqrdmulh z24.s, z25.s, z2.s[1] -mul z25.s, z25.s,z3.s[1] -mla z25.s, P0/M, z24.s, z31.s -sub z24.s, z22.s, z25.s -add z22.s, z22.s, z25.s -sqrdmulh z25.s, z26.s, z2.s[1] -mul z26.s, z26.s,z3.s[1] -mla z26.s, P0/M, z25.s, z31.s -sub z25.s, z23.s, z26.s -add z23.s, z23.s, z26.s -sqrdmulh z26.s, z27.s, z2.s[2] -mul z27.s, z27.s,z3.s[2] -mla z27.s, P0/M, z26.s, z31.s -sub z26.s, z28.s, z27.s -add z28.s, z28.s, z27.s -sqrdmulh z27.s, z30.s, z2.s[2] -mul z30.s, z30.s,z3.s[2] -mla z30.s, P0/M, z27.s, z31.s -sub z27.s, z29.s, z30.s -add z29.s, z29.s, z30.s -sqrdmulh z30.s, z22.s, z0.s[0] -mul z22.s, z22.s,z1.s[0] -mla z22.s, P0/M, z30.s, z31.s -sub z30.s, z23.s, z22.s -add z23.s, z23.s, z22.s -str q23, [x0, #48] -str q30, [x0, #176] -sqrdmulh z30.s, z24.s, z0.s[1] -mul z24.s, z24.s,z1.s[1] -mla z24.s, P0/M, z30.s, z31.s -sub z30.s, z25.s, z24.s -add z25.s, z25.s, z24.s -str q25, [x0, #304] -str q30, [x0, #432] -sqrdmulh z30.s, z26.s, z0.s[3] -mul z26.s, z26.s,z1.s[3] -mla z26.s, P0/M, z30.s, z31.s -sub z30.s, z27.s, z26.s -add z27.s, z27.s, z26.s -str q27, [x0, #816] -str q30, [x0, #944] -sqrdmulh z30.s, z28.s, z0.s[2] -mul z28.s, z28.s,z1.s[2] -mla z28.s, P0/M, z30.s, z31.s -sub z30.s, z29.s, z28.s -add z29.s, z29.s, z28.s -str q29, [x0, #560] -str q30, [x0, #688] -ldr q4, [x17, #+64] -ldr q5, [x17, #+80] -ldr q6, [x17, #+96] -ldr q7, [x17, #+112] -ldr q8, [x0, #112] -ldr q9, [x0, #96] -ldr q10, [x0, #64] -ldr q11, [x0, #80] -ldr q12, [x0, #48] -ldr q13, [x0, #32] -ldr q14, [x0, #0] -ldr q15, [x0, #16] -sqrdmulh z16.s, z8.s, z5.s[0] -mul z8.s, z8.s,z4.s[0] -mla z8.s, P0/M, z16.s, z31.s -sub z16.s, z12.s, z8.s -add z12.s, z12.s, z8.s -sqrdmulh z8.s, z9.s, z5.s[0] -mul z9.s, z9.s,z4.s[0] -mla z9.s, P0/M, z8.s, z31.s -sub z8.s, z13.s, z9.s -add z13.s, z13.s, z9.s -sqrdmulh z9.s, z10.s, z5.s[0] -mul z10.s, z10.s,z4.s[0] -mla z10.s, P0/M, z9.s, z31.s -sub z9.s, z14.s, z10.s -add z14.s, z14.s, z10.s -sqrdmulh z10.s, z11.s, z5.s[0] -mul z11.s, z11.s,z4.s[0] -mla z11.s, P0/M, z10.s, z31.s -sub z10.s, z15.s, z11.s -add z15.s, z15.s, z11.s -sqrdmulh z11.s, z12.s, z5.s[1] -mul z12.s, z12.s,z4.s[1] -mla z12.s, P0/M, z11.s, z31.s -sub z11.s, z15.s, z12.s -add z15.s, z15.s, z12.s -ldr q3, [x17, #+128] -ldr q2, [x17, #+144] -ldr q1, [x17, #+160] -ldr q0, [x17, #+176] -sqrdmulh z12.s, z13.s, z5.s[1] -mul z13.s, z13.s,z4.s[1] -mla z13.s, P0/M, z12.s, z31.s -sub z12.s, z14.s, z13.s -add z14.s, z14.s, z13.s -sqrdmulh z13.s, z16.s, z5.s[2] -mul z16.s, z16.s,z4.s[2] -mla z16.s, P0/M, z13.s, z31.s -sub z13.s, z10.s, z16.s -add z10.s, z10.s, z16.s -sqrdmulh z16.s, z8.s, z5.s[2] -mul z8.s, z8.s,z4.s[2] -mla z8.s, P0/M, z16.s, z31.s -sub z16.s, z9.s, z8.s -add z9.s, z9.s, z8.s -sqrdmulh z8.s, z15.s, z7.s[0] -mul z15.s, z15.s,z6.s[0] -mla z15.s, P0/M, z8.s, z31.s -sub z8.s, z14.s, z15.s -add z14.s, z14.s, z15.s -str q14, [x0, #0] -str q8, [x0, #16] -sqrdmulh z8.s, z11.s, z7.s[1] -mul z11.s, z11.s,z6.s[1] -mla z11.s, P0/M, z8.s, z31.s -sub z8.s, z12.s, z11.s -add z12.s, z12.s, z11.s -str q12, [x0, #32] -str q8, [x0, #48] -sqrdmulh z8.s, z13.s, z7.s[3] -mul z13.s, z13.s,z6.s[3] -mla z13.s, P0/M, z8.s, z31.s -sub z8.s, z16.s, z13.s -add z16.s, z16.s, z13.s -str q16, [x0, #96] -str q8, [x0, #112] -sqrdmulh z8.s, z10.s, z7.s[2] -mul z10.s, z10.s,z6.s[2] -mla z10.s, P0/M, z8.s, z31.s -sub z8.s, z9.s, z10.s -add z9.s, z9.s, z10.s -str q9, [x0, #64] -str q8, [x0, #80] -ldr q8, [x0, #240] -ldr q9, [x0, #224] -ldr q10, [x0, #192] -ldr q16, [x0, #208] -ldr q13, [x0, #176] -ldr q12, [x0, #160] -ldr q11, [x0, #128] -ldr q14, [x0, #144] -sqrdmulh z15.s, z8.s, z2.s[0] -mul z8.s, z8.s,z3.s[0] -mla z8.s, P0/M, z15.s, z31.s -sub z15.s, z13.s, z8.s -add z13.s, z13.s, z8.s -sqrdmulh z8.s, z9.s, z2.s[0] -mul z9.s, z9.s,z3.s[0] -mla z9.s, P0/M, z8.s, z31.s -sub z8.s, z12.s, z9.s -add z12.s, z12.s, z9.s -sqrdmulh z9.s, z10.s, z2.s[0] -mul z10.s, z10.s,z3.s[0] -mla z10.s, P0/M, z9.s, z31.s -sub z9.s, z11.s, z10.s -add z11.s, z11.s, z10.s -sqrdmulh z10.s, z16.s, z2.s[0] -mul z16.s, z16.s,z3.s[0] -mla z16.s, P0/M, z10.s, z31.s -sub z10.s, z14.s, z16.s -add z14.s, z14.s, z16.s -sqrdmulh z16.s, z13.s, z2.s[1] -mul z13.s, z13.s,z3.s[1] -mla z13.s, P0/M, z16.s, z31.s -sub z16.s, z14.s, z13.s -add z14.s, z14.s, z13.s -ldr q7, [x17, #+192] -ldr q6, [x17, #+208] -ldr q5, [x17, #+224] -ldr q4, [x17, #+240] -sqrdmulh z13.s, z12.s, z2.s[1] -mul z12.s, z12.s,z3.s[1] -mla z12.s, P0/M, z13.s, z31.s -sub z13.s, z11.s, z12.s -add z11.s, z11.s, z12.s -sqrdmulh z12.s, z15.s, z2.s[2] -mul z15.s, z15.s,z3.s[2] -mla z15.s, P0/M, z12.s, z31.s -sub z12.s, z10.s, z15.s -add z10.s, z10.s, z15.s -sqrdmulh z15.s, z8.s, z2.s[2] -mul z8.s, z8.s,z3.s[2] -mla z8.s, P0/M, z15.s, z31.s -sub z15.s, z9.s, z8.s -add z9.s, z9.s, z8.s -sqrdmulh z8.s, z14.s, z0.s[0] -mul z14.s, z14.s,z1.s[0] -mla z14.s, P0/M, z8.s, z31.s -sub z8.s, z11.s, z14.s -add z11.s, z11.s, z14.s -str q11, [x0, #128] -str q8, [x0, #144] -sqrdmulh z8.s, z16.s, z0.s[1] -mul z16.s, z16.s,z1.s[1] -mla z16.s, P0/M, z8.s, z31.s -sub z8.s, z13.s, z16.s -add z13.s, z13.s, z16.s -str q13, [x0, #160] -str q8, [x0, #176] -sqrdmulh z8.s, z12.s, z0.s[3] -mul z12.s, z12.s,z1.s[3] -mla z12.s, P0/M, z8.s, z31.s -sub z8.s, z15.s, z12.s -add z15.s, z15.s, z12.s -str q15, [x0, #224] -str q8, [x0, #240] -sqrdmulh z8.s, z10.s, z0.s[2] -mul z10.s, z10.s,z1.s[2] -mla z10.s, P0/M, z8.s, z31.s -sub z8.s, z9.s, z10.s -add z9.s, z9.s, z10.s -str q9, [x0, #192] -str q8, [x0, #208] -ldr q8, [x0, #368] -ldr q9, [x0, #352] -ldr q10, [x0, #320] -ldr q15, [x0, #336] -ldr q12, [x0, #304] -ldr q13, [x0, #288] -ldr q16, [x0, #256] -ldr q11, [x0, #272] -sqrdmulh z14.s, z8.s, z6.s[0] -mul z8.s, z8.s,z7.s[0] -mla z8.s, P0/M, z14.s, z31.s -sub z14.s, z12.s, z8.s -add z12.s, z12.s, z8.s -sqrdmulh z8.s, z9.s, z6.s[0] -mul z9.s, z9.s,z7.s[0] -mla z9.s, P0/M, z8.s, z31.s -sub z8.s, z13.s, z9.s -add z13.s, z13.s, z9.s -sqrdmulh z9.s, z10.s, z6.s[0] -mul z10.s, z10.s,z7.s[0] -mla z10.s, P0/M, z9.s, z31.s -sub z9.s, z16.s, z10.s -add z16.s, z16.s, z10.s -sqrdmulh z10.s, z15.s, z6.s[0] -mul z15.s, z15.s,z7.s[0] -mla z15.s, P0/M, z10.s, z31.s -sub z10.s, z11.s, z15.s -add z11.s, z11.s, z15.s -sqrdmulh z15.s, z12.s, z6.s[1] -mul z12.s, z12.s,z7.s[1] -mla z12.s, P0/M, z15.s, z31.s -sub z15.s, z11.s, z12.s -add z11.s, z11.s, z12.s -ldr q0, [x17, #+256] -ldr q1, [x17, #+272] -ldr q2, [x17, #+288] -ldr q3, [x17, #+304] -sqrdmulh z12.s, z13.s, z6.s[1] -mul z13.s, z13.s,z7.s[1] -mla z13.s, P0/M, z12.s, z31.s -sub z12.s, z16.s, z13.s -add z16.s, z16.s, z13.s -sqrdmulh z13.s, z14.s, z6.s[2] -mul z14.s, z14.s,z7.s[2] -mla z14.s, P0/M, z13.s, z31.s -sub z13.s, z10.s, z14.s -add z10.s, z10.s, z14.s -sqrdmulh z14.s, z8.s, z6.s[2] -mul z8.s, z8.s,z7.s[2] -mla z8.s, P0/M, z14.s, z31.s -sub z14.s, z9.s, z8.s -add z9.s, z9.s, z8.s -sqrdmulh z8.s, z11.s, z4.s[0] -mul z11.s, z11.s,z5.s[0] -mla z11.s, P0/M, z8.s, z31.s -sub z8.s, z16.s, z11.s -add z16.s, z16.s, z11.s -str q16, [x0, #256] -str q8, [x0, #272] -sqrdmulh z8.s, z15.s, z4.s[1] -mul z15.s, z15.s,z5.s[1] -mla z15.s, P0/M, z8.s, z31.s -sub z8.s, z12.s, z15.s -add z12.s, z12.s, z15.s -str q12, [x0, #288] -str q8, [x0, #304] -sqrdmulh z8.s, z13.s, z4.s[3] -mul z13.s, z13.s,z5.s[3] -mla z13.s, P0/M, z8.s, z31.s -sub z8.s, z14.s, z13.s -add z14.s, z14.s, z13.s -str q14, [x0, #352] -str q8, [x0, #368] -sqrdmulh z8.s, z10.s, z4.s[2] -mul z10.s, z10.s,z5.s[2] -mla z10.s, P0/M, z8.s, z31.s -sub z8.s, z9.s, z10.s -add z9.s, z9.s, z10.s -str q9, [x0, #320] -str q8, [x0, #336] -ldr q8, [x0, #496] -ldr q9, [x0, #480] -ldr q10, [x0, #448] -ldr q14, [x0, #464] -ldr q13, [x0, #432] -ldr q12, [x0, #416] -ldr q15, [x0, #384] -ldr q16, [x0, #400] -sqrdmulh z11.s, z8.s, z1.s[0] -mul z8.s, z8.s,z0.s[0] -mla z8.s, P0/M, z11.s, z31.s -sub z11.s, z13.s, z8.s -add z13.s, z13.s, z8.s -sqrdmulh z8.s, z9.s, z1.s[0] -mul z9.s, z9.s,z0.s[0] -mla z9.s, P0/M, z8.s, z31.s -sub z8.s, z12.s, z9.s -add z12.s, z12.s, z9.s -sqrdmulh z9.s, z10.s, z1.s[0] -mul z10.s, z10.s,z0.s[0] -mla z10.s, P0/M, z9.s, z31.s -sub z9.s, z15.s, z10.s -add z15.s, z15.s, z10.s -sqrdmulh z10.s, z14.s, z1.s[0] -mul z14.s, z14.s,z0.s[0] -mla z14.s, P0/M, z10.s, z31.s -sub z10.s, z16.s, z14.s -add z16.s, z16.s, z14.s -sqrdmulh z14.s, z13.s, z1.s[1] -mul z13.s, z13.s,z0.s[1] -mla z13.s, P0/M, z14.s, z31.s -sub z14.s, z16.s, z13.s -add z16.s, z16.s, z13.s -ldr q4, [x17, #+320] -ldr q5, [x17, #+336] -ldr q6, [x17, #+352] -ldr q7, [x17, #+368] -sqrdmulh z13.s, z12.s, z1.s[1] -mul z12.s, z12.s,z0.s[1] -mla z12.s, P0/M, z13.s, z31.s -sub z13.s, z15.s, z12.s -add z15.s, z15.s, z12.s -sqrdmulh z12.s, z11.s, z1.s[2] -mul z11.s, z11.s,z0.s[2] -mla z11.s, P0/M, z12.s, z31.s -sub z12.s, z10.s, z11.s -add z10.s, z10.s, z11.s -sqrdmulh z11.s, z8.s, z1.s[2] -mul z8.s, z8.s,z0.s[2] -mla z8.s, P0/M, z11.s, z31.s -sub z11.s, z9.s, z8.s -add z9.s, z9.s, z8.s -sqrdmulh z8.s, z16.s, z3.s[0] -mul z16.s, z16.s,z2.s[0] -mla z16.s, P0/M, z8.s, z31.s -sub z8.s, z15.s, z16.s -add z15.s, z15.s, z16.s -str q15, [x0, #384] -str q8, [x0, #400] -sqrdmulh z8.s, z14.s, z3.s[1] -mul z14.s, z14.s,z2.s[1] -mla z14.s, P0/M, z8.s, z31.s -sub z8.s, z13.s, z14.s -add z13.s, z13.s, z14.s -str q13, [x0, #416] -str q8, [x0, #432] -sqrdmulh z8.s, z12.s, z3.s[3] -mul z12.s, z12.s,z2.s[3] -mla z12.s, P0/M, z8.s, z31.s -sub z8.s, z11.s, z12.s -add z11.s, z11.s, z12.s -str q11, [x0, #480] -str q8, [x0, #496] -sqrdmulh z8.s, z10.s, z3.s[2] -mul z10.s, z10.s,z2.s[2] -mla z10.s, P0/M, z8.s, z31.s -sub z8.s, z9.s, z10.s -add z9.s, z9.s, z10.s -str q9, [x0, #448] -str q8, [x0, #464] -ldr q8, [x0, #624] -ldr q9, [x0, #608] -ldr q10, [x0, #576] -ldr q11, [x0, #592] -ldr q12, [x0, #560] -ldr q13, [x0, #544] -ldr q14, [x0, #512] -ldr q15, [x0, #528] -sqrdmulh z16.s, z8.s, z5.s[0] -mul z8.s, z8.s,z4.s[0] -mla z8.s, P0/M, z16.s, z31.s -sub z16.s, z12.s, z8.s -add z12.s, z12.s, z8.s -sqrdmulh z8.s, z9.s, z5.s[0] -mul z9.s, z9.s,z4.s[0] -mla z9.s, P0/M, z8.s, z31.s -sub z8.s, z13.s, z9.s -add z13.s, z13.s, z9.s -sqrdmulh z9.s, z10.s, z5.s[0] -mul z10.s, z10.s,z4.s[0] -mla z10.s, P0/M, z9.s, z31.s -sub z9.s, z14.s, z10.s -add z14.s, z14.s, z10.s -sqrdmulh z10.s, z11.s, z5.s[0] -mul z11.s, z11.s,z4.s[0] -mla z11.s, P0/M, z10.s, z31.s -sub z10.s, z15.s, z11.s -add z15.s, z15.s, z11.s -sqrdmulh z11.s, z12.s, z5.s[1] -mul z12.s, z12.s,z4.s[1] -mla z12.s, P0/M, z11.s, z31.s -sub z11.s, z15.s, z12.s -add z15.s, z15.s, z12.s -ldr q3, [x17, #+384] -ldr q2, [x17, #+400] -ldr q1, [x17, #+416] -ldr q0, [x17, #+432] -sqrdmulh z12.s, z13.s, z5.s[1] -mul z13.s, z13.s,z4.s[1] -mla z13.s, P0/M, z12.s, z31.s -sub z12.s, z14.s, z13.s -add z14.s, z14.s, z13.s -sqrdmulh z13.s, z16.s, z5.s[2] -mul z16.s, z16.s,z4.s[2] -mla z16.s, P0/M, z13.s, z31.s -sub z13.s, z10.s, z16.s -add z10.s, z10.s, z16.s -sqrdmulh z16.s, z8.s, z5.s[2] -mul z8.s, z8.s,z4.s[2] -mla z8.s, P0/M, z16.s, z31.s -sub z16.s, z9.s, z8.s -add z9.s, z9.s, z8.s -sqrdmulh z8.s, z15.s, z7.s[0] -mul z15.s, z15.s,z6.s[0] -mla z15.s, P0/M, z8.s, z31.s -sub z8.s, z14.s, z15.s -add z14.s, z14.s, z15.s -str q14, [x0, #512] -str q8, [x0, #528] -sqrdmulh z8.s, z11.s, z7.s[1] -mul z11.s, z11.s,z6.s[1] -mla z11.s, P0/M, z8.s, z31.s -sub z8.s, z12.s, z11.s -add z12.s, z12.s, z11.s -str q12, [x0, #544] -str q8, [x0, #560] -sqrdmulh z8.s, z13.s, z7.s[3] -mul z13.s, z13.s,z6.s[3] -mla z13.s, P0/M, z8.s, z31.s -sub z8.s, z16.s, z13.s -add z16.s, z16.s, z13.s -str q16, [x0, #608] -str q8, [x0, #624] -sqrdmulh z8.s, z10.s, z7.s[2] -mul z10.s, z10.s,z6.s[2] -mla z10.s, P0/M, z8.s, z31.s -sub z8.s, z9.s, z10.s -add z9.s, z9.s, z10.s -str q9, [x0, #576] -str q8, [x0, #592] -ldr q8, [x0, #752] -ldr q9, [x0, #736] -ldr q10, [x0, #704] -ldr q16, [x0, #720] -ldr q13, [x0, #688] -ldr q12, [x0, #672] -ldr q11, [x0, #640] -ldr q14, [x0, #656] -sqrdmulh z15.s, z8.s, z2.s[0] -mul z8.s, z8.s,z3.s[0] -mla z8.s, P0/M, z15.s, z31.s -sub z15.s, z13.s, z8.s -add z13.s, z13.s, z8.s -sqrdmulh z8.s, z9.s, z2.s[0] -mul z9.s, z9.s,z3.s[0] -mla z9.s, P0/M, z8.s, z31.s -sub z8.s, z12.s, z9.s -add z12.s, z12.s, z9.s -sqrdmulh z9.s, z10.s, z2.s[0] -mul z10.s, z10.s,z3.s[0] -mla z10.s, P0/M, z9.s, z31.s -sub z9.s, z11.s, z10.s -add z11.s, z11.s, z10.s -sqrdmulh z10.s, z16.s, z2.s[0] -mul z16.s, z16.s,z3.s[0] -mla z16.s, P0/M, z10.s, z31.s -sub z10.s, z14.s, z16.s -add z14.s, z14.s, z16.s -sqrdmulh z16.s, z13.s, z2.s[1] -mul z13.s, z13.s,z3.s[1] -mla z13.s, P0/M, z16.s, z31.s -sub z16.s, z14.s, z13.s -add z14.s, z14.s, z13.s -ldr q7, [x17, #+448] -ldr q6, [x17, #+464] -ldr q5, [x17, #+480] -ldr q4, [x17, #+496] -sqrdmulh z13.s, z12.s, z2.s[1] -mul z12.s, z12.s,z3.s[1] -mla z12.s, P0/M, z13.s, z31.s -sub z13.s, z11.s, z12.s -add z11.s, z11.s, z12.s -sqrdmulh z12.s, z15.s, z2.s[2] -mul z15.s, z15.s,z3.s[2] -mla z15.s, P0/M, z12.s, z31.s -sub z12.s, z10.s, z15.s -add z10.s, z10.s, z15.s -sqrdmulh z15.s, z8.s, z2.s[2] -mul z8.s, z8.s,z3.s[2] -mla z8.s, P0/M, z15.s, z31.s -sub z15.s, z9.s, z8.s -add z9.s, z9.s, z8.s -sqrdmulh z8.s, z14.s, z0.s[0] -mul z14.s, z14.s,z1.s[0] -mla z14.s, P0/M, z8.s, z31.s -sub z8.s, z11.s, z14.s -add z11.s, z11.s, z14.s -str q11, [x0, #640] -str q8, [x0, #656] -sqrdmulh z8.s, z16.s, z0.s[1] -mul z16.s, z16.s,z1.s[1] -mla z16.s, P0/M, z8.s, z31.s -sub z8.s, z13.s, z16.s -add z13.s, z13.s, z16.s -str q13, [x0, #672] -str q8, [x0, #688] -sqrdmulh z8.s, z12.s, z0.s[3] -mul z12.s, z12.s,z1.s[3] -mla z12.s, P0/M, z8.s, z31.s -sub z8.s, z15.s, z12.s -add z15.s, z15.s, z12.s -str q15, [x0, #736] -str q8, [x0, #752] -sqrdmulh z8.s, z10.s, z0.s[2] -mul z10.s, z10.s,z1.s[2] -mla z10.s, P0/M, z8.s, z31.s -sub z8.s, z9.s, z10.s -add z9.s, z9.s, z10.s -str q9, [x0, #704] -str q8, [x0, #720] -ldr q8, [x0, #880] -ldr q9, [x0, #864] -ldr q10, [x0, #832] -ldr q15, [x0, #848] -ldr q12, [x0, #816] -ldr q13, [x0, #800] -ldr q16, [x0, #768] -ldr q11, [x0, #784] -sqrdmulh z14.s, z8.s, z6.s[0] -mul z8.s, z8.s,z7.s[0] -mla z8.s, P0/M, z14.s, z31.s -sub z14.s, z12.s, z8.s -add z12.s, z12.s, z8.s -sqrdmulh z8.s, z9.s, z6.s[0] -mul z9.s, z9.s,z7.s[0] -mla z9.s, P0/M, z8.s, z31.s -sub z8.s, z13.s, z9.s -add z13.s, z13.s, z9.s -sqrdmulh z9.s, z10.s, z6.s[0] -mul z10.s, z10.s,z7.s[0] -mla z10.s, P0/M, z9.s, z31.s -sub z9.s, z16.s, z10.s -add z16.s, z16.s, z10.s -sqrdmulh z10.s, z15.s, z6.s[0] -mul z15.s, z15.s,z7.s[0] -mla z15.s, P0/M, z10.s, z31.s -sub z10.s, z11.s, z15.s -add z11.s, z11.s, z15.s -sqrdmulh z15.s, z12.s, z6.s[1] -mul z12.s, z12.s,z7.s[1] -mla z12.s, P0/M, z15.s, z31.s -sub z15.s, z11.s, z12.s -add z11.s, z11.s, z12.s -ldr q0, [x17, #+512] -ldr q1, [x17, #+528] -ldr q2, [x17, #+544] -ldr q3, [x17, #+560] -sqrdmulh z12.s, z13.s, z6.s[1] -mul z13.s, z13.s,z7.s[1] -mla z13.s, P0/M, z12.s, z31.s -sub z12.s, z16.s, z13.s -add z16.s, z16.s, z13.s -sqrdmulh z13.s, z14.s, z6.s[2] -mul z14.s, z14.s,z7.s[2] -mla z14.s, P0/M, z13.s, z31.s -sub z13.s, z10.s, z14.s -add z10.s, z10.s, z14.s -sqrdmulh z14.s, z8.s, z6.s[2] -mul z8.s, z8.s,z7.s[2] -mla z8.s, P0/M, z14.s, z31.s -sub z14.s, z9.s, z8.s -add z9.s, z9.s, z8.s -sqrdmulh z8.s, z11.s, z4.s[0] -mul z11.s, z11.s,z5.s[0] -mla z11.s, P0/M, z8.s, z31.s -sub z8.s, z16.s, z11.s -add z16.s, z16.s, z11.s -str q16, [x0, #768] -str q8, [x0, #784] -sqrdmulh z8.s, z15.s, z4.s[1] -mul z15.s, z15.s,z5.s[1] -mla z15.s, P0/M, z8.s, z31.s -sub z8.s, z12.s, z15.s -add z12.s, z12.s, z15.s -str q12, [x0, #800] -str q8, [x0, #816] -sqrdmulh z8.s, z13.s, z4.s[3] -mul z13.s, z13.s,z5.s[3] -mla z13.s, P0/M, z8.s, z31.s -sub z8.s, z14.s, z13.s -add z14.s, z14.s, z13.s -str q14, [x0, #864] -str q8, [x0, #880] -sqrdmulh z8.s, z10.s, z4.s[2] -mul z10.s, z10.s,z5.s[2] -mla z10.s, P0/M, z8.s, z31.s -sub z8.s, z9.s, z10.s -add z9.s, z9.s, z10.s -str q9, [x0, #832] -str q8, [x0, #848] -ldr q8, [x0, #1008] -ldr q9, [x0, #992] -ldr q10, [x0, #960] -ldr q14, [x0, #976] -ldr q13, [x0, #944] -ldr q12, [x0, #928] -ldr q15, [x0, #896] -ldr q16, [x0, #912] -sqrdmulh z11.s, z8.s, z1.s[0] -mul z8.s, z8.s,z0.s[0] -mla z8.s, P0/M, z11.s, z31.s -sub z11.s, z13.s, z8.s -add z13.s, z13.s, z8.s -sqrdmulh z8.s, z9.s, z1.s[0] -mul z9.s, z9.s,z0.s[0] -mla z9.s, P0/M, z8.s, z31.s -sub z8.s, z12.s, z9.s -add z12.s, z12.s, z9.s -sqrdmulh z9.s, z10.s, z1.s[0] -mul z10.s, z10.s,z0.s[0] -mla z10.s, P0/M, z9.s, z31.s -sub z9.s, z15.s, z10.s -add z15.s, z15.s, z10.s -sqrdmulh z10.s, z14.s, z1.s[0] -mul z14.s, z14.s,z0.s[0] -mla z14.s, P0/M, z10.s, z31.s -sub z10.s, z16.s, z14.s -add z16.s, z16.s, z14.s -sqrdmulh z14.s, z13.s, z1.s[1] -mul z13.s, z13.s,z0.s[1] -mla z13.s, P0/M, z14.s, z31.s -sub z14.s, z16.s, z13.s -add z16.s, z16.s, z13.s -sqrdmulh z13.s, z12.s, z1.s[1] -mul z12.s, z12.s,z0.s[1] -mla z12.s, P0/M, z13.s, z31.s -sub z13.s, z15.s, z12.s -add z15.s, z15.s, z12.s -sqrdmulh z12.s, z11.s, z1.s[2] -mul z11.s, z11.s,z0.s[2] -mla z11.s, P0/M, z12.s, z31.s -sub z12.s, z10.s, z11.s -add z10.s, z10.s, z11.s -sqrdmulh z11.s, z8.s, z1.s[2] -mul z8.s, z8.s,z0.s[2] -mla z8.s, P0/M, z11.s, z31.s -sub z11.s, z9.s, z8.s -add z9.s, z9.s, z8.s -sqrdmulh z8.s, z16.s, z3.s[0] -mul z16.s, z16.s,z2.s[0] -mla z16.s, P0/M, z8.s, z31.s -sub z8.s, z15.s, z16.s -add z15.s, z15.s, z16.s -str q15, [x0, #896] -str q8, [x0, #912] -sqrdmulh z8.s, z14.s, z3.s[1] -mul z14.s, z14.s,z2.s[1] -mla z14.s, P0/M, z8.s, z31.s -sub z8.s, z13.s, z14.s -add z13.s, z13.s, z14.s -str q13, [x0, #928] -str q8, [x0, #944] -sqrdmulh z8.s, z12.s, z3.s[3] -mul z12.s, z12.s,z2.s[3] -mla z12.s, P0/M, z8.s, z31.s -sub z8.s, z11.s, z12.s -add z11.s, z11.s, z12.s -str q11, [x0, #992] -str q8, [x0, #1008] -sqrdmulh z8.s, z10.s, z3.s[2] -mul z10.s, z10.s,z2.s[2] -mla z10.s, P0/M, z8.s, z31.s -sub z8.s, z9.s, z10.s -add z9.s, z9.s, z10.s -str q9, [x0, #960] -str q8, [x0, #976] -// Restore SVE2 vector registers -ldp d8, d9, [sp, #16*0] -ldp d10, d11, [sp, #16*1] -ldp d12, d13, [sp, #16*2] -ldp d14, d15, [sp, #16*3] -add sp, sp, #(16*4) -// Restore GPRs -ldp x19, x20, [sp, #16*0] -ldp x21, x22, [sp, #16*1] -ldp x23, x24, [sp, #16*2] -ldp x25, x26, [sp, #16*3] -ldp x27, x28, [sp, #16*4] -ldr x29, [sp, #16*5] -add sp, sp, #(16*5+16) -ret - -// Line count: 1445 -// Instruction count: 1441 \ No newline at end of file diff --git a/tests/ntt_sve2/auto/ntt_u64_incomplete_72057594067788289_60277548896192635_var_3_3_0.s b/tests/ntt_sve2/auto/ntt_u64_incomplete_72057594067788289_60277548896192635_var_3_3_0.s deleted file mode 100644 index aa5cd18..0000000 --- a/tests/ntt_sve2/auto/ntt_u64_incomplete_72057594067788289_60277548896192635_var_3_3_0.s +++ /dev/null @@ -1,2727 +0,0 @@ - -/// -/// Copyright (c) 2021 Arm Limited -/// SPDX-License-Identifier: MIT -/// -/// Permission is hereby granted, free of charge, to any person obtaining a copy -/// of this software and associated documentation files (the "Software"), to deal -/// in the Software without restriction, including without limitation the rights -/// to use, copy, modify, merge, publish, distribute, sublicense, and/or sell -/// copies of the Software, and to permit persons to whom the Software is -/// furnished to do so, subject to the following conditions: -/// -/// The above copyright notice and this permission notice shall be included in all -/// copies or substantial portions of the Software. -/// -/// THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR -/// IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, -/// FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE -/// AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER -/// LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, -/// OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE -/// SOFTWARE - - -/// -/// This assembly code has been auto-generated. -/// Don't modify it directly. -/// - -modulus: -.dword -72057594067788289 -.dword -72057594067788289 -.dword -72057594067788289 -.dword -72057594067788289 -.align 6 -roots_merged: -.dword 25792053496987399 // Layer 0, block 0 -.dword 0 // Layer None, block None -.dword 3301382846246308405 // Layer 0, block 0 -.dword 0 // Layer None, block None -.dword 36678763444893001 // Layer 1, block 0 -.dword 12009493193917617 // Layer 1, block 1 -.dword 4694881719000765600 // Layer 1, block 0 -.dword 1537215128184439725 // Layer 1, block 1 -.dword 57226611787624233 // Layer 2, block 0 -.dword 39665359539540334 // Layer 2, block 1 -.dword 7325006305780451127 // Layer 2, block 0 -.dword 5077166018957207276 // Layer 2, block 1 -.dword 14359056949694594 // Layer 2, block 2 -.dword 63449028357011879 // Layer 2, block 3 -.dword 1837959288799265711 // Layer 2, block 2 -.dword 8121475626332016399 // Layer 2, block 3 -.dword 56437370284897879 // Layer 3, block 0 -.dword 0 // Layer None, block None -.dword 7223983393473341270 // Layer 3, block 0 -.dword 0 // Layer None, block None -.dword 15519149204003269 // Layer 4, block 0 -.dword 18945631884663455 // Layer 4, block 1 -.dword 1986451097289241753 // Layer 4, block 0 -.dword 2425040880231995866 // Layer 4, block 1 -.dword 21843809513296019 // Layer 5, block 0 -.dword 52861630939350015 // Layer 5, block 1 -.dword 2796007616543237058 // Layer 5, block 0 -.dword 6766288757432881341 // Layer 5, block 1 -.dword 58200436133340777 // Layer 5, block 2 -.dword 45581265709396633 // Layer 5, block 3 -.dword 7449655821980514543 // Layer 5, block 2 -.dword 5834402008385018253 // Layer 5, block 3 -.dword 7801853795705237 // Layer 3, block 1 -.dword 0 // Layer None, block None -.dword 998637285436439396 // Layer 3, block 1 -.dword 0 // Layer None, block None -.dword 72057409685042741 // Layer 4, block 2 -.dword 67813594624550994 // Layer 4, block 3 -.dword 9223348435863355444 // Layer 4, block 2 -.dword 8680140108345514992 // Layer 4, block 3 -.dword 16444438478993771 // Layer 5, block 4 -.dword 44738633871916757 // Layer 5, block 5 -.dword 2104888124438946221 // Layer 5, block 4 -.dword 5726545133232289544 // Layer 5, block 5 -.dword 14998888047589537 // Layer 5, block 6 -.dword 1367715298619054 // Layer 5, block 7 -.dword 1919857669295880083 // Layer 5, block 6 -.dword 175067558150691679 // Layer 5, block 7 -.dword 50810289212278368 // Layer 3, block 2 -.dword 0 // Layer None, block None -.dword 6503717016476519110 // Layer 3, block 2 -.dword 0 // Layer None, block None -.dword 38922220208018571 // Layer 4, block 4 -.dword 7966052600948377 // Layer 4, block 5 -.dword 4982044184561839686 // Layer 4, block 4 -.dword 1019654732498851778 // Layer 4, block 5 -.dword 45879272116084567 // Layer 5, block 8 -.dword 66654388400258382 // Layer 5, block 9 -.dword 5872546828425266758 // Layer 5, block 8 -.dword 8531761711697548017 // Layer 5, block 9 -.dword 8930087962801744 // Layer 5, block 10 -.dword 61848588213223279 // Layer 5, block 11 -.dword 1143051258764947771 // Layer 5, block 10 -.dword 7916619288011967173 // Layer 5, block 11 -.dword 31977682183549777 // Layer 3, block 3 -.dword 0 // Layer None, block None -.dword 4093143317798190700 // Layer 3, block 3 -.dword 0 // Layer None, block None -.dword 66070897124800871 // Layer 4, block 6 -.dword 953067252694683 // Layer 4, block 7 -.dword 8457074828469936528 // Layer 4, block 6 -.dword 121992608294366219 // Layer 4, block 7 -.dword 33801610235026337 // Layer 5, block 12 -.dword 32122784433286747 // Layer 5, block 13 -.dword 4326606108290444417 // Layer 5, block 12 -.dword 4111716405756826253 // Layer 5, block 13 -.dword 67688369535326483 // Layer 5, block 14 -.dword 45021686719473556 // Layer 5, block 15 -.dword 8664111296931419854 // Layer 5, block 14 -.dword 5762775897704545946 // Layer 5, block 15 -.dword 66662168904752601 // Layer 3, block 4 -.dword 0 // Layer None, block None -.dword 8532757616272395351 // Layer 3, block 4 -.dword 0 // Layer None, block None -.dword 23961218891132444 // Layer 4, block 8 -.dword 59012643726482518 // Layer 4, block 9 -.dword 3067036016793986470 // Layer 4, block 8 -.dword 7553618393859575754 // Layer 4, block 9 -.dword 52812533586708198 // Layer 5, block 16 -.dword 27994290036168371 // Layer 5, block 17 -.dword 6760004296297333018 // Layer 5, block 16 -.dword 3583269123144660376 // Layer 5, block 17 -.dword 45890717144660134 // Layer 5, block 18 -.dword 39684773913748863 // Layer 5, block 19 -.dword 5874011792082332260 // Layer 5, block 18 -.dword 5079651058854869198 // Layer 5, block 19 -.dword 50149898471788096 // Layer 3, block 5 -.dword 0 // Layer None, block None -.dword 6419187001728793164 // Layer 3, block 5 -.dword 0 // Layer None, block None -.dword 65714767972465509 // Layer 4, block 10 -.dword 51421828010275652 // Layer 4, block 11 -.dword 8411490296989900223 // Layer 4, block 10 -.dword 6581993982587733829 // Layer 4, block 11 -.dword 18683690578478417 // Layer 5, block 20 -.dword 3282356803714609 // Layer 5, block 21 -.dword 2391512393054205061 // Layer 5, block 20 -.dword 420141670701365074 // Layer 5, block 21 -.dword 67884452950503047 // Layer 5, block 22 -.dword 10335338564031418 // Layer 5, block 23 -.dword 8689209974063619263 // Layer 5, block 22 -.dword 1322923335647807838 // Layer 5, block 23 -.dword 30932683335866672 // Layer 3, block 6 -.dword 0 // Layer None, block None -.dword 3959383465350182760 // Layer 3, block 6 -.dword 0 // Layer None, block None -.dword 27050097608373352 // Layer 4, block 12 -.dword 67454821565758121 // Layer 4, block 13 -.dword 3462412492436980406 // Layer 4, block 12 -.dword 8634217156839057519 // Layer 4, block 13 -.dword 32828920539599153 // Layer 5, block 24 -.dword 8624332566875856 // Layer 5, block 25 -.dword 4202101827327358896 // Layer 5, block 24 -.dword 1103914568102652181 // Layer 5, block 25 -.dword 56732837753533829 // Layer 5, block 26 -.dword 14816466027490539 // Layer 5, block 27 -.dword 7261803229443070495 // Layer 5, block 26 -.dword 1896507650732884485 // Layer 5, block 27 -.dword 54968319742463037 // Layer 3, block 7 -.dword 0 // Layer None, block None -.dword 7035944924119603816 // Layer 3, block 7 -.dword 0 // Layer None, block None -.dword 55666925166425210 // Layer 4, block 14 -.dword 34241587306439298 // Layer 4, block 15 -.dword 7125366418349706083 // Layer 4, block 14 -.dword 4382923173407965878 // Layer 4, block 15 -.dword 8550051130607768 // Layer 5, block 28 -.dword 14420141705316589 // Layer 5, block 29 -.dword 1094406544264277001 // Layer 5, block 28 -.dword 1845778137515640974 // Layer 5, block 29 -.dword 55622715926092387 // Layer 5, block 30 -.dword 3405033449209397 // Layer 5, block 31 -.dword 7119707635589449714 // Layer 5, block 30 -.dword 435844281318190845 // Layer 5, block 31 -.text -.type ntt_u64_incomplete_sve2_asm_var_3_3_0, %function -.global ntt_u64_incomplete_sve2_asm_var_3_3_0 -modulus_addr: .quad modulus -roots_merged_addr: .quad roots_merged -ntt_u64_incomplete_sve2_asm_var_3_3_0: -// Save GPRs -sub sp, sp, #(16*5+16) -stp x19, x20, [sp, #16*0] -stp x19, x20, [sp, #16*0] -stp x21, x22, [sp, #16*1] -stp x23, x24, [sp, #16*2] -stp x25, x26, [sp, #16*3] -stp x27, x28, [sp, #16*4] -str x29, [sp, #16*5] -// Save SVE2 vector registers -sub sp, sp, #(16*4) -stp d8, d9, [sp, #16*0] -stp d10, d11, [sp, #16*1] -stp d12, d13, [sp, #16*2] -stp d14, d15, [sp, #16*3] -ldr x17, modulus_addr -ldr q31, [x17] -ptrue P0.d -ldr x17, roots_merged_addr -ldr q3, [x17, #+0] -ldr q2, [x17, #+16] -ldr q1, [x17, #+32] -ldr q0, [x17, #+48] -ldr q15, [x17, #+64] -ldr q14, [x17, #+80] -ldr q13, [x17, #+96] -ldr q12, [x17, #+112] -ldr q30, [x0, #1920] -ldr q29, [x0, #1664] -ldr q28, [x0, #1152] -ldr q27, [x0, #1408] -ldr q26, [x0, #896] -ldr q25, [x0, #640] -ldr q24, [x0, #128] -ldr q23, [x0, #384] -sqrdmulh z22.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z22.d, z31.d -sub z22.d, z26.d, z30.d -add z26.d, z26.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z29.d -add z25.d, z25.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z24.d, z28.d -add z24.d, z24.d, z28.d -sqrdmulh z28.d, z27.d, z2.d[0] -mul z27.d, z27.d,z3.d[0] -mla z27.d, P0/M, z28.d, z31.d -sub z28.d, z23.d, z27.d -add z23.d, z23.d, z27.d -sqrdmulh z27.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z27.d, z31.d -sub z27.d, z23.d, z26.d -add z23.d, z23.d, z26.d -sqrdmulh z26.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z26.d, z31.d -sub z26.d, z24.d, z25.d -add z24.d, z24.d, z25.d -sqrdmulh z25.d, z22.d, z0.d[1] -mul z22.d, z22.d,z1.d[1] -mla z22.d, P0/M, z25.d, z31.d -sub z25.d, z28.d, z22.d -add z28.d, z28.d, z22.d -sqrdmulh z22.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z22.d, z31.d -sub z22.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z23.d, z14.d[0] -mul z23.d, z23.d,z15.d[0] -mla z23.d, P0/M, z30.d, z31.d -sub z30.d, z24.d, z23.d -add z24.d, z24.d, z23.d -str q24, [x0, #128] -str q30, [x0, #384] -sqrdmulh z30.d, z27.d, z14.d[1] -mul z27.d, z27.d,z15.d[1] -mla z27.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z27.d -add z26.d, z26.d, z27.d -str q26, [x0, #640] -str q30, [x0, #896] -sqrdmulh z30.d, z25.d, z12.d[1] -mul z25.d, z25.d,z13.d[1] -mla z25.d, P0/M, z30.d, z31.d -sub z30.d, z22.d, z25.d -add z22.d, z22.d, z25.d -str q22, [x0, #1664] -str q30, [x0, #1920] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1152] -str q30, [x0, #1408] -ldr q30, [x0, #1936] -ldr q29, [x0, #1680] -ldr q28, [x0, #1168] -ldr q22, [x0, #1424] -ldr q25, [x0, #912] -ldr q26, [x0, #656] -ldr q27, [x0, #144] -ldr q24, [x0, #400] -sqrdmulh z23.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z23.d, z31.d -sub z23.d, z25.d, z30.d -add z25.d, z25.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z29.d -add z26.d, z26.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z27.d, z28.d -add z27.d, z27.d, z28.d -sqrdmulh z28.d, z22.d, z2.d[0] -mul z22.d, z22.d,z3.d[0] -mla z22.d, P0/M, z28.d, z31.d -sub z28.d, z24.d, z22.d -add z24.d, z24.d, z22.d -sqrdmulh z22.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z22.d, z31.d -sub z22.d, z24.d, z25.d -add z24.d, z24.d, z25.d -sqrdmulh z25.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z25.d, z31.d -sub z25.d, z27.d, z26.d -add z27.d, z27.d, z26.d -sqrdmulh z26.d, z23.d, z0.d[1] -mul z23.d, z23.d,z1.d[1] -mla z23.d, P0/M, z26.d, z31.d -sub z26.d, z28.d, z23.d -add z28.d, z28.d, z23.d -sqrdmulh z23.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z23.d, z31.d -sub z23.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z24.d, z14.d[0] -mul z24.d, z24.d,z15.d[0] -mla z24.d, P0/M, z30.d, z31.d -sub z30.d, z27.d, z24.d -add z27.d, z27.d, z24.d -str q27, [x0, #144] -str q30, [x0, #400] -sqrdmulh z30.d, z22.d, z14.d[1] -mul z22.d, z22.d,z15.d[1] -mla z22.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z22.d -add z25.d, z25.d, z22.d -str q25, [x0, #656] -str q30, [x0, #912] -sqrdmulh z30.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -mla z26.d, P0/M, z30.d, z31.d -sub z30.d, z23.d, z26.d -add z23.d, z23.d, z26.d -str q23, [x0, #1680] -str q30, [x0, #1936] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1168] -str q30, [x0, #1424] -ldr q30, [x0, #1952] -ldr q29, [x0, #1696] -ldr q28, [x0, #1184] -ldr q23, [x0, #1440] -ldr q26, [x0, #928] -ldr q25, [x0, #672] -ldr q22, [x0, #160] -ldr q27, [x0, #416] -sqrdmulh z24.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z24.d, z31.d -sub z24.d, z26.d, z30.d -add z26.d, z26.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z29.d -add z25.d, z25.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z22.d, z28.d -add z22.d, z22.d, z28.d -sqrdmulh z28.d, z23.d, z2.d[0] -mul z23.d, z23.d,z3.d[0] -mla z23.d, P0/M, z28.d, z31.d -sub z28.d, z27.d, z23.d -add z27.d, z27.d, z23.d -sqrdmulh z23.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z23.d, z31.d -sub z23.d, z27.d, z26.d -add z27.d, z27.d, z26.d -sqrdmulh z26.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z26.d, z31.d -sub z26.d, z22.d, z25.d -add z22.d, z22.d, z25.d -sqrdmulh z25.d, z24.d, z0.d[1] -mul z24.d, z24.d,z1.d[1] -mla z24.d, P0/M, z25.d, z31.d -sub z25.d, z28.d, z24.d -add z28.d, z28.d, z24.d -sqrdmulh z24.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z24.d, z31.d -sub z24.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z27.d, z14.d[0] -mul z27.d, z27.d,z15.d[0] -mla z27.d, P0/M, z30.d, z31.d -sub z30.d, z22.d, z27.d -add z22.d, z22.d, z27.d -str q22, [x0, #160] -str q30, [x0, #416] -sqrdmulh z30.d, z23.d, z14.d[1] -mul z23.d, z23.d,z15.d[1] -mla z23.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z23.d -add z26.d, z26.d, z23.d -str q26, [x0, #672] -str q30, [x0, #928] -sqrdmulh z30.d, z25.d, z12.d[1] -mul z25.d, z25.d,z13.d[1] -mla z25.d, P0/M, z30.d, z31.d -sub z30.d, z24.d, z25.d -add z24.d, z24.d, z25.d -str q24, [x0, #1696] -str q30, [x0, #1952] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1184] -str q30, [x0, #1440] -ldr q30, [x0, #1968] -ldr q29, [x0, #1712] -ldr q28, [x0, #1200] -ldr q24, [x0, #1456] -ldr q25, [x0, #944] -ldr q26, [x0, #688] -ldr q23, [x0, #176] -ldr q22, [x0, #432] -sqrdmulh z27.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z27.d, z31.d -sub z27.d, z25.d, z30.d -add z25.d, z25.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z29.d -add z26.d, z26.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z23.d, z28.d -add z23.d, z23.d, z28.d -sqrdmulh z28.d, z24.d, z2.d[0] -mul z24.d, z24.d,z3.d[0] -mla z24.d, P0/M, z28.d, z31.d -sub z28.d, z22.d, z24.d -add z22.d, z22.d, z24.d -sqrdmulh z24.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z24.d, z31.d -sub z24.d, z22.d, z25.d -add z22.d, z22.d, z25.d -sqrdmulh z25.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z25.d, z31.d -sub z25.d, z23.d, z26.d -add z23.d, z23.d, z26.d -sqrdmulh z26.d, z27.d, z0.d[1] -mul z27.d, z27.d,z1.d[1] -mla z27.d, P0/M, z26.d, z31.d -sub z26.d, z28.d, z27.d -add z28.d, z28.d, z27.d -sqrdmulh z27.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z27.d, z31.d -sub z27.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z22.d, z14.d[0] -mul z22.d, z22.d,z15.d[0] -mla z22.d, P0/M, z30.d, z31.d -sub z30.d, z23.d, z22.d -add z23.d, z23.d, z22.d -str q23, [x0, #176] -str q30, [x0, #432] -sqrdmulh z30.d, z24.d, z14.d[1] -mul z24.d, z24.d,z15.d[1] -mla z24.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z24.d -add z25.d, z25.d, z24.d -str q25, [x0, #688] -str q30, [x0, #944] -sqrdmulh z30.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -mla z26.d, P0/M, z30.d, z31.d -sub z30.d, z27.d, z26.d -add z27.d, z27.d, z26.d -str q27, [x0, #1712] -str q30, [x0, #1968] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1200] -str q30, [x0, #1456] -ldr q30, [x0, #1984] -ldr q29, [x0, #1728] -ldr q28, [x0, #1216] -ldr q27, [x0, #1472] -ldr q26, [x0, #960] -ldr q25, [x0, #704] -ldr q24, [x0, #192] -ldr q23, [x0, #448] -sqrdmulh z22.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z22.d, z31.d -sub z22.d, z26.d, z30.d -add z26.d, z26.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z29.d -add z25.d, z25.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z24.d, z28.d -add z24.d, z24.d, z28.d -sqrdmulh z28.d, z27.d, z2.d[0] -mul z27.d, z27.d,z3.d[0] -mla z27.d, P0/M, z28.d, z31.d -sub z28.d, z23.d, z27.d -add z23.d, z23.d, z27.d -sqrdmulh z27.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z27.d, z31.d -sub z27.d, z23.d, z26.d -add z23.d, z23.d, z26.d -sqrdmulh z26.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z26.d, z31.d -sub z26.d, z24.d, z25.d -add z24.d, z24.d, z25.d -sqrdmulh z25.d, z22.d, z0.d[1] -mul z22.d, z22.d,z1.d[1] -mla z22.d, P0/M, z25.d, z31.d -sub z25.d, z28.d, z22.d -add z28.d, z28.d, z22.d -sqrdmulh z22.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z22.d, z31.d -sub z22.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z23.d, z14.d[0] -mul z23.d, z23.d,z15.d[0] -mla z23.d, P0/M, z30.d, z31.d -sub z30.d, z24.d, z23.d -add z24.d, z24.d, z23.d -str q24, [x0, #192] -str q30, [x0, #448] -sqrdmulh z30.d, z27.d, z14.d[1] -mul z27.d, z27.d,z15.d[1] -mla z27.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z27.d -add z26.d, z26.d, z27.d -str q26, [x0, #704] -str q30, [x0, #960] -sqrdmulh z30.d, z25.d, z12.d[1] -mul z25.d, z25.d,z13.d[1] -mla z25.d, P0/M, z30.d, z31.d -sub z30.d, z22.d, z25.d -add z22.d, z22.d, z25.d -str q22, [x0, #1728] -str q30, [x0, #1984] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1216] -str q30, [x0, #1472] -ldr q30, [x0, #2000] -ldr q29, [x0, #1744] -ldr q28, [x0, #1232] -ldr q22, [x0, #1488] -ldr q25, [x0, #976] -ldr q26, [x0, #720] -ldr q27, [x0, #208] -ldr q24, [x0, #464] -sqrdmulh z23.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z23.d, z31.d -sub z23.d, z25.d, z30.d -add z25.d, z25.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z29.d -add z26.d, z26.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z27.d, z28.d -add z27.d, z27.d, z28.d -sqrdmulh z28.d, z22.d, z2.d[0] -mul z22.d, z22.d,z3.d[0] -mla z22.d, P0/M, z28.d, z31.d -sub z28.d, z24.d, z22.d -add z24.d, z24.d, z22.d -sqrdmulh z22.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z22.d, z31.d -sub z22.d, z24.d, z25.d -add z24.d, z24.d, z25.d -sqrdmulh z25.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z25.d, z31.d -sub z25.d, z27.d, z26.d -add z27.d, z27.d, z26.d -sqrdmulh z26.d, z23.d, z0.d[1] -mul z23.d, z23.d,z1.d[1] -mla z23.d, P0/M, z26.d, z31.d -sub z26.d, z28.d, z23.d -add z28.d, z28.d, z23.d -sqrdmulh z23.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z23.d, z31.d -sub z23.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z24.d, z14.d[0] -mul z24.d, z24.d,z15.d[0] -mla z24.d, P0/M, z30.d, z31.d -sub z30.d, z27.d, z24.d -add z27.d, z27.d, z24.d -str q27, [x0, #208] -str q30, [x0, #464] -sqrdmulh z30.d, z22.d, z14.d[1] -mul z22.d, z22.d,z15.d[1] -mla z22.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z22.d -add z25.d, z25.d, z22.d -str q25, [x0, #720] -str q30, [x0, #976] -sqrdmulh z30.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -mla z26.d, P0/M, z30.d, z31.d -sub z30.d, z23.d, z26.d -add z23.d, z23.d, z26.d -str q23, [x0, #1744] -str q30, [x0, #2000] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1232] -str q30, [x0, #1488] -ldr q30, [x0, #2016] -ldr q29, [x0, #1760] -ldr q28, [x0, #1248] -ldr q23, [x0, #1504] -ldr q26, [x0, #992] -ldr q25, [x0, #736] -ldr q22, [x0, #224] -ldr q27, [x0, #480] -sqrdmulh z24.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z24.d, z31.d -sub z24.d, z26.d, z30.d -add z26.d, z26.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z29.d -add z25.d, z25.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z22.d, z28.d -add z22.d, z22.d, z28.d -sqrdmulh z28.d, z23.d, z2.d[0] -mul z23.d, z23.d,z3.d[0] -mla z23.d, P0/M, z28.d, z31.d -sub z28.d, z27.d, z23.d -add z27.d, z27.d, z23.d -sqrdmulh z23.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z23.d, z31.d -sub z23.d, z27.d, z26.d -add z27.d, z27.d, z26.d -sqrdmulh z26.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z26.d, z31.d -sub z26.d, z22.d, z25.d -add z22.d, z22.d, z25.d -sqrdmulh z25.d, z24.d, z0.d[1] -mul z24.d, z24.d,z1.d[1] -mla z24.d, P0/M, z25.d, z31.d -sub z25.d, z28.d, z24.d -add z28.d, z28.d, z24.d -sqrdmulh z24.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z24.d, z31.d -sub z24.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z27.d, z14.d[0] -mul z27.d, z27.d,z15.d[0] -mla z27.d, P0/M, z30.d, z31.d -sub z30.d, z22.d, z27.d -add z22.d, z22.d, z27.d -str q22, [x0, #224] -str q30, [x0, #480] -sqrdmulh z30.d, z23.d, z14.d[1] -mul z23.d, z23.d,z15.d[1] -mla z23.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z23.d -add z26.d, z26.d, z23.d -str q26, [x0, #736] -str q30, [x0, #992] -sqrdmulh z30.d, z25.d, z12.d[1] -mul z25.d, z25.d,z13.d[1] -mla z25.d, P0/M, z30.d, z31.d -sub z30.d, z24.d, z25.d -add z24.d, z24.d, z25.d -str q24, [x0, #1760] -str q30, [x0, #2016] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1248] -str q30, [x0, #1504] -ldr q30, [x0, #2032] -ldr q29, [x0, #1776] -ldr q28, [x0, #1264] -ldr q24, [x0, #1520] -ldr q25, [x0, #1008] -ldr q26, [x0, #752] -ldr q23, [x0, #240] -ldr q22, [x0, #496] -sqrdmulh z27.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z27.d, z31.d -sub z27.d, z25.d, z30.d -add z25.d, z25.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z29.d -add z26.d, z26.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z23.d, z28.d -add z23.d, z23.d, z28.d -sqrdmulh z28.d, z24.d, z2.d[0] -mul z24.d, z24.d,z3.d[0] -mla z24.d, P0/M, z28.d, z31.d -sub z28.d, z22.d, z24.d -add z22.d, z22.d, z24.d -sqrdmulh z24.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z24.d, z31.d -sub z24.d, z22.d, z25.d -add z22.d, z22.d, z25.d -sqrdmulh z25.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z25.d, z31.d -sub z25.d, z23.d, z26.d -add z23.d, z23.d, z26.d -sqrdmulh z26.d, z27.d, z0.d[1] -mul z27.d, z27.d,z1.d[1] -mla z27.d, P0/M, z26.d, z31.d -sub z26.d, z28.d, z27.d -add z28.d, z28.d, z27.d -sqrdmulh z27.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z27.d, z31.d -sub z27.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z22.d, z14.d[0] -mul z22.d, z22.d,z15.d[0] -mla z22.d, P0/M, z30.d, z31.d -sub z30.d, z23.d, z22.d -add z23.d, z23.d, z22.d -str q23, [x0, #240] -str q30, [x0, #496] -sqrdmulh z30.d, z24.d, z14.d[1] -mul z24.d, z24.d,z15.d[1] -mla z24.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z24.d -add z25.d, z25.d, z24.d -str q25, [x0, #752] -str q30, [x0, #1008] -sqrdmulh z30.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -mla z26.d, P0/M, z30.d, z31.d -sub z30.d, z27.d, z26.d -add z27.d, z27.d, z26.d -str q27, [x0, #1776] -str q30, [x0, #2032] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1264] -str q30, [x0, #1520] -ldr q30, [x0, #1792] -ldr q29, [x0, #1536] -ldr q28, [x0, #1024] -ldr q27, [x0, #1280] -ldr q26, [x0, #768] -ldr q25, [x0, #512] -ldr q24, [x0, #0] -ldr q23, [x0, #256] -sqrdmulh z22.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z22.d, z31.d -sub z22.d, z26.d, z30.d -add z26.d, z26.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z29.d -add z25.d, z25.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z24.d, z28.d -add z24.d, z24.d, z28.d -sqrdmulh z28.d, z27.d, z2.d[0] -mul z27.d, z27.d,z3.d[0] -mla z27.d, P0/M, z28.d, z31.d -sub z28.d, z23.d, z27.d -add z23.d, z23.d, z27.d -sqrdmulh z27.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z27.d, z31.d -sub z27.d, z23.d, z26.d -add z23.d, z23.d, z26.d -sqrdmulh z26.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z26.d, z31.d -sub z26.d, z24.d, z25.d -add z24.d, z24.d, z25.d -sqrdmulh z25.d, z22.d, z0.d[1] -mul z22.d, z22.d,z1.d[1] -mla z22.d, P0/M, z25.d, z31.d -sub z25.d, z28.d, z22.d -add z28.d, z28.d, z22.d -sqrdmulh z22.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z22.d, z31.d -sub z22.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z23.d, z14.d[0] -mul z23.d, z23.d,z15.d[0] -mla z23.d, P0/M, z30.d, z31.d -sub z30.d, z24.d, z23.d -add z24.d, z24.d, z23.d -str q24, [x0, #0] -str q30, [x0, #256] -sqrdmulh z30.d, z27.d, z14.d[1] -mul z27.d, z27.d,z15.d[1] -mla z27.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z27.d -add z26.d, z26.d, z27.d -str q26, [x0, #512] -str q30, [x0, #768] -sqrdmulh z30.d, z25.d, z12.d[1] -mul z25.d, z25.d,z13.d[1] -mla z25.d, P0/M, z30.d, z31.d -sub z30.d, z22.d, z25.d -add z22.d, z22.d, z25.d -str q22, [x0, #1536] -str q30, [x0, #1792] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1024] -str q30, [x0, #1280] -ldr q30, [x0, #1808] -ldr q29, [x0, #1552] -ldr q28, [x0, #1040] -ldr q22, [x0, #1296] -ldr q25, [x0, #784] -ldr q26, [x0, #528] -ldr q27, [x0, #16] -ldr q24, [x0, #272] -sqrdmulh z23.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z23.d, z31.d -sub z23.d, z25.d, z30.d -add z25.d, z25.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z29.d -add z26.d, z26.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z27.d, z28.d -add z27.d, z27.d, z28.d -sqrdmulh z28.d, z22.d, z2.d[0] -mul z22.d, z22.d,z3.d[0] -mla z22.d, P0/M, z28.d, z31.d -sub z28.d, z24.d, z22.d -add z24.d, z24.d, z22.d -sqrdmulh z22.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z22.d, z31.d -sub z22.d, z24.d, z25.d -add z24.d, z24.d, z25.d -sqrdmulh z25.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z25.d, z31.d -sub z25.d, z27.d, z26.d -add z27.d, z27.d, z26.d -sqrdmulh z26.d, z23.d, z0.d[1] -mul z23.d, z23.d,z1.d[1] -mla z23.d, P0/M, z26.d, z31.d -sub z26.d, z28.d, z23.d -add z28.d, z28.d, z23.d -sqrdmulh z23.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z23.d, z31.d -sub z23.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z24.d, z14.d[0] -mul z24.d, z24.d,z15.d[0] -mla z24.d, P0/M, z30.d, z31.d -sub z30.d, z27.d, z24.d -add z27.d, z27.d, z24.d -str q27, [x0, #16] -str q30, [x0, #272] -sqrdmulh z30.d, z22.d, z14.d[1] -mul z22.d, z22.d,z15.d[1] -mla z22.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z22.d -add z25.d, z25.d, z22.d -str q25, [x0, #528] -str q30, [x0, #784] -sqrdmulh z30.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -mla z26.d, P0/M, z30.d, z31.d -sub z30.d, z23.d, z26.d -add z23.d, z23.d, z26.d -str q23, [x0, #1552] -str q30, [x0, #1808] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1040] -str q30, [x0, #1296] -ldr q30, [x0, #1824] -ldr q29, [x0, #1568] -ldr q28, [x0, #1056] -ldr q23, [x0, #1312] -ldr q26, [x0, #800] -ldr q25, [x0, #544] -ldr q22, [x0, #32] -ldr q27, [x0, #288] -sqrdmulh z24.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z24.d, z31.d -sub z24.d, z26.d, z30.d -add z26.d, z26.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z29.d -add z25.d, z25.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z22.d, z28.d -add z22.d, z22.d, z28.d -sqrdmulh z28.d, z23.d, z2.d[0] -mul z23.d, z23.d,z3.d[0] -mla z23.d, P0/M, z28.d, z31.d -sub z28.d, z27.d, z23.d -add z27.d, z27.d, z23.d -sqrdmulh z23.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z23.d, z31.d -sub z23.d, z27.d, z26.d -add z27.d, z27.d, z26.d -sqrdmulh z26.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z26.d, z31.d -sub z26.d, z22.d, z25.d -add z22.d, z22.d, z25.d -sqrdmulh z25.d, z24.d, z0.d[1] -mul z24.d, z24.d,z1.d[1] -mla z24.d, P0/M, z25.d, z31.d -sub z25.d, z28.d, z24.d -add z28.d, z28.d, z24.d -sqrdmulh z24.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z24.d, z31.d -sub z24.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z27.d, z14.d[0] -mul z27.d, z27.d,z15.d[0] -mla z27.d, P0/M, z30.d, z31.d -sub z30.d, z22.d, z27.d -add z22.d, z22.d, z27.d -str q22, [x0, #32] -str q30, [x0, #288] -sqrdmulh z30.d, z23.d, z14.d[1] -mul z23.d, z23.d,z15.d[1] -mla z23.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z23.d -add z26.d, z26.d, z23.d -str q26, [x0, #544] -str q30, [x0, #800] -sqrdmulh z30.d, z25.d, z12.d[1] -mul z25.d, z25.d,z13.d[1] -mla z25.d, P0/M, z30.d, z31.d -sub z30.d, z24.d, z25.d -add z24.d, z24.d, z25.d -str q24, [x0, #1568] -str q30, [x0, #1824] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1056] -str q30, [x0, #1312] -ldr q30, [x0, #1840] -ldr q29, [x0, #1584] -ldr q28, [x0, #1072] -ldr q24, [x0, #1328] -ldr q25, [x0, #816] -ldr q26, [x0, #560] -ldr q23, [x0, #48] -ldr q22, [x0, #304] -sqrdmulh z27.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z27.d, z31.d -sub z27.d, z25.d, z30.d -add z25.d, z25.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z29.d -add z26.d, z26.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z23.d, z28.d -add z23.d, z23.d, z28.d -sqrdmulh z28.d, z24.d, z2.d[0] -mul z24.d, z24.d,z3.d[0] -mla z24.d, P0/M, z28.d, z31.d -sub z28.d, z22.d, z24.d -add z22.d, z22.d, z24.d -sqrdmulh z24.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z24.d, z31.d -sub z24.d, z22.d, z25.d -add z22.d, z22.d, z25.d -sqrdmulh z25.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z25.d, z31.d -sub z25.d, z23.d, z26.d -add z23.d, z23.d, z26.d -sqrdmulh z26.d, z27.d, z0.d[1] -mul z27.d, z27.d,z1.d[1] -mla z27.d, P0/M, z26.d, z31.d -sub z26.d, z28.d, z27.d -add z28.d, z28.d, z27.d -sqrdmulh z27.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z27.d, z31.d -sub z27.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z22.d, z14.d[0] -mul z22.d, z22.d,z15.d[0] -mla z22.d, P0/M, z30.d, z31.d -sub z30.d, z23.d, z22.d -add z23.d, z23.d, z22.d -str q23, [x0, #48] -str q30, [x0, #304] -sqrdmulh z30.d, z24.d, z14.d[1] -mul z24.d, z24.d,z15.d[1] -mla z24.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z24.d -add z25.d, z25.d, z24.d -str q25, [x0, #560] -str q30, [x0, #816] -sqrdmulh z30.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -mla z26.d, P0/M, z30.d, z31.d -sub z30.d, z27.d, z26.d -add z27.d, z27.d, z26.d -str q27, [x0, #1584] -str q30, [x0, #1840] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1072] -str q30, [x0, #1328] -ldr q30, [x0, #1856] -ldr q29, [x0, #1600] -ldr q28, [x0, #1088] -ldr q27, [x0, #1344] -ldr q26, [x0, #832] -ldr q25, [x0, #576] -ldr q24, [x0, #64] -ldr q23, [x0, #320] -sqrdmulh z22.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z22.d, z31.d -sub z22.d, z26.d, z30.d -add z26.d, z26.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z29.d -add z25.d, z25.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z24.d, z28.d -add z24.d, z24.d, z28.d -sqrdmulh z28.d, z27.d, z2.d[0] -mul z27.d, z27.d,z3.d[0] -mla z27.d, P0/M, z28.d, z31.d -sub z28.d, z23.d, z27.d -add z23.d, z23.d, z27.d -sqrdmulh z27.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z27.d, z31.d -sub z27.d, z23.d, z26.d -add z23.d, z23.d, z26.d -sqrdmulh z26.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z26.d, z31.d -sub z26.d, z24.d, z25.d -add z24.d, z24.d, z25.d -sqrdmulh z25.d, z22.d, z0.d[1] -mul z22.d, z22.d,z1.d[1] -mla z22.d, P0/M, z25.d, z31.d -sub z25.d, z28.d, z22.d -add z28.d, z28.d, z22.d -sqrdmulh z22.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z22.d, z31.d -sub z22.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z23.d, z14.d[0] -mul z23.d, z23.d,z15.d[0] -mla z23.d, P0/M, z30.d, z31.d -sub z30.d, z24.d, z23.d -add z24.d, z24.d, z23.d -str q24, [x0, #64] -str q30, [x0, #320] -sqrdmulh z30.d, z27.d, z14.d[1] -mul z27.d, z27.d,z15.d[1] -mla z27.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z27.d -add z26.d, z26.d, z27.d -str q26, [x0, #576] -str q30, [x0, #832] -sqrdmulh z30.d, z25.d, z12.d[1] -mul z25.d, z25.d,z13.d[1] -mla z25.d, P0/M, z30.d, z31.d -sub z30.d, z22.d, z25.d -add z22.d, z22.d, z25.d -str q22, [x0, #1600] -str q30, [x0, #1856] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1088] -str q30, [x0, #1344] -ldr q30, [x0, #1872] -ldr q29, [x0, #1616] -ldr q28, [x0, #1104] -ldr q22, [x0, #1360] -ldr q25, [x0, #848] -ldr q26, [x0, #592] -ldr q27, [x0, #80] -ldr q24, [x0, #336] -sqrdmulh z23.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z23.d, z31.d -sub z23.d, z25.d, z30.d -add z25.d, z25.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z29.d -add z26.d, z26.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z27.d, z28.d -add z27.d, z27.d, z28.d -sqrdmulh z28.d, z22.d, z2.d[0] -mul z22.d, z22.d,z3.d[0] -mla z22.d, P0/M, z28.d, z31.d -sub z28.d, z24.d, z22.d -add z24.d, z24.d, z22.d -sqrdmulh z22.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z22.d, z31.d -sub z22.d, z24.d, z25.d -add z24.d, z24.d, z25.d -sqrdmulh z25.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z25.d, z31.d -sub z25.d, z27.d, z26.d -add z27.d, z27.d, z26.d -sqrdmulh z26.d, z23.d, z0.d[1] -mul z23.d, z23.d,z1.d[1] -mla z23.d, P0/M, z26.d, z31.d -sub z26.d, z28.d, z23.d -add z28.d, z28.d, z23.d -sqrdmulh z23.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z23.d, z31.d -sub z23.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z24.d, z14.d[0] -mul z24.d, z24.d,z15.d[0] -mla z24.d, P0/M, z30.d, z31.d -sub z30.d, z27.d, z24.d -add z27.d, z27.d, z24.d -str q27, [x0, #80] -str q30, [x0, #336] -sqrdmulh z30.d, z22.d, z14.d[1] -mul z22.d, z22.d,z15.d[1] -mla z22.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z22.d -add z25.d, z25.d, z22.d -str q25, [x0, #592] -str q30, [x0, #848] -sqrdmulh z30.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -mla z26.d, P0/M, z30.d, z31.d -sub z30.d, z23.d, z26.d -add z23.d, z23.d, z26.d -str q23, [x0, #1616] -str q30, [x0, #1872] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1104] -str q30, [x0, #1360] -ldr q30, [x0, #1888] -ldr q29, [x0, #1632] -ldr q28, [x0, #1120] -ldr q23, [x0, #1376] -ldr q26, [x0, #864] -ldr q25, [x0, #608] -ldr q22, [x0, #96] -ldr q27, [x0, #352] -sqrdmulh z24.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z24.d, z31.d -sub z24.d, z26.d, z30.d -add z26.d, z26.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z29.d -add z25.d, z25.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z22.d, z28.d -add z22.d, z22.d, z28.d -sqrdmulh z28.d, z23.d, z2.d[0] -mul z23.d, z23.d,z3.d[0] -mla z23.d, P0/M, z28.d, z31.d -sub z28.d, z27.d, z23.d -add z27.d, z27.d, z23.d -sqrdmulh z23.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z23.d, z31.d -sub z23.d, z27.d, z26.d -add z27.d, z27.d, z26.d -sqrdmulh z26.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z26.d, z31.d -sub z26.d, z22.d, z25.d -add z22.d, z22.d, z25.d -sqrdmulh z25.d, z24.d, z0.d[1] -mul z24.d, z24.d,z1.d[1] -mla z24.d, P0/M, z25.d, z31.d -sub z25.d, z28.d, z24.d -add z28.d, z28.d, z24.d -sqrdmulh z24.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z24.d, z31.d -sub z24.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z27.d, z14.d[0] -mul z27.d, z27.d,z15.d[0] -mla z27.d, P0/M, z30.d, z31.d -sub z30.d, z22.d, z27.d -add z22.d, z22.d, z27.d -str q22, [x0, #96] -str q30, [x0, #352] -sqrdmulh z30.d, z23.d, z14.d[1] -mul z23.d, z23.d,z15.d[1] -mla z23.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z23.d -add z26.d, z26.d, z23.d -str q26, [x0, #608] -str q30, [x0, #864] -sqrdmulh z30.d, z25.d, z12.d[1] -mul z25.d, z25.d,z13.d[1] -mla z25.d, P0/M, z30.d, z31.d -sub z30.d, z24.d, z25.d -add z24.d, z24.d, z25.d -str q24, [x0, #1632] -str q30, [x0, #1888] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1120] -str q30, [x0, #1376] -ldr q30, [x0, #1904] -ldr q29, [x0, #1648] -ldr q28, [x0, #1136] -ldr q24, [x0, #1392] -ldr q25, [x0, #880] -ldr q26, [x0, #624] -ldr q23, [x0, #112] -ldr q22, [x0, #368] -sqrdmulh z27.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -mla z30.d, P0/M, z27.d, z31.d -sub z27.d, z25.d, z30.d -add z25.d, z25.d, z30.d -sqrdmulh z30.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -mla z29.d, P0/M, z30.d, z31.d -sub z30.d, z26.d, z29.d -add z26.d, z26.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z23.d, z28.d -add z23.d, z23.d, z28.d -sqrdmulh z28.d, z24.d, z2.d[0] -mul z24.d, z24.d,z3.d[0] -mla z24.d, P0/M, z28.d, z31.d -sub z28.d, z22.d, z24.d -add z22.d, z22.d, z24.d -sqrdmulh z24.d, z25.d, z0.d[0] -mul z25.d, z25.d,z1.d[0] -mla z25.d, P0/M, z24.d, z31.d -sub z24.d, z22.d, z25.d -add z22.d, z22.d, z25.d -sqrdmulh z25.d, z26.d, z0.d[0] -mul z26.d, z26.d,z1.d[0] -mla z26.d, P0/M, z25.d, z31.d -sub z25.d, z23.d, z26.d -add z23.d, z23.d, z26.d -sqrdmulh z26.d, z27.d, z0.d[1] -mul z27.d, z27.d,z1.d[1] -mla z27.d, P0/M, z26.d, z31.d -sub z26.d, z28.d, z27.d -add z28.d, z28.d, z27.d -sqrdmulh z27.d, z30.d, z0.d[1] -mul z30.d, z30.d,z1.d[1] -mla z30.d, P0/M, z27.d, z31.d -sub z27.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z22.d, z14.d[0] -mul z22.d, z22.d,z15.d[0] -mla z22.d, P0/M, z30.d, z31.d -sub z30.d, z23.d, z22.d -add z23.d, z23.d, z22.d -str q23, [x0, #112] -str q30, [x0, #368] -sqrdmulh z30.d, z24.d, z14.d[1] -mul z24.d, z24.d,z15.d[1] -mla z24.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z24.d -add z25.d, z25.d, z24.d -str q25, [x0, #624] -str q30, [x0, #880] -sqrdmulh z30.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -mla z26.d, P0/M, z30.d, z31.d -sub z30.d, z27.d, z26.d -add z27.d, z27.d, z26.d -str q27, [x0, #1648] -str q30, [x0, #1904] -sqrdmulh z30.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -mla z28.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z28.d -add z29.d, z29.d, z28.d -str q29, [x0, #1136] -str q30, [x0, #1392] -ldr q4, [x17, #+128] -ldr q5, [x17, #+144] -ldr q6, [x17, #+160] -ldr q7, [x17, #+176] -ldr q8, [x17, #+192] -ldr q9, [x17, #+208] -ldr q10, [x17, #+224] -ldr q11, [x17, #+240] -ldr q16, [x0, #240] -ldr q17, [x0, #208] -ldr q18, [x0, #144] -ldr q19, [x0, #176] -ldr q20, [x0, #112] -ldr q21, [x0, #80] -ldr q22, [x0, #16] -ldr q23, [x0, #48] -sqrdmulh z24.d, z16.d, z5.d[0] -mul z16.d, z16.d,z4.d[0] -mla z16.d, P0/M, z24.d, z31.d -sub z24.d, z20.d, z16.d -add z20.d, z20.d, z16.d -sqrdmulh z16.d, z17.d, z5.d[0] -mul z17.d, z17.d,z4.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z17.d -add z21.d, z21.d, z17.d -sqrdmulh z17.d, z18.d, z5.d[0] -mul z18.d, z18.d,z4.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z22.d, z18.d -add z22.d, z22.d, z18.d -sqrdmulh z18.d, z19.d, z5.d[0] -mul z19.d, z19.d,z4.d[0] -mla z19.d, P0/M, z18.d, z31.d -sub z18.d, z23.d, z19.d -add z23.d, z23.d, z19.d -sqrdmulh z19.d, z20.d, z7.d[0] -mul z20.d, z20.d,z6.d[0] -mla z20.d, P0/M, z19.d, z31.d -sub z19.d, z23.d, z20.d -add z23.d, z23.d, z20.d -sqrdmulh z20.d, z21.d, z7.d[0] -mul z21.d, z21.d,z6.d[0] -mla z21.d, P0/M, z20.d, z31.d -sub z20.d, z22.d, z21.d -add z22.d, z22.d, z21.d -sqrdmulh z21.d, z24.d, z7.d[1] -mul z24.d, z24.d,z6.d[1] -mla z24.d, P0/M, z21.d, z31.d -sub z21.d, z18.d, z24.d -add z18.d, z18.d, z24.d -sqrdmulh z24.d, z16.d, z7.d[1] -mul z16.d, z16.d,z6.d[1] -mla z16.d, P0/M, z24.d, z31.d -sub z24.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z23.d, z9.d[0] -mul z23.d, z23.d,z8.d[0] -mla z23.d, P0/M, z16.d, z31.d -sub z16.d, z22.d, z23.d -add z22.d, z22.d, z23.d -str q22, [x0, #16] -str q16, [x0, #48] -sqrdmulh z16.d, z19.d, z9.d[1] -mul z19.d, z19.d,z8.d[1] -mla z19.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z19.d -add z20.d, z20.d, z19.d -str q20, [x0, #80] -str q16, [x0, #112] -sqrdmulh z16.d, z21.d, z11.d[1] -mul z21.d, z21.d,z10.d[1] -mla z21.d, P0/M, z16.d, z31.d -sub z16.d, z24.d, z21.d -add z24.d, z24.d, z21.d -str q24, [x0, #208] -str q16, [x0, #240] -sqrdmulh z16.d, z18.d, z11.d[0] -mul z18.d, z18.d,z10.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #144] -str q16, [x0, #176] -ldr q16, [x0, #224] -ldr q17, [x0, #192] -ldr q18, [x0, #128] -ldr q24, [x0, #160] -ldr q21, [x0, #96] -ldr q20, [x0, #64] -ldr q19, [x0, #0] -ldr q22, [x0, #32] -sqrdmulh z23.d, z16.d, z5.d[0] -mul z16.d, z16.d,z4.d[0] -mla z16.d, P0/M, z23.d, z31.d -sub z23.d, z21.d, z16.d -add z21.d, z21.d, z16.d -sqrdmulh z16.d, z17.d, z5.d[0] -mul z17.d, z17.d,z4.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z17.d -add z20.d, z20.d, z17.d -sqrdmulh z17.d, z18.d, z5.d[0] -mul z18.d, z18.d,z4.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z19.d, z18.d -add z19.d, z19.d, z18.d -sqrdmulh z18.d, z24.d, z5.d[0] -mul z24.d, z24.d,z4.d[0] -mla z24.d, P0/M, z18.d, z31.d -sub z18.d, z22.d, z24.d -add z22.d, z22.d, z24.d -sqrdmulh z24.d, z21.d, z7.d[0] -mul z21.d, z21.d,z6.d[0] -mla z21.d, P0/M, z24.d, z31.d -sub z24.d, z22.d, z21.d -add z22.d, z22.d, z21.d -ldr q3, [x17, #+256] -ldr q2, [x17, #+272] -ldr q1, [x17, #+288] -ldr q0, [x17, #+304] -ldr q15, [x17, #+320] -ldr q14, [x17, #+336] -ldr q13, [x17, #+352] -ldr q12, [x17, #+368] -sqrdmulh z21.d, z20.d, z7.d[0] -mul z20.d, z20.d,z6.d[0] -mla z20.d, P0/M, z21.d, z31.d -sub z21.d, z19.d, z20.d -add z19.d, z19.d, z20.d -sqrdmulh z20.d, z23.d, z7.d[1] -mul z23.d, z23.d,z6.d[1] -mla z23.d, P0/M, z20.d, z31.d -sub z20.d, z18.d, z23.d -add z18.d, z18.d, z23.d -sqrdmulh z23.d, z16.d, z7.d[1] -mul z16.d, z16.d,z6.d[1] -mla z16.d, P0/M, z23.d, z31.d -sub z23.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z22.d, z9.d[0] -mul z22.d, z22.d,z8.d[0] -mla z22.d, P0/M, z16.d, z31.d -sub z16.d, z19.d, z22.d -add z19.d, z19.d, z22.d -str q19, [x0, #0] -str q16, [x0, #32] -sqrdmulh z16.d, z24.d, z9.d[1] -mul z24.d, z24.d,z8.d[1] -mla z24.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z24.d -add z21.d, z21.d, z24.d -str q21, [x0, #64] -str q16, [x0, #96] -sqrdmulh z16.d, z20.d, z11.d[1] -mul z20.d, z20.d,z10.d[1] -mla z20.d, P0/M, z16.d, z31.d -sub z16.d, z23.d, z20.d -add z23.d, z23.d, z20.d -str q23, [x0, #192] -str q16, [x0, #224] -sqrdmulh z16.d, z18.d, z11.d[0] -mul z18.d, z18.d,z10.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #128] -str q16, [x0, #160] -ldr q16, [x0, #496] -ldr q17, [x0, #464] -ldr q18, [x0, #400] -ldr q23, [x0, #432] -ldr q20, [x0, #368] -ldr q21, [x0, #336] -ldr q24, [x0, #272] -ldr q19, [x0, #304] -sqrdmulh z22.d, z16.d, z2.d[0] -mul z16.d, z16.d,z3.d[0] -mla z16.d, P0/M, z22.d, z31.d -sub z22.d, z20.d, z16.d -add z20.d, z20.d, z16.d -sqrdmulh z16.d, z17.d, z2.d[0] -mul z17.d, z17.d,z3.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z17.d -add z21.d, z21.d, z17.d -sqrdmulh z17.d, z18.d, z2.d[0] -mul z18.d, z18.d,z3.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z24.d, z18.d -add z24.d, z24.d, z18.d -sqrdmulh z18.d, z23.d, z2.d[0] -mul z23.d, z23.d,z3.d[0] -mla z23.d, P0/M, z18.d, z31.d -sub z18.d, z19.d, z23.d -add z19.d, z19.d, z23.d -sqrdmulh z23.d, z20.d, z0.d[0] -mul z20.d, z20.d,z1.d[0] -mla z20.d, P0/M, z23.d, z31.d -sub z23.d, z19.d, z20.d -add z19.d, z19.d, z20.d -sqrdmulh z20.d, z21.d, z0.d[0] -mul z21.d, z21.d,z1.d[0] -mla z21.d, P0/M, z20.d, z31.d -sub z20.d, z24.d, z21.d -add z24.d, z24.d, z21.d -sqrdmulh z21.d, z22.d, z0.d[1] -mul z22.d, z22.d,z1.d[1] -mla z22.d, P0/M, z21.d, z31.d -sub z21.d, z18.d, z22.d -add z18.d, z18.d, z22.d -sqrdmulh z22.d, z16.d, z0.d[1] -mul z16.d, z16.d,z1.d[1] -mla z16.d, P0/M, z22.d, z31.d -sub z22.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z19.d, z14.d[0] -mul z19.d, z19.d,z15.d[0] -mla z19.d, P0/M, z16.d, z31.d -sub z16.d, z24.d, z19.d -add z24.d, z24.d, z19.d -str q24, [x0, #272] -str q16, [x0, #304] -sqrdmulh z16.d, z23.d, z14.d[1] -mul z23.d, z23.d,z15.d[1] -mla z23.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z23.d -add z20.d, z20.d, z23.d -str q20, [x0, #336] -str q16, [x0, #368] -sqrdmulh z16.d, z21.d, z12.d[1] -mul z21.d, z21.d,z13.d[1] -mla z21.d, P0/M, z16.d, z31.d -sub z16.d, z22.d, z21.d -add z22.d, z22.d, z21.d -str q22, [x0, #464] -str q16, [x0, #496] -sqrdmulh z16.d, z18.d, z12.d[0] -mul z18.d, z18.d,z13.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #400] -str q16, [x0, #432] -ldr q16, [x0, #480] -ldr q17, [x0, #448] -ldr q18, [x0, #384] -ldr q22, [x0, #416] -ldr q21, [x0, #352] -ldr q20, [x0, #320] -ldr q23, [x0, #256] -ldr q24, [x0, #288] -sqrdmulh z19.d, z16.d, z2.d[0] -mul z16.d, z16.d,z3.d[0] -mla z16.d, P0/M, z19.d, z31.d -sub z19.d, z21.d, z16.d -add z21.d, z21.d, z16.d -sqrdmulh z16.d, z17.d, z2.d[0] -mul z17.d, z17.d,z3.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z17.d -add z20.d, z20.d, z17.d -sqrdmulh z17.d, z18.d, z2.d[0] -mul z18.d, z18.d,z3.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z23.d, z18.d -add z23.d, z23.d, z18.d -sqrdmulh z18.d, z22.d, z2.d[0] -mul z22.d, z22.d,z3.d[0] -mla z22.d, P0/M, z18.d, z31.d -sub z18.d, z24.d, z22.d -add z24.d, z24.d, z22.d -sqrdmulh z22.d, z21.d, z0.d[0] -mul z21.d, z21.d,z1.d[0] -mla z21.d, P0/M, z22.d, z31.d -sub z22.d, z24.d, z21.d -add z24.d, z24.d, z21.d -ldr q11, [x17, #+384] -ldr q10, [x17, #+400] -ldr q9, [x17, #+416] -ldr q8, [x17, #+432] -ldr q7, [x17, #+448] -ldr q6, [x17, #+464] -ldr q5, [x17, #+480] -ldr q4, [x17, #+496] -sqrdmulh z21.d, z20.d, z0.d[0] -mul z20.d, z20.d,z1.d[0] -mla z20.d, P0/M, z21.d, z31.d -sub z21.d, z23.d, z20.d -add z23.d, z23.d, z20.d -sqrdmulh z20.d, z19.d, z0.d[1] -mul z19.d, z19.d,z1.d[1] -mla z19.d, P0/M, z20.d, z31.d -sub z20.d, z18.d, z19.d -add z18.d, z18.d, z19.d -sqrdmulh z19.d, z16.d, z0.d[1] -mul z16.d, z16.d,z1.d[1] -mla z16.d, P0/M, z19.d, z31.d -sub z19.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z24.d, z14.d[0] -mul z24.d, z24.d,z15.d[0] -mla z24.d, P0/M, z16.d, z31.d -sub z16.d, z23.d, z24.d -add z23.d, z23.d, z24.d -str q23, [x0, #256] -str q16, [x0, #288] -sqrdmulh z16.d, z22.d, z14.d[1] -mul z22.d, z22.d,z15.d[1] -mla z22.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z22.d -add z21.d, z21.d, z22.d -str q21, [x0, #320] -str q16, [x0, #352] -sqrdmulh z16.d, z20.d, z12.d[1] -mul z20.d, z20.d,z13.d[1] -mla z20.d, P0/M, z16.d, z31.d -sub z16.d, z19.d, z20.d -add z19.d, z19.d, z20.d -str q19, [x0, #448] -str q16, [x0, #480] -sqrdmulh z16.d, z18.d, z12.d[0] -mul z18.d, z18.d,z13.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #384] -str q16, [x0, #416] -ldr q16, [x0, #752] -ldr q17, [x0, #720] -ldr q18, [x0, #656] -ldr q19, [x0, #688] -ldr q20, [x0, #624] -ldr q21, [x0, #592] -ldr q22, [x0, #528] -ldr q23, [x0, #560] -sqrdmulh z24.d, z16.d, z10.d[0] -mul z16.d, z16.d,z11.d[0] -mla z16.d, P0/M, z24.d, z31.d -sub z24.d, z20.d, z16.d -add z20.d, z20.d, z16.d -sqrdmulh z16.d, z17.d, z10.d[0] -mul z17.d, z17.d,z11.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z17.d -add z21.d, z21.d, z17.d -sqrdmulh z17.d, z18.d, z10.d[0] -mul z18.d, z18.d,z11.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z22.d, z18.d -add z22.d, z22.d, z18.d -sqrdmulh z18.d, z19.d, z10.d[0] -mul z19.d, z19.d,z11.d[0] -mla z19.d, P0/M, z18.d, z31.d -sub z18.d, z23.d, z19.d -add z23.d, z23.d, z19.d -sqrdmulh z19.d, z20.d, z8.d[0] -mul z20.d, z20.d,z9.d[0] -mla z20.d, P0/M, z19.d, z31.d -sub z19.d, z23.d, z20.d -add z23.d, z23.d, z20.d -sqrdmulh z20.d, z21.d, z8.d[0] -mul z21.d, z21.d,z9.d[0] -mla z21.d, P0/M, z20.d, z31.d -sub z20.d, z22.d, z21.d -add z22.d, z22.d, z21.d -sqrdmulh z21.d, z24.d, z8.d[1] -mul z24.d, z24.d,z9.d[1] -mla z24.d, P0/M, z21.d, z31.d -sub z21.d, z18.d, z24.d -add z18.d, z18.d, z24.d -sqrdmulh z24.d, z16.d, z8.d[1] -mul z16.d, z16.d,z9.d[1] -mla z16.d, P0/M, z24.d, z31.d -sub z24.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z23.d, z6.d[0] -mul z23.d, z23.d,z7.d[0] -mla z23.d, P0/M, z16.d, z31.d -sub z16.d, z22.d, z23.d -add z22.d, z22.d, z23.d -str q22, [x0, #528] -str q16, [x0, #560] -sqrdmulh z16.d, z19.d, z6.d[1] -mul z19.d, z19.d,z7.d[1] -mla z19.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z19.d -add z20.d, z20.d, z19.d -str q20, [x0, #592] -str q16, [x0, #624] -sqrdmulh z16.d, z21.d, z4.d[1] -mul z21.d, z21.d,z5.d[1] -mla z21.d, P0/M, z16.d, z31.d -sub z16.d, z24.d, z21.d -add z24.d, z24.d, z21.d -str q24, [x0, #720] -str q16, [x0, #752] -sqrdmulh z16.d, z18.d, z4.d[0] -mul z18.d, z18.d,z5.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #656] -str q16, [x0, #688] -ldr q16, [x0, #736] -ldr q17, [x0, #704] -ldr q18, [x0, #640] -ldr q24, [x0, #672] -ldr q21, [x0, #608] -ldr q20, [x0, #576] -ldr q19, [x0, #512] -ldr q22, [x0, #544] -sqrdmulh z23.d, z16.d, z10.d[0] -mul z16.d, z16.d,z11.d[0] -mla z16.d, P0/M, z23.d, z31.d -sub z23.d, z21.d, z16.d -add z21.d, z21.d, z16.d -sqrdmulh z16.d, z17.d, z10.d[0] -mul z17.d, z17.d,z11.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z17.d -add z20.d, z20.d, z17.d -sqrdmulh z17.d, z18.d, z10.d[0] -mul z18.d, z18.d,z11.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z19.d, z18.d -add z19.d, z19.d, z18.d -sqrdmulh z18.d, z24.d, z10.d[0] -mul z24.d, z24.d,z11.d[0] -mla z24.d, P0/M, z18.d, z31.d -sub z18.d, z22.d, z24.d -add z22.d, z22.d, z24.d -sqrdmulh z24.d, z21.d, z8.d[0] -mul z21.d, z21.d,z9.d[0] -mla z21.d, P0/M, z24.d, z31.d -sub z24.d, z22.d, z21.d -add z22.d, z22.d, z21.d -ldr q12, [x17, #+512] -ldr q13, [x17, #+528] -ldr q14, [x17, #+544] -ldr q15, [x17, #+560] -ldr q0, [x17, #+576] -ldr q1, [x17, #+592] -ldr q2, [x17, #+608] -ldr q3, [x17, #+624] -sqrdmulh z21.d, z20.d, z8.d[0] -mul z20.d, z20.d,z9.d[0] -mla z20.d, P0/M, z21.d, z31.d -sub z21.d, z19.d, z20.d -add z19.d, z19.d, z20.d -sqrdmulh z20.d, z23.d, z8.d[1] -mul z23.d, z23.d,z9.d[1] -mla z23.d, P0/M, z20.d, z31.d -sub z20.d, z18.d, z23.d -add z18.d, z18.d, z23.d -sqrdmulh z23.d, z16.d, z8.d[1] -mul z16.d, z16.d,z9.d[1] -mla z16.d, P0/M, z23.d, z31.d -sub z23.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z22.d, z6.d[0] -mul z22.d, z22.d,z7.d[0] -mla z22.d, P0/M, z16.d, z31.d -sub z16.d, z19.d, z22.d -add z19.d, z19.d, z22.d -str q19, [x0, #512] -str q16, [x0, #544] -sqrdmulh z16.d, z24.d, z6.d[1] -mul z24.d, z24.d,z7.d[1] -mla z24.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z24.d -add z21.d, z21.d, z24.d -str q21, [x0, #576] -str q16, [x0, #608] -sqrdmulh z16.d, z20.d, z4.d[1] -mul z20.d, z20.d,z5.d[1] -mla z20.d, P0/M, z16.d, z31.d -sub z16.d, z23.d, z20.d -add z23.d, z23.d, z20.d -str q23, [x0, #704] -str q16, [x0, #736] -sqrdmulh z16.d, z18.d, z4.d[0] -mul z18.d, z18.d,z5.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #640] -str q16, [x0, #672] -ldr q16, [x0, #1008] -ldr q17, [x0, #976] -ldr q18, [x0, #912] -ldr q23, [x0, #944] -ldr q20, [x0, #880] -ldr q21, [x0, #848] -ldr q24, [x0, #784] -ldr q19, [x0, #816] -sqrdmulh z22.d, z16.d, z13.d[0] -mul z16.d, z16.d,z12.d[0] -mla z16.d, P0/M, z22.d, z31.d -sub z22.d, z20.d, z16.d -add z20.d, z20.d, z16.d -sqrdmulh z16.d, z17.d, z13.d[0] -mul z17.d, z17.d,z12.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z17.d -add z21.d, z21.d, z17.d -sqrdmulh z17.d, z18.d, z13.d[0] -mul z18.d, z18.d,z12.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z24.d, z18.d -add z24.d, z24.d, z18.d -sqrdmulh z18.d, z23.d, z13.d[0] -mul z23.d, z23.d,z12.d[0] -mla z23.d, P0/M, z18.d, z31.d -sub z18.d, z19.d, z23.d -add z19.d, z19.d, z23.d -sqrdmulh z23.d, z20.d, z15.d[0] -mul z20.d, z20.d,z14.d[0] -mla z20.d, P0/M, z23.d, z31.d -sub z23.d, z19.d, z20.d -add z19.d, z19.d, z20.d -sqrdmulh z20.d, z21.d, z15.d[0] -mul z21.d, z21.d,z14.d[0] -mla z21.d, P0/M, z20.d, z31.d -sub z20.d, z24.d, z21.d -add z24.d, z24.d, z21.d -sqrdmulh z21.d, z22.d, z15.d[1] -mul z22.d, z22.d,z14.d[1] -mla z22.d, P0/M, z21.d, z31.d -sub z21.d, z18.d, z22.d -add z18.d, z18.d, z22.d -sqrdmulh z22.d, z16.d, z15.d[1] -mul z16.d, z16.d,z14.d[1] -mla z16.d, P0/M, z22.d, z31.d -sub z22.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z19.d, z1.d[0] -mul z19.d, z19.d,z0.d[0] -mla z19.d, P0/M, z16.d, z31.d -sub z16.d, z24.d, z19.d -add z24.d, z24.d, z19.d -str q24, [x0, #784] -str q16, [x0, #816] -sqrdmulh z16.d, z23.d, z1.d[1] -mul z23.d, z23.d,z0.d[1] -mla z23.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z23.d -add z20.d, z20.d, z23.d -str q20, [x0, #848] -str q16, [x0, #880] -sqrdmulh z16.d, z21.d, z3.d[1] -mul z21.d, z21.d,z2.d[1] -mla z21.d, P0/M, z16.d, z31.d -sub z16.d, z22.d, z21.d -add z22.d, z22.d, z21.d -str q22, [x0, #976] -str q16, [x0, #1008] -sqrdmulh z16.d, z18.d, z3.d[0] -mul z18.d, z18.d,z2.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #912] -str q16, [x0, #944] -ldr q16, [x0, #992] -ldr q17, [x0, #960] -ldr q18, [x0, #896] -ldr q22, [x0, #928] -ldr q21, [x0, #864] -ldr q20, [x0, #832] -ldr q23, [x0, #768] -ldr q24, [x0, #800] -sqrdmulh z19.d, z16.d, z13.d[0] -mul z16.d, z16.d,z12.d[0] -mla z16.d, P0/M, z19.d, z31.d -sub z19.d, z21.d, z16.d -add z21.d, z21.d, z16.d -sqrdmulh z16.d, z17.d, z13.d[0] -mul z17.d, z17.d,z12.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z17.d -add z20.d, z20.d, z17.d -sqrdmulh z17.d, z18.d, z13.d[0] -mul z18.d, z18.d,z12.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z23.d, z18.d -add z23.d, z23.d, z18.d -sqrdmulh z18.d, z22.d, z13.d[0] -mul z22.d, z22.d,z12.d[0] -mla z22.d, P0/M, z18.d, z31.d -sub z18.d, z24.d, z22.d -add z24.d, z24.d, z22.d -sqrdmulh z22.d, z21.d, z15.d[0] -mul z21.d, z21.d,z14.d[0] -mla z21.d, P0/M, z22.d, z31.d -sub z22.d, z24.d, z21.d -add z24.d, z24.d, z21.d -ldr q4, [x17, #+640] -ldr q5, [x17, #+656] -ldr q6, [x17, #+672] -ldr q7, [x17, #+688] -ldr q8, [x17, #+704] -ldr q9, [x17, #+720] -ldr q10, [x17, #+736] -ldr q11, [x17, #+752] -sqrdmulh z21.d, z20.d, z15.d[0] -mul z20.d, z20.d,z14.d[0] -mla z20.d, P0/M, z21.d, z31.d -sub z21.d, z23.d, z20.d -add z23.d, z23.d, z20.d -sqrdmulh z20.d, z19.d, z15.d[1] -mul z19.d, z19.d,z14.d[1] -mla z19.d, P0/M, z20.d, z31.d -sub z20.d, z18.d, z19.d -add z18.d, z18.d, z19.d -sqrdmulh z19.d, z16.d, z15.d[1] -mul z16.d, z16.d,z14.d[1] -mla z16.d, P0/M, z19.d, z31.d -sub z19.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z24.d, z1.d[0] -mul z24.d, z24.d,z0.d[0] -mla z24.d, P0/M, z16.d, z31.d -sub z16.d, z23.d, z24.d -add z23.d, z23.d, z24.d -str q23, [x0, #768] -str q16, [x0, #800] -sqrdmulh z16.d, z22.d, z1.d[1] -mul z22.d, z22.d,z0.d[1] -mla z22.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z22.d -add z21.d, z21.d, z22.d -str q21, [x0, #832] -str q16, [x0, #864] -sqrdmulh z16.d, z20.d, z3.d[1] -mul z20.d, z20.d,z2.d[1] -mla z20.d, P0/M, z16.d, z31.d -sub z16.d, z19.d, z20.d -add z19.d, z19.d, z20.d -str q19, [x0, #960] -str q16, [x0, #992] -sqrdmulh z16.d, z18.d, z3.d[0] -mul z18.d, z18.d,z2.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #896] -str q16, [x0, #928] -ldr q16, [x0, #1264] -ldr q17, [x0, #1232] -ldr q18, [x0, #1168] -ldr q19, [x0, #1200] -ldr q20, [x0, #1136] -ldr q21, [x0, #1104] -ldr q22, [x0, #1040] -ldr q23, [x0, #1072] -sqrdmulh z24.d, z16.d, z5.d[0] -mul z16.d, z16.d,z4.d[0] -mla z16.d, P0/M, z24.d, z31.d -sub z24.d, z20.d, z16.d -add z20.d, z20.d, z16.d -sqrdmulh z16.d, z17.d, z5.d[0] -mul z17.d, z17.d,z4.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z17.d -add z21.d, z21.d, z17.d -sqrdmulh z17.d, z18.d, z5.d[0] -mul z18.d, z18.d,z4.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z22.d, z18.d -add z22.d, z22.d, z18.d -sqrdmulh z18.d, z19.d, z5.d[0] -mul z19.d, z19.d,z4.d[0] -mla z19.d, P0/M, z18.d, z31.d -sub z18.d, z23.d, z19.d -add z23.d, z23.d, z19.d -sqrdmulh z19.d, z20.d, z7.d[0] -mul z20.d, z20.d,z6.d[0] -mla z20.d, P0/M, z19.d, z31.d -sub z19.d, z23.d, z20.d -add z23.d, z23.d, z20.d -sqrdmulh z20.d, z21.d, z7.d[0] -mul z21.d, z21.d,z6.d[0] -mla z21.d, P0/M, z20.d, z31.d -sub z20.d, z22.d, z21.d -add z22.d, z22.d, z21.d -sqrdmulh z21.d, z24.d, z7.d[1] -mul z24.d, z24.d,z6.d[1] -mla z24.d, P0/M, z21.d, z31.d -sub z21.d, z18.d, z24.d -add z18.d, z18.d, z24.d -sqrdmulh z24.d, z16.d, z7.d[1] -mul z16.d, z16.d,z6.d[1] -mla z16.d, P0/M, z24.d, z31.d -sub z24.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z23.d, z9.d[0] -mul z23.d, z23.d,z8.d[0] -mla z23.d, P0/M, z16.d, z31.d -sub z16.d, z22.d, z23.d -add z22.d, z22.d, z23.d -str q22, [x0, #1040] -str q16, [x0, #1072] -sqrdmulh z16.d, z19.d, z9.d[1] -mul z19.d, z19.d,z8.d[1] -mla z19.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z19.d -add z20.d, z20.d, z19.d -str q20, [x0, #1104] -str q16, [x0, #1136] -sqrdmulh z16.d, z21.d, z11.d[1] -mul z21.d, z21.d,z10.d[1] -mla z21.d, P0/M, z16.d, z31.d -sub z16.d, z24.d, z21.d -add z24.d, z24.d, z21.d -str q24, [x0, #1232] -str q16, [x0, #1264] -sqrdmulh z16.d, z18.d, z11.d[0] -mul z18.d, z18.d,z10.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #1168] -str q16, [x0, #1200] -ldr q16, [x0, #1248] -ldr q17, [x0, #1216] -ldr q18, [x0, #1152] -ldr q24, [x0, #1184] -ldr q21, [x0, #1120] -ldr q20, [x0, #1088] -ldr q19, [x0, #1024] -ldr q22, [x0, #1056] -sqrdmulh z23.d, z16.d, z5.d[0] -mul z16.d, z16.d,z4.d[0] -mla z16.d, P0/M, z23.d, z31.d -sub z23.d, z21.d, z16.d -add z21.d, z21.d, z16.d -sqrdmulh z16.d, z17.d, z5.d[0] -mul z17.d, z17.d,z4.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z17.d -add z20.d, z20.d, z17.d -sqrdmulh z17.d, z18.d, z5.d[0] -mul z18.d, z18.d,z4.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z19.d, z18.d -add z19.d, z19.d, z18.d -sqrdmulh z18.d, z24.d, z5.d[0] -mul z24.d, z24.d,z4.d[0] -mla z24.d, P0/M, z18.d, z31.d -sub z18.d, z22.d, z24.d -add z22.d, z22.d, z24.d -sqrdmulh z24.d, z21.d, z7.d[0] -mul z21.d, z21.d,z6.d[0] -mla z21.d, P0/M, z24.d, z31.d -sub z24.d, z22.d, z21.d -add z22.d, z22.d, z21.d -ldr q3, [x17, #+768] -ldr q2, [x17, #+784] -ldr q1, [x17, #+800] -ldr q0, [x17, #+816] -ldr q15, [x17, #+832] -ldr q14, [x17, #+848] -ldr q13, [x17, #+864] -ldr q12, [x17, #+880] -sqrdmulh z21.d, z20.d, z7.d[0] -mul z20.d, z20.d,z6.d[0] -mla z20.d, P0/M, z21.d, z31.d -sub z21.d, z19.d, z20.d -add z19.d, z19.d, z20.d -sqrdmulh z20.d, z23.d, z7.d[1] -mul z23.d, z23.d,z6.d[1] -mla z23.d, P0/M, z20.d, z31.d -sub z20.d, z18.d, z23.d -add z18.d, z18.d, z23.d -sqrdmulh z23.d, z16.d, z7.d[1] -mul z16.d, z16.d,z6.d[1] -mla z16.d, P0/M, z23.d, z31.d -sub z23.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z22.d, z9.d[0] -mul z22.d, z22.d,z8.d[0] -mla z22.d, P0/M, z16.d, z31.d -sub z16.d, z19.d, z22.d -add z19.d, z19.d, z22.d -str q19, [x0, #1024] -str q16, [x0, #1056] -sqrdmulh z16.d, z24.d, z9.d[1] -mul z24.d, z24.d,z8.d[1] -mla z24.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z24.d -add z21.d, z21.d, z24.d -str q21, [x0, #1088] -str q16, [x0, #1120] -sqrdmulh z16.d, z20.d, z11.d[1] -mul z20.d, z20.d,z10.d[1] -mla z20.d, P0/M, z16.d, z31.d -sub z16.d, z23.d, z20.d -add z23.d, z23.d, z20.d -str q23, [x0, #1216] -str q16, [x0, #1248] -sqrdmulh z16.d, z18.d, z11.d[0] -mul z18.d, z18.d,z10.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #1152] -str q16, [x0, #1184] -ldr q16, [x0, #1520] -ldr q17, [x0, #1488] -ldr q18, [x0, #1424] -ldr q23, [x0, #1456] -ldr q20, [x0, #1392] -ldr q21, [x0, #1360] -ldr q24, [x0, #1296] -ldr q19, [x0, #1328] -sqrdmulh z22.d, z16.d, z2.d[0] -mul z16.d, z16.d,z3.d[0] -mla z16.d, P0/M, z22.d, z31.d -sub z22.d, z20.d, z16.d -add z20.d, z20.d, z16.d -sqrdmulh z16.d, z17.d, z2.d[0] -mul z17.d, z17.d,z3.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z17.d -add z21.d, z21.d, z17.d -sqrdmulh z17.d, z18.d, z2.d[0] -mul z18.d, z18.d,z3.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z24.d, z18.d -add z24.d, z24.d, z18.d -sqrdmulh z18.d, z23.d, z2.d[0] -mul z23.d, z23.d,z3.d[0] -mla z23.d, P0/M, z18.d, z31.d -sub z18.d, z19.d, z23.d -add z19.d, z19.d, z23.d -sqrdmulh z23.d, z20.d, z0.d[0] -mul z20.d, z20.d,z1.d[0] -mla z20.d, P0/M, z23.d, z31.d -sub z23.d, z19.d, z20.d -add z19.d, z19.d, z20.d -sqrdmulh z20.d, z21.d, z0.d[0] -mul z21.d, z21.d,z1.d[0] -mla z21.d, P0/M, z20.d, z31.d -sub z20.d, z24.d, z21.d -add z24.d, z24.d, z21.d -sqrdmulh z21.d, z22.d, z0.d[1] -mul z22.d, z22.d,z1.d[1] -mla z22.d, P0/M, z21.d, z31.d -sub z21.d, z18.d, z22.d -add z18.d, z18.d, z22.d -sqrdmulh z22.d, z16.d, z0.d[1] -mul z16.d, z16.d,z1.d[1] -mla z16.d, P0/M, z22.d, z31.d -sub z22.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z19.d, z14.d[0] -mul z19.d, z19.d,z15.d[0] -mla z19.d, P0/M, z16.d, z31.d -sub z16.d, z24.d, z19.d -add z24.d, z24.d, z19.d -str q24, [x0, #1296] -str q16, [x0, #1328] -sqrdmulh z16.d, z23.d, z14.d[1] -mul z23.d, z23.d,z15.d[1] -mla z23.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z23.d -add z20.d, z20.d, z23.d -str q20, [x0, #1360] -str q16, [x0, #1392] -sqrdmulh z16.d, z21.d, z12.d[1] -mul z21.d, z21.d,z13.d[1] -mla z21.d, P0/M, z16.d, z31.d -sub z16.d, z22.d, z21.d -add z22.d, z22.d, z21.d -str q22, [x0, #1488] -str q16, [x0, #1520] -sqrdmulh z16.d, z18.d, z12.d[0] -mul z18.d, z18.d,z13.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #1424] -str q16, [x0, #1456] -ldr q16, [x0, #1504] -ldr q17, [x0, #1472] -ldr q18, [x0, #1408] -ldr q22, [x0, #1440] -ldr q21, [x0, #1376] -ldr q20, [x0, #1344] -ldr q23, [x0, #1280] -ldr q24, [x0, #1312] -sqrdmulh z19.d, z16.d, z2.d[0] -mul z16.d, z16.d,z3.d[0] -mla z16.d, P0/M, z19.d, z31.d -sub z19.d, z21.d, z16.d -add z21.d, z21.d, z16.d -sqrdmulh z16.d, z17.d, z2.d[0] -mul z17.d, z17.d,z3.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z17.d -add z20.d, z20.d, z17.d -sqrdmulh z17.d, z18.d, z2.d[0] -mul z18.d, z18.d,z3.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z23.d, z18.d -add z23.d, z23.d, z18.d -sqrdmulh z18.d, z22.d, z2.d[0] -mul z22.d, z22.d,z3.d[0] -mla z22.d, P0/M, z18.d, z31.d -sub z18.d, z24.d, z22.d -add z24.d, z24.d, z22.d -sqrdmulh z22.d, z21.d, z0.d[0] -mul z21.d, z21.d,z1.d[0] -mla z21.d, P0/M, z22.d, z31.d -sub z22.d, z24.d, z21.d -add z24.d, z24.d, z21.d -ldr q11, [x17, #+896] -ldr q10, [x17, #+912] -ldr q9, [x17, #+928] -ldr q8, [x17, #+944] -ldr q7, [x17, #+960] -ldr q6, [x17, #+976] -ldr q5, [x17, #+992] -ldr q4, [x17, #+1008] -sqrdmulh z21.d, z20.d, z0.d[0] -mul z20.d, z20.d,z1.d[0] -mla z20.d, P0/M, z21.d, z31.d -sub z21.d, z23.d, z20.d -add z23.d, z23.d, z20.d -sqrdmulh z20.d, z19.d, z0.d[1] -mul z19.d, z19.d,z1.d[1] -mla z19.d, P0/M, z20.d, z31.d -sub z20.d, z18.d, z19.d -add z18.d, z18.d, z19.d -sqrdmulh z19.d, z16.d, z0.d[1] -mul z16.d, z16.d,z1.d[1] -mla z16.d, P0/M, z19.d, z31.d -sub z19.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z24.d, z14.d[0] -mul z24.d, z24.d,z15.d[0] -mla z24.d, P0/M, z16.d, z31.d -sub z16.d, z23.d, z24.d -add z23.d, z23.d, z24.d -str q23, [x0, #1280] -str q16, [x0, #1312] -sqrdmulh z16.d, z22.d, z14.d[1] -mul z22.d, z22.d,z15.d[1] -mla z22.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z22.d -add z21.d, z21.d, z22.d -str q21, [x0, #1344] -str q16, [x0, #1376] -sqrdmulh z16.d, z20.d, z12.d[1] -mul z20.d, z20.d,z13.d[1] -mla z20.d, P0/M, z16.d, z31.d -sub z16.d, z19.d, z20.d -add z19.d, z19.d, z20.d -str q19, [x0, #1472] -str q16, [x0, #1504] -sqrdmulh z16.d, z18.d, z12.d[0] -mul z18.d, z18.d,z13.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #1408] -str q16, [x0, #1440] -ldr q16, [x0, #1776] -ldr q17, [x0, #1744] -ldr q18, [x0, #1680] -ldr q19, [x0, #1712] -ldr q20, [x0, #1648] -ldr q21, [x0, #1616] -ldr q22, [x0, #1552] -ldr q23, [x0, #1584] -sqrdmulh z24.d, z16.d, z10.d[0] -mul z16.d, z16.d,z11.d[0] -mla z16.d, P0/M, z24.d, z31.d -sub z24.d, z20.d, z16.d -add z20.d, z20.d, z16.d -sqrdmulh z16.d, z17.d, z10.d[0] -mul z17.d, z17.d,z11.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z17.d -add z21.d, z21.d, z17.d -sqrdmulh z17.d, z18.d, z10.d[0] -mul z18.d, z18.d,z11.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z22.d, z18.d -add z22.d, z22.d, z18.d -sqrdmulh z18.d, z19.d, z10.d[0] -mul z19.d, z19.d,z11.d[0] -mla z19.d, P0/M, z18.d, z31.d -sub z18.d, z23.d, z19.d -add z23.d, z23.d, z19.d -sqrdmulh z19.d, z20.d, z8.d[0] -mul z20.d, z20.d,z9.d[0] -mla z20.d, P0/M, z19.d, z31.d -sub z19.d, z23.d, z20.d -add z23.d, z23.d, z20.d -sqrdmulh z20.d, z21.d, z8.d[0] -mul z21.d, z21.d,z9.d[0] -mla z21.d, P0/M, z20.d, z31.d -sub z20.d, z22.d, z21.d -add z22.d, z22.d, z21.d -sqrdmulh z21.d, z24.d, z8.d[1] -mul z24.d, z24.d,z9.d[1] -mla z24.d, P0/M, z21.d, z31.d -sub z21.d, z18.d, z24.d -add z18.d, z18.d, z24.d -sqrdmulh z24.d, z16.d, z8.d[1] -mul z16.d, z16.d,z9.d[1] -mla z16.d, P0/M, z24.d, z31.d -sub z24.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z23.d, z6.d[0] -mul z23.d, z23.d,z7.d[0] -mla z23.d, P0/M, z16.d, z31.d -sub z16.d, z22.d, z23.d -add z22.d, z22.d, z23.d -str q22, [x0, #1552] -str q16, [x0, #1584] -sqrdmulh z16.d, z19.d, z6.d[1] -mul z19.d, z19.d,z7.d[1] -mla z19.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z19.d -add z20.d, z20.d, z19.d -str q20, [x0, #1616] -str q16, [x0, #1648] -sqrdmulh z16.d, z21.d, z4.d[1] -mul z21.d, z21.d,z5.d[1] -mla z21.d, P0/M, z16.d, z31.d -sub z16.d, z24.d, z21.d -add z24.d, z24.d, z21.d -str q24, [x0, #1744] -str q16, [x0, #1776] -sqrdmulh z16.d, z18.d, z4.d[0] -mul z18.d, z18.d,z5.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #1680] -str q16, [x0, #1712] -ldr q16, [x0, #1760] -ldr q17, [x0, #1728] -ldr q18, [x0, #1664] -ldr q24, [x0, #1696] -ldr q21, [x0, #1632] -ldr q20, [x0, #1600] -ldr q19, [x0, #1536] -ldr q22, [x0, #1568] -sqrdmulh z23.d, z16.d, z10.d[0] -mul z16.d, z16.d,z11.d[0] -mla z16.d, P0/M, z23.d, z31.d -sub z23.d, z21.d, z16.d -add z21.d, z21.d, z16.d -sqrdmulh z16.d, z17.d, z10.d[0] -mul z17.d, z17.d,z11.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z17.d -add z20.d, z20.d, z17.d -sqrdmulh z17.d, z18.d, z10.d[0] -mul z18.d, z18.d,z11.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z19.d, z18.d -add z19.d, z19.d, z18.d -sqrdmulh z18.d, z24.d, z10.d[0] -mul z24.d, z24.d,z11.d[0] -mla z24.d, P0/M, z18.d, z31.d -sub z18.d, z22.d, z24.d -add z22.d, z22.d, z24.d -sqrdmulh z24.d, z21.d, z8.d[0] -mul z21.d, z21.d,z9.d[0] -mla z21.d, P0/M, z24.d, z31.d -sub z24.d, z22.d, z21.d -add z22.d, z22.d, z21.d -ldr q12, [x17, #+1024] -ldr q13, [x17, #+1040] -ldr q14, [x17, #+1056] -ldr q15, [x17, #+1072] -ldr q0, [x17, #+1088] -ldr q1, [x17, #+1104] -ldr q2, [x17, #+1120] -ldr q3, [x17, #+1136] -sqrdmulh z21.d, z20.d, z8.d[0] -mul z20.d, z20.d,z9.d[0] -mla z20.d, P0/M, z21.d, z31.d -sub z21.d, z19.d, z20.d -add z19.d, z19.d, z20.d -sqrdmulh z20.d, z23.d, z8.d[1] -mul z23.d, z23.d,z9.d[1] -mla z23.d, P0/M, z20.d, z31.d -sub z20.d, z18.d, z23.d -add z18.d, z18.d, z23.d -sqrdmulh z23.d, z16.d, z8.d[1] -mul z16.d, z16.d,z9.d[1] -mla z16.d, P0/M, z23.d, z31.d -sub z23.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z22.d, z6.d[0] -mul z22.d, z22.d,z7.d[0] -mla z22.d, P0/M, z16.d, z31.d -sub z16.d, z19.d, z22.d -add z19.d, z19.d, z22.d -str q19, [x0, #1536] -str q16, [x0, #1568] -sqrdmulh z16.d, z24.d, z6.d[1] -mul z24.d, z24.d,z7.d[1] -mla z24.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z24.d -add z21.d, z21.d, z24.d -str q21, [x0, #1600] -str q16, [x0, #1632] -sqrdmulh z16.d, z20.d, z4.d[1] -mul z20.d, z20.d,z5.d[1] -mla z20.d, P0/M, z16.d, z31.d -sub z16.d, z23.d, z20.d -add z23.d, z23.d, z20.d -str q23, [x0, #1728] -str q16, [x0, #1760] -sqrdmulh z16.d, z18.d, z4.d[0] -mul z18.d, z18.d,z5.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #1664] -str q16, [x0, #1696] -ldr q16, [x0, #2032] -ldr q17, [x0, #2000] -ldr q18, [x0, #1936] -ldr q23, [x0, #1968] -ldr q20, [x0, #1904] -ldr q21, [x0, #1872] -ldr q24, [x0, #1808] -ldr q19, [x0, #1840] -sqrdmulh z22.d, z16.d, z13.d[0] -mul z16.d, z16.d,z12.d[0] -mla z16.d, P0/M, z22.d, z31.d -sub z22.d, z20.d, z16.d -add z20.d, z20.d, z16.d -sqrdmulh z16.d, z17.d, z13.d[0] -mul z17.d, z17.d,z12.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z17.d -add z21.d, z21.d, z17.d -sqrdmulh z17.d, z18.d, z13.d[0] -mul z18.d, z18.d,z12.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z24.d, z18.d -add z24.d, z24.d, z18.d -sqrdmulh z18.d, z23.d, z13.d[0] -mul z23.d, z23.d,z12.d[0] -mla z23.d, P0/M, z18.d, z31.d -sub z18.d, z19.d, z23.d -add z19.d, z19.d, z23.d -sqrdmulh z23.d, z20.d, z15.d[0] -mul z20.d, z20.d,z14.d[0] -mla z20.d, P0/M, z23.d, z31.d -sub z23.d, z19.d, z20.d -add z19.d, z19.d, z20.d -sqrdmulh z20.d, z21.d, z15.d[0] -mul z21.d, z21.d,z14.d[0] -mla z21.d, P0/M, z20.d, z31.d -sub z20.d, z24.d, z21.d -add z24.d, z24.d, z21.d -sqrdmulh z21.d, z22.d, z15.d[1] -mul z22.d, z22.d,z14.d[1] -mla z22.d, P0/M, z21.d, z31.d -sub z21.d, z18.d, z22.d -add z18.d, z18.d, z22.d -sqrdmulh z22.d, z16.d, z15.d[1] -mul z16.d, z16.d,z14.d[1] -mla z16.d, P0/M, z22.d, z31.d -sub z22.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z19.d, z1.d[0] -mul z19.d, z19.d,z0.d[0] -mla z19.d, P0/M, z16.d, z31.d -sub z16.d, z24.d, z19.d -add z24.d, z24.d, z19.d -str q24, [x0, #1808] -str q16, [x0, #1840] -sqrdmulh z16.d, z23.d, z1.d[1] -mul z23.d, z23.d,z0.d[1] -mla z23.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z23.d -add z20.d, z20.d, z23.d -str q20, [x0, #1872] -str q16, [x0, #1904] -sqrdmulh z16.d, z21.d, z3.d[1] -mul z21.d, z21.d,z2.d[1] -mla z21.d, P0/M, z16.d, z31.d -sub z16.d, z22.d, z21.d -add z22.d, z22.d, z21.d -str q22, [x0, #2000] -str q16, [x0, #2032] -sqrdmulh z16.d, z18.d, z3.d[0] -mul z18.d, z18.d,z2.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #1936] -str q16, [x0, #1968] -ldr q16, [x0, #2016] -ldr q17, [x0, #1984] -ldr q18, [x0, #1920] -ldr q22, [x0, #1952] -ldr q21, [x0, #1888] -ldr q20, [x0, #1856] -ldr q23, [x0, #1792] -ldr q24, [x0, #1824] -sqrdmulh z19.d, z16.d, z13.d[0] -mul z16.d, z16.d,z12.d[0] -mla z16.d, P0/M, z19.d, z31.d -sub z19.d, z21.d, z16.d -add z21.d, z21.d, z16.d -sqrdmulh z16.d, z17.d, z13.d[0] -mul z17.d, z17.d,z12.d[0] -mla z17.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z17.d -add z20.d, z20.d, z17.d -sqrdmulh z17.d, z18.d, z13.d[0] -mul z18.d, z18.d,z12.d[0] -mla z18.d, P0/M, z17.d, z31.d -sub z17.d, z23.d, z18.d -add z23.d, z23.d, z18.d -sqrdmulh z18.d, z22.d, z13.d[0] -mul z22.d, z22.d,z12.d[0] -mla z22.d, P0/M, z18.d, z31.d -sub z18.d, z24.d, z22.d -add z24.d, z24.d, z22.d -sqrdmulh z22.d, z21.d, z15.d[0] -mul z21.d, z21.d,z14.d[0] -mla z21.d, P0/M, z22.d, z31.d -sub z22.d, z24.d, z21.d -add z24.d, z24.d, z21.d -sqrdmulh z21.d, z20.d, z15.d[0] -mul z20.d, z20.d,z14.d[0] -mla z20.d, P0/M, z21.d, z31.d -sub z21.d, z23.d, z20.d -add z23.d, z23.d, z20.d -sqrdmulh z20.d, z19.d, z15.d[1] -mul z19.d, z19.d,z14.d[1] -mla z19.d, P0/M, z20.d, z31.d -sub z20.d, z18.d, z19.d -add z18.d, z18.d, z19.d -sqrdmulh z19.d, z16.d, z15.d[1] -mul z16.d, z16.d,z14.d[1] -mla z16.d, P0/M, z19.d, z31.d -sub z19.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z24.d, z1.d[0] -mul z24.d, z24.d,z0.d[0] -mla z24.d, P0/M, z16.d, z31.d -sub z16.d, z23.d, z24.d -add z23.d, z23.d, z24.d -str q23, [x0, #1792] -str q16, [x0, #1824] -sqrdmulh z16.d, z22.d, z1.d[1] -mul z22.d, z22.d,z0.d[1] -mla z22.d, P0/M, z16.d, z31.d -sub z16.d, z21.d, z22.d -add z21.d, z21.d, z22.d -str q21, [x0, #1856] -str q16, [x0, #1888] -sqrdmulh z16.d, z20.d, z3.d[1] -mul z20.d, z20.d,z2.d[1] -mla z20.d, P0/M, z16.d, z31.d -sub z16.d, z19.d, z20.d -add z19.d, z19.d, z20.d -str q19, [x0, #1984] -str q16, [x0, #2016] -sqrdmulh z16.d, z18.d, z3.d[0] -mul z18.d, z18.d,z2.d[0] -mla z18.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z18.d -add z17.d, z17.d, z18.d -str q17, [x0, #1920] -str q16, [x0, #1952] -// Restore SVE2 vector registers -ldp d8, d9, [sp, #16*0] -ldp d10, d11, [sp, #16*1] -ldp d12, d13, [sp, #16*2] -ldp d14, d15, [sp, #16*3] -add sp, sp, #(16*4) -// Restore GPRs -ldp x19, x20, [sp, #16*0] -ldp x21, x22, [sp, #16*1] -ldp x23, x24, [sp, #16*2] -ldp x25, x26, [sp, #16*3] -ldp x27, x28, [sp, #16*4] -ldr x29, [sp, #16*5] -add sp, sp, #(16*5+16) -ret - -// Line count: 2697 -// Instruction count: 2693 \ No newline at end of file diff --git a/tests/ntt_sve2/auto/ntt_u64_incomplete_72057594067788289_60277548896192635_var_3_3_1.s b/tests/ntt_sve2/auto/ntt_u64_incomplete_72057594067788289_60277548896192635_var_3_3_1.s deleted file mode 100644 index 9cf22e1..0000000 --- a/tests/ntt_sve2/auto/ntt_u64_incomplete_72057594067788289_60277548896192635_var_3_3_1.s +++ /dev/null @@ -1,2727 +0,0 @@ - -/// -/// Copyright (c) 2021 Arm Limited -/// SPDX-License-Identifier: MIT -/// -/// Permission is hereby granted, free of charge, to any person obtaining a copy -/// of this software and associated documentation files (the "Software"), to deal -/// in the Software without restriction, including without limitation the rights -/// to use, copy, modify, merge, publish, distribute, sublicense, and/or sell -/// copies of the Software, and to permit persons to whom the Software is -/// furnished to do so, subject to the following conditions: -/// -/// The above copyright notice and this permission notice shall be included in all -/// copies or substantial portions of the Software. -/// -/// THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR -/// IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, -/// FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE -/// AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER -/// LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, -/// OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE -/// SOFTWARE - - -/// -/// This assembly code has been auto-generated. -/// Don't modify it directly. -/// - -modulus: -.dword -72057594067788289 -.dword -72057594067788289 -.dword -72057594067788289 -.dword -72057594067788289 -.align 6 -roots_merged: -.dword 25792053496987399 // Layer 0, block 0 -.dword 0 // Layer None, block None -.dword 3301382846246308405 // Layer 0, block 0 -.dword 0 // Layer None, block None -.dword 36678763444893001 // Layer 1, block 0 -.dword 12009493193917617 // Layer 1, block 1 -.dword 4694881719000765600 // Layer 1, block 0 -.dword 1537215128184439725 // Layer 1, block 1 -.dword 57226611787624233 // Layer 2, block 0 -.dword 39665359539540334 // Layer 2, block 1 -.dword 7325006305780451127 // Layer 2, block 0 -.dword 5077166018957207276 // Layer 2, block 1 -.dword 14359056949694594 // Layer 2, block 2 -.dword 63449028357011879 // Layer 2, block 3 -.dword 1837959288799265711 // Layer 2, block 2 -.dword 8121475626332016399 // Layer 2, block 3 -.dword 56437370284897879 // Layer 3, block 0 -.dword 0 // Layer None, block None -.dword 7223983393473341270 // Layer 3, block 0 -.dword 0 // Layer None, block None -.dword 15519149204003269 // Layer 4, block 0 -.dword 18945631884663455 // Layer 4, block 1 -.dword 1986451097289241753 // Layer 4, block 0 -.dword 2425040880231995866 // Layer 4, block 1 -.dword 21843809513296019 // Layer 5, block 0 -.dword 52861630939350015 // Layer 5, block 1 -.dword 2796007616543237058 // Layer 5, block 0 -.dword 6766288757432881341 // Layer 5, block 1 -.dword 58200436133340777 // Layer 5, block 2 -.dword 45581265709396633 // Layer 5, block 3 -.dword 7449655821980514543 // Layer 5, block 2 -.dword 5834402008385018253 // Layer 5, block 3 -.dword 7801853795705237 // Layer 3, block 1 -.dword 0 // Layer None, block None -.dword 998637285436439396 // Layer 3, block 1 -.dword 0 // Layer None, block None -.dword 72057409685042741 // Layer 4, block 2 -.dword 67813594624550994 // Layer 4, block 3 -.dword 9223348435863355444 // Layer 4, block 2 -.dword 8680140108345514992 // Layer 4, block 3 -.dword 16444438478993771 // Layer 5, block 4 -.dword 44738633871916757 // Layer 5, block 5 -.dword 2104888124438946221 // Layer 5, block 4 -.dword 5726545133232289544 // Layer 5, block 5 -.dword 14998888047589537 // Layer 5, block 6 -.dword 1367715298619054 // Layer 5, block 7 -.dword 1919857669295880083 // Layer 5, block 6 -.dword 175067558150691679 // Layer 5, block 7 -.dword 50810289212278368 // Layer 3, block 2 -.dword 0 // Layer None, block None -.dword 6503717016476519110 // Layer 3, block 2 -.dword 0 // Layer None, block None -.dword 38922220208018571 // Layer 4, block 4 -.dword 7966052600948377 // Layer 4, block 5 -.dword 4982044184561839686 // Layer 4, block 4 -.dword 1019654732498851778 // Layer 4, block 5 -.dword 45879272116084567 // Layer 5, block 8 -.dword 66654388400258382 // Layer 5, block 9 -.dword 5872546828425266758 // Layer 5, block 8 -.dword 8531761711697548017 // Layer 5, block 9 -.dword 8930087962801744 // Layer 5, block 10 -.dword 61848588213223279 // Layer 5, block 11 -.dword 1143051258764947771 // Layer 5, block 10 -.dword 7916619288011967173 // Layer 5, block 11 -.dword 31977682183549777 // Layer 3, block 3 -.dword 0 // Layer None, block None -.dword 4093143317798190700 // Layer 3, block 3 -.dword 0 // Layer None, block None -.dword 66070897124800871 // Layer 4, block 6 -.dword 953067252694683 // Layer 4, block 7 -.dword 8457074828469936528 // Layer 4, block 6 -.dword 121992608294366219 // Layer 4, block 7 -.dword 33801610235026337 // Layer 5, block 12 -.dword 32122784433286747 // Layer 5, block 13 -.dword 4326606108290444417 // Layer 5, block 12 -.dword 4111716405756826253 // Layer 5, block 13 -.dword 67688369535326483 // Layer 5, block 14 -.dword 45021686719473556 // Layer 5, block 15 -.dword 8664111296931419854 // Layer 5, block 14 -.dword 5762775897704545946 // Layer 5, block 15 -.dword 66662168904752601 // Layer 3, block 4 -.dword 0 // Layer None, block None -.dword 8532757616272395351 // Layer 3, block 4 -.dword 0 // Layer None, block None -.dword 23961218891132444 // Layer 4, block 8 -.dword 59012643726482518 // Layer 4, block 9 -.dword 3067036016793986470 // Layer 4, block 8 -.dword 7553618393859575754 // Layer 4, block 9 -.dword 52812533586708198 // Layer 5, block 16 -.dword 27994290036168371 // Layer 5, block 17 -.dword 6760004296297333018 // Layer 5, block 16 -.dword 3583269123144660376 // Layer 5, block 17 -.dword 45890717144660134 // Layer 5, block 18 -.dword 39684773913748863 // Layer 5, block 19 -.dword 5874011792082332260 // Layer 5, block 18 -.dword 5079651058854869198 // Layer 5, block 19 -.dword 50149898471788096 // Layer 3, block 5 -.dword 0 // Layer None, block None -.dword 6419187001728793164 // Layer 3, block 5 -.dword 0 // Layer None, block None -.dword 65714767972465509 // Layer 4, block 10 -.dword 51421828010275652 // Layer 4, block 11 -.dword 8411490296989900223 // Layer 4, block 10 -.dword 6581993982587733829 // Layer 4, block 11 -.dword 18683690578478417 // Layer 5, block 20 -.dword 3282356803714609 // Layer 5, block 21 -.dword 2391512393054205061 // Layer 5, block 20 -.dword 420141670701365074 // Layer 5, block 21 -.dword 67884452950503047 // Layer 5, block 22 -.dword 10335338564031418 // Layer 5, block 23 -.dword 8689209974063619263 // Layer 5, block 22 -.dword 1322923335647807838 // Layer 5, block 23 -.dword 30932683335866672 // Layer 3, block 6 -.dword 0 // Layer None, block None -.dword 3959383465350182760 // Layer 3, block 6 -.dword 0 // Layer None, block None -.dword 27050097608373352 // Layer 4, block 12 -.dword 67454821565758121 // Layer 4, block 13 -.dword 3462412492436980406 // Layer 4, block 12 -.dword 8634217156839057519 // Layer 4, block 13 -.dword 32828920539599153 // Layer 5, block 24 -.dword 8624332566875856 // Layer 5, block 25 -.dword 4202101827327358896 // Layer 5, block 24 -.dword 1103914568102652181 // Layer 5, block 25 -.dword 56732837753533829 // Layer 5, block 26 -.dword 14816466027490539 // Layer 5, block 27 -.dword 7261803229443070495 // Layer 5, block 26 -.dword 1896507650732884485 // Layer 5, block 27 -.dword 54968319742463037 // Layer 3, block 7 -.dword 0 // Layer None, block None -.dword 7035944924119603816 // Layer 3, block 7 -.dword 0 // Layer None, block None -.dword 55666925166425210 // Layer 4, block 14 -.dword 34241587306439298 // Layer 4, block 15 -.dword 7125366418349706083 // Layer 4, block 14 -.dword 4382923173407965878 // Layer 4, block 15 -.dword 8550051130607768 // Layer 5, block 28 -.dword 14420141705316589 // Layer 5, block 29 -.dword 1094406544264277001 // Layer 5, block 28 -.dword 1845778137515640974 // Layer 5, block 29 -.dword 55622715926092387 // Layer 5, block 30 -.dword 3405033449209397 // Layer 5, block 31 -.dword 7119707635589449714 // Layer 5, block 30 -.dword 435844281318190845 // Layer 5, block 31 -.text -.type ntt_u64_incomplete_sve2_asm_var_3_3_1, %function -.global ntt_u64_incomplete_sve2_asm_var_3_3_1 -modulus_addr: .quad modulus -roots_merged_addr: .quad roots_merged -ntt_u64_incomplete_sve2_asm_var_3_3_1: -// Save GPRs -sub sp, sp, #(16*5+16) -stp x19, x20, [sp, #16*0] -stp x19, x20, [sp, #16*0] -stp x21, x22, [sp, #16*1] -stp x23, x24, [sp, #16*2] -stp x25, x26, [sp, #16*3] -stp x27, x28, [sp, #16*4] -str x29, [sp, #16*5] -// Save SVE2 vector registers -sub sp, sp, #(16*4) -stp d8, d9, [sp, #16*0] -stp d10, d11, [sp, #16*1] -stp d12, d13, [sp, #16*2] -stp d14, d15, [sp, #16*3] -ldr x17, modulus_addr -ldr q31, [x17] -ptrue P0.d -ldr x17, roots_merged_addr -ldr q3, [x17, #+0] -ldr q2, [x17, #+16] -ldr q1, [x17, #+32] -ldr q0, [x17, #+48] -ldr q15, [x17, #+64] -ldr q14, [x17, #+80] -ldr q13, [x17, #+96] -ldr q12, [x17, #+112] -ldr q30, [x0, #1920] -ldr q29, [x0, #1664] -sqrdmulh z28.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -ldr q27, [x0, #1152] -ldr q26, [x0, #1408] -sqrdmulh z25.d, z29.d, z2.d[0] -mla z30.d, P0/M, z28.d, z31.d -mul z29.d, z29.d,z3.d[0] -ldr q28, [x0, #896] -ldr q24, [x0, #640] -sqrdmulh z23.d, z27.d, z2.d[0] -sub z22.d, z28.d, z30.d -mla z29.d, P0/M, z25.d, z31.d -mul z27.d, z27.d,z3.d[0] -add z28.d, z28.d, z30.d -ldr q30, [x0, #128] -ldr q25, [x0, #384] -sqrdmulh z21.d, z26.d, z2.d[0] -sub z20.d, z24.d, z29.d -mla z27.d, P0/M, z23.d, z31.d -mul z26.d, z26.d,z3.d[0] -add z24.d, z24.d, z29.d -sqrdmulh z29.d, z28.d, z0.d[0] -sub z23.d, z30.d, z27.d -mla z26.d, P0/M, z21.d, z31.d -mul z28.d, z28.d,z1.d[0] -add z30.d, z30.d, z27.d -sqrdmulh z27.d, z24.d, z0.d[0] -sub z21.d, z25.d, z26.d -mla z28.d, P0/M, z29.d, z31.d -mul z24.d, z24.d,z1.d[0] -add z25.d, z25.d, z26.d -sqrdmulh z26.d, z22.d, z0.d[1] -sub z29.d, z25.d, z28.d -mla z24.d, P0/M, z27.d, z31.d -mul z22.d, z22.d,z1.d[1] -add z25.d, z25.d, z28.d -sqrdmulh z28.d, z20.d, z0.d[1] -sub z27.d, z30.d, z24.d -mla z22.d, P0/M, z26.d, z31.d -mul z20.d, z20.d,z1.d[1] -add z30.d, z30.d, z24.d -sqrdmulh z24.d, z25.d, z14.d[0] -sub z26.d, z21.d, z22.d -mla z20.d, P0/M, z28.d, z31.d -mul z25.d, z25.d,z15.d[0] -add z21.d, z21.d, z22.d -sqrdmulh z22.d, z29.d, z14.d[1] -sub z28.d, z23.d, z20.d -mla z25.d, P0/M, z24.d, z31.d -mul z29.d, z29.d,z15.d[1] -add z23.d, z23.d, z20.d -sqrdmulh z20.d, z26.d, z12.d[1] -sub z24.d, z30.d, z25.d -mla z29.d, P0/M, z22.d, z31.d -mul z26.d, z26.d,z13.d[1] -add z30.d, z30.d, z25.d -str q30, [x0, #128] -str q24, [x0, #384] -sqrdmulh z24.d, z21.d, z12.d[0] -sub z30.d, z27.d, z29.d -mla z26.d, P0/M, z20.d, z31.d -mul z21.d, z21.d,z13.d[0] -add z27.d, z27.d, z29.d -str q27, [x0, #640] -str q30, [x0, #896] -ldr q30, [x0, #1936] -ldr q27, [x0, #1680] -sqrdmulh z29.d, z30.d, z2.d[0] -sub z20.d, z28.d, z26.d -mla z21.d, P0/M, z24.d, z31.d -mul z30.d, z30.d,z3.d[0] -add z28.d, z28.d, z26.d -str q28, [x0, #1664] -str q20, [x0, #1920] -ldr q20, [x0, #1168] -ldr q28, [x0, #1424] -sqrdmulh z26.d, z27.d, z2.d[0] -sub z24.d, z23.d, z21.d -mla z30.d, P0/M, z29.d, z31.d -mul z27.d, z27.d,z3.d[0] -add z23.d, z23.d, z21.d -str q23, [x0, #1152] -str q24, [x0, #1408] -ldr q24, [x0, #912] -ldr q23, [x0, #656] -sqrdmulh z21.d, z20.d, z2.d[0] -sub z29.d, z24.d, z30.d -mla z27.d, P0/M, z26.d, z31.d -mul z20.d, z20.d,z3.d[0] -add z24.d, z24.d, z30.d -ldr q30, [x0, #144] -ldr q26, [x0, #400] -sqrdmulh z25.d, z28.d, z2.d[0] -sub z22.d, z23.d, z27.d -mla z20.d, P0/M, z21.d, z31.d -mul z28.d, z28.d,z3.d[0] -add z23.d, z23.d, z27.d -sqrdmulh z27.d, z24.d, z0.d[0] -sub z21.d, z30.d, z20.d -mla z28.d, P0/M, z25.d, z31.d -mul z24.d, z24.d,z1.d[0] -add z30.d, z30.d, z20.d -sqrdmulh z20.d, z23.d, z0.d[0] -sub z25.d, z26.d, z28.d -mla z24.d, P0/M, z27.d, z31.d -mul z23.d, z23.d,z1.d[0] -add z26.d, z26.d, z28.d -sqrdmulh z28.d, z29.d, z0.d[1] -sub z27.d, z26.d, z24.d -mla z23.d, P0/M, z20.d, z31.d -mul z29.d, z29.d,z1.d[1] -add z26.d, z26.d, z24.d -sqrdmulh z24.d, z22.d, z0.d[1] -sub z20.d, z30.d, z23.d -mla z29.d, P0/M, z28.d, z31.d -mul z22.d, z22.d,z1.d[1] -add z30.d, z30.d, z23.d -sqrdmulh z23.d, z26.d, z14.d[0] -sub z28.d, z25.d, z29.d -mla z22.d, P0/M, z24.d, z31.d -mul z26.d, z26.d,z15.d[0] -add z25.d, z25.d, z29.d -sqrdmulh z29.d, z27.d, z14.d[1] -sub z24.d, z21.d, z22.d -mla z26.d, P0/M, z23.d, z31.d -mul z27.d, z27.d,z15.d[1] -add z21.d, z21.d, z22.d -sqrdmulh z22.d, z28.d, z12.d[1] -sub z23.d, z30.d, z26.d -mla z27.d, P0/M, z29.d, z31.d -mul z28.d, z28.d,z13.d[1] -add z30.d, z30.d, z26.d -str q30, [x0, #144] -str q23, [x0, #400] -sqrdmulh z23.d, z25.d, z12.d[0] -sub z30.d, z20.d, z27.d -mla z28.d, P0/M, z22.d, z31.d -mul z25.d, z25.d,z13.d[0] -add z20.d, z20.d, z27.d -str q20, [x0, #656] -str q30, [x0, #912] -ldr q30, [x0, #1952] -ldr q20, [x0, #1696] -sqrdmulh z27.d, z30.d, z2.d[0] -sub z22.d, z24.d, z28.d -mla z25.d, P0/M, z23.d, z31.d -mul z30.d, z30.d,z3.d[0] -add z24.d, z24.d, z28.d -str q24, [x0, #1680] -str q22, [x0, #1936] -ldr q22, [x0, #1184] -ldr q24, [x0, #1440] -sqrdmulh z28.d, z20.d, z2.d[0] -sub z23.d, z21.d, z25.d -mla z30.d, P0/M, z27.d, z31.d -mul z20.d, z20.d,z3.d[0] -add z21.d, z21.d, z25.d -str q21, [x0, #1168] -str q23, [x0, #1424] -ldr q23, [x0, #928] -ldr q21, [x0, #672] -sqrdmulh z25.d, z22.d, z2.d[0] -sub z27.d, z23.d, z30.d -mla z20.d, P0/M, z28.d, z31.d -mul z22.d, z22.d,z3.d[0] -add z23.d, z23.d, z30.d -ldr q30, [x0, #160] -ldr q28, [x0, #416] -sqrdmulh z26.d, z24.d, z2.d[0] -sub z29.d, z21.d, z20.d -mla z22.d, P0/M, z25.d, z31.d -mul z24.d, z24.d,z3.d[0] -add z21.d, z21.d, z20.d -sqrdmulh z20.d, z23.d, z0.d[0] -sub z25.d, z30.d, z22.d -mla z24.d, P0/M, z26.d, z31.d -mul z23.d, z23.d,z1.d[0] -add z30.d, z30.d, z22.d -sqrdmulh z22.d, z21.d, z0.d[0] -sub z26.d, z28.d, z24.d -mla z23.d, P0/M, z20.d, z31.d -mul z21.d, z21.d,z1.d[0] -add z28.d, z28.d, z24.d -sqrdmulh z24.d, z27.d, z0.d[1] -sub z20.d, z28.d, z23.d -mla z21.d, P0/M, z22.d, z31.d -mul z27.d, z27.d,z1.d[1] -add z28.d, z28.d, z23.d -sqrdmulh z23.d, z29.d, z0.d[1] -sub z22.d, z30.d, z21.d -mla z27.d, P0/M, z24.d, z31.d -mul z29.d, z29.d,z1.d[1] -add z30.d, z30.d, z21.d -sqrdmulh z21.d, z28.d, z14.d[0] -sub z24.d, z26.d, z27.d -mla z29.d, P0/M, z23.d, z31.d -mul z28.d, z28.d,z15.d[0] -add z26.d, z26.d, z27.d -sqrdmulh z27.d, z20.d, z14.d[1] -sub z23.d, z25.d, z29.d -mla z28.d, P0/M, z21.d, z31.d -mul z20.d, z20.d,z15.d[1] -add z25.d, z25.d, z29.d -sqrdmulh z29.d, z24.d, z12.d[1] -sub z21.d, z30.d, z28.d -mla z20.d, P0/M, z27.d, z31.d -mul z24.d, z24.d,z13.d[1] -add z30.d, z30.d, z28.d -str q30, [x0, #160] -str q21, [x0, #416] -sqrdmulh z21.d, z26.d, z12.d[0] -sub z30.d, z22.d, z20.d -mla z24.d, P0/M, z29.d, z31.d -mul z26.d, z26.d,z13.d[0] -add z22.d, z22.d, z20.d -str q22, [x0, #672] -str q30, [x0, #928] -ldr q30, [x0, #1968] -ldr q22, [x0, #1712] -sqrdmulh z20.d, z30.d, z2.d[0] -sub z29.d, z23.d, z24.d -mla z26.d, P0/M, z21.d, z31.d -mul z30.d, z30.d,z3.d[0] -add z23.d, z23.d, z24.d -str q23, [x0, #1696] -str q29, [x0, #1952] -ldr q29, [x0, #1200] -ldr q23, [x0, #1456] -sqrdmulh z24.d, z22.d, z2.d[0] -sub z21.d, z25.d, z26.d -mla z30.d, P0/M, z20.d, z31.d -mul z22.d, z22.d,z3.d[0] -add z25.d, z25.d, z26.d -str q25, [x0, #1184] -str q21, [x0, #1440] -ldr q21, [x0, #944] -ldr q25, [x0, #688] -sqrdmulh z26.d, z29.d, z2.d[0] -sub z20.d, z21.d, z30.d -mla z22.d, P0/M, z24.d, z31.d -mul z29.d, z29.d,z3.d[0] -add z21.d, z21.d, z30.d -ldr q30, [x0, #176] -ldr q24, [x0, #432] -sqrdmulh z28.d, z23.d, z2.d[0] -sub z27.d, z25.d, z22.d -mla z29.d, P0/M, z26.d, z31.d -mul z23.d, z23.d,z3.d[0] -add z25.d, z25.d, z22.d -sqrdmulh z22.d, z21.d, z0.d[0] -sub z26.d, z30.d, z29.d -mla z23.d, P0/M, z28.d, z31.d -mul z21.d, z21.d,z1.d[0] -add z30.d, z30.d, z29.d -sqrdmulh z29.d, z25.d, z0.d[0] -sub z28.d, z24.d, z23.d -mla z21.d, P0/M, z22.d, z31.d -mul z25.d, z25.d,z1.d[0] -add z24.d, z24.d, z23.d -sqrdmulh z23.d, z20.d, z0.d[1] -sub z22.d, z24.d, z21.d -mla z25.d, P0/M, z29.d, z31.d -mul z20.d, z20.d,z1.d[1] -add z24.d, z24.d, z21.d -sqrdmulh z21.d, z27.d, z0.d[1] -sub z29.d, z30.d, z25.d -mla z20.d, P0/M, z23.d, z31.d -mul z27.d, z27.d,z1.d[1] -add z30.d, z30.d, z25.d -sqrdmulh z25.d, z24.d, z14.d[0] -sub z23.d, z28.d, z20.d -mla z27.d, P0/M, z21.d, z31.d -mul z24.d, z24.d,z15.d[0] -add z28.d, z28.d, z20.d -sqrdmulh z20.d, z22.d, z14.d[1] -sub z21.d, z26.d, z27.d -mla z24.d, P0/M, z25.d, z31.d -mul z22.d, z22.d,z15.d[1] -add z26.d, z26.d, z27.d -sqrdmulh z27.d, z23.d, z12.d[1] -sub z25.d, z30.d, z24.d -mla z22.d, P0/M, z20.d, z31.d -mul z23.d, z23.d,z13.d[1] -add z30.d, z30.d, z24.d -str q30, [x0, #176] -str q25, [x0, #432] -sqrdmulh z25.d, z28.d, z12.d[0] -sub z30.d, z29.d, z22.d -mla z23.d, P0/M, z27.d, z31.d -mul z28.d, z28.d,z13.d[0] -add z29.d, z29.d, z22.d -str q29, [x0, #688] -str q30, [x0, #944] -ldr q30, [x0, #1984] -ldr q29, [x0, #1728] -sqrdmulh z22.d, z30.d, z2.d[0] -sub z27.d, z21.d, z23.d -mla z28.d, P0/M, z25.d, z31.d -mul z30.d, z30.d,z3.d[0] -add z21.d, z21.d, z23.d -str q21, [x0, #1712] -str q27, [x0, #1968] -ldr q27, [x0, #1216] -ldr q21, [x0, #1472] -sqrdmulh z23.d, z29.d, z2.d[0] -sub z25.d, z26.d, z28.d -mla z30.d, P0/M, z22.d, z31.d -mul z29.d, z29.d,z3.d[0] -add z26.d, z26.d, z28.d -str q26, [x0, #1200] -str q25, [x0, #1456] -ldr q25, [x0, #960] -ldr q26, [x0, #704] -sqrdmulh z28.d, z27.d, z2.d[0] -sub z22.d, z25.d, z30.d -mla z29.d, P0/M, z23.d, z31.d -mul z27.d, z27.d,z3.d[0] -add z25.d, z25.d, z30.d -ldr q30, [x0, #192] -ldr q23, [x0, #448] -sqrdmulh z24.d, z21.d, z2.d[0] -sub z20.d, z26.d, z29.d -mla z27.d, P0/M, z28.d, z31.d -mul z21.d, z21.d,z3.d[0] -add z26.d, z26.d, z29.d -sqrdmulh z29.d, z25.d, z0.d[0] -sub z28.d, z30.d, z27.d -mla z21.d, P0/M, z24.d, z31.d -mul z25.d, z25.d,z1.d[0] -add z30.d, z30.d, z27.d -sqrdmulh z27.d, z26.d, z0.d[0] -sub z24.d, z23.d, z21.d -mla z25.d, P0/M, z29.d, z31.d -mul z26.d, z26.d,z1.d[0] -add z23.d, z23.d, z21.d -sqrdmulh z21.d, z22.d, z0.d[1] -sub z29.d, z23.d, z25.d -mla z26.d, P0/M, z27.d, z31.d -mul z22.d, z22.d,z1.d[1] -add z23.d, z23.d, z25.d -sqrdmulh z25.d, z20.d, z0.d[1] -sub z27.d, z30.d, z26.d -mla z22.d, P0/M, z21.d, z31.d -mul z20.d, z20.d,z1.d[1] -add z30.d, z30.d, z26.d -sqrdmulh z26.d, z23.d, z14.d[0] -sub z21.d, z24.d, z22.d -mla z20.d, P0/M, z25.d, z31.d -mul z23.d, z23.d,z15.d[0] -add z24.d, z24.d, z22.d -sqrdmulh z22.d, z29.d, z14.d[1] -sub z25.d, z28.d, z20.d -mla z23.d, P0/M, z26.d, z31.d -mul z29.d, z29.d,z15.d[1] -add z28.d, z28.d, z20.d -sqrdmulh z20.d, z21.d, z12.d[1] -sub z26.d, z30.d, z23.d -mla z29.d, P0/M, z22.d, z31.d -mul z21.d, z21.d,z13.d[1] -add z30.d, z30.d, z23.d -str q30, [x0, #192] -str q26, [x0, #448] -sqrdmulh z26.d, z24.d, z12.d[0] -sub z30.d, z27.d, z29.d -mla z21.d, P0/M, z20.d, z31.d -mul z24.d, z24.d,z13.d[0] -add z27.d, z27.d, z29.d -str q27, [x0, #704] -str q30, [x0, #960] -ldr q30, [x0, #2000] -ldr q27, [x0, #1744] -sqrdmulh z29.d, z30.d, z2.d[0] -sub z20.d, z25.d, z21.d -mla z24.d, P0/M, z26.d, z31.d -mul z30.d, z30.d,z3.d[0] -add z25.d, z25.d, z21.d -str q25, [x0, #1728] -str q20, [x0, #1984] -ldr q20, [x0, #1232] -ldr q25, [x0, #1488] -sqrdmulh z21.d, z27.d, z2.d[0] -sub z26.d, z28.d, z24.d -mla z30.d, P0/M, z29.d, z31.d -mul z27.d, z27.d,z3.d[0] -add z28.d, z28.d, z24.d -str q28, [x0, #1216] -str q26, [x0, #1472] -ldr q26, [x0, #976] -ldr q28, [x0, #720] -sqrdmulh z24.d, z20.d, z2.d[0] -sub z29.d, z26.d, z30.d -mla z27.d, P0/M, z21.d, z31.d -mul z20.d, z20.d,z3.d[0] -add z26.d, z26.d, z30.d -ldr q30, [x0, #208] -ldr q21, [x0, #464] -sqrdmulh z23.d, z25.d, z2.d[0] -sub z22.d, z28.d, z27.d -mla z20.d, P0/M, z24.d, z31.d -mul z25.d, z25.d,z3.d[0] -add z28.d, z28.d, z27.d -sqrdmulh z27.d, z26.d, z0.d[0] -sub z24.d, z30.d, z20.d -mla z25.d, P0/M, z23.d, z31.d -mul z26.d, z26.d,z1.d[0] -add z30.d, z30.d, z20.d -sqrdmulh z20.d, z28.d, z0.d[0] -sub z23.d, z21.d, z25.d -mla z26.d, P0/M, z27.d, z31.d -mul z28.d, z28.d,z1.d[0] -add z21.d, z21.d, z25.d -sqrdmulh z25.d, z29.d, z0.d[1] -sub z27.d, z21.d, z26.d -mla z28.d, P0/M, z20.d, z31.d -mul z29.d, z29.d,z1.d[1] -add z21.d, z21.d, z26.d -sqrdmulh z26.d, z22.d, z0.d[1] -sub z20.d, z30.d, z28.d -mla z29.d, P0/M, z25.d, z31.d -mul z22.d, z22.d,z1.d[1] -add z30.d, z30.d, z28.d -sqrdmulh z28.d, z21.d, z14.d[0] -sub z25.d, z23.d, z29.d -mla z22.d, P0/M, z26.d, z31.d -mul z21.d, z21.d,z15.d[0] -add z23.d, z23.d, z29.d -sqrdmulh z29.d, z27.d, z14.d[1] -sub z26.d, z24.d, z22.d -mla z21.d, P0/M, z28.d, z31.d -mul z27.d, z27.d,z15.d[1] -add z24.d, z24.d, z22.d -sqrdmulh z22.d, z25.d, z12.d[1] -sub z28.d, z30.d, z21.d -mla z27.d, P0/M, z29.d, z31.d -mul z25.d, z25.d,z13.d[1] -add z30.d, z30.d, z21.d -str q30, [x0, #208] -str q28, [x0, #464] -sqrdmulh z28.d, z23.d, z12.d[0] -sub z30.d, z20.d, z27.d -mla z25.d, P0/M, z22.d, z31.d -mul z23.d, z23.d,z13.d[0] -add z20.d, z20.d, z27.d -str q20, [x0, #720] -str q30, [x0, #976] -ldr q30, [x0, #2016] -ldr q20, [x0, #1760] -sqrdmulh z27.d, z30.d, z2.d[0] -sub z22.d, z26.d, z25.d -mla z23.d, P0/M, z28.d, z31.d -mul z30.d, z30.d,z3.d[0] -add z26.d, z26.d, z25.d -str q26, [x0, #1744] -str q22, [x0, #2000] -ldr q22, [x0, #1248] -ldr q26, [x0, #1504] -sqrdmulh z25.d, z20.d, z2.d[0] -sub z28.d, z24.d, z23.d -mla z30.d, P0/M, z27.d, z31.d -mul z20.d, z20.d,z3.d[0] -add z24.d, z24.d, z23.d -str q24, [x0, #1232] -str q28, [x0, #1488] -ldr q28, [x0, #992] -ldr q24, [x0, #736] -sqrdmulh z23.d, z22.d, z2.d[0] -sub z27.d, z28.d, z30.d -mla z20.d, P0/M, z25.d, z31.d -mul z22.d, z22.d,z3.d[0] -add z28.d, z28.d, z30.d -ldr q30, [x0, #224] -ldr q25, [x0, #480] -sqrdmulh z21.d, z26.d, z2.d[0] -sub z29.d, z24.d, z20.d -mla z22.d, P0/M, z23.d, z31.d -mul z26.d, z26.d,z3.d[0] -add z24.d, z24.d, z20.d -sqrdmulh z20.d, z28.d, z0.d[0] -sub z23.d, z30.d, z22.d -mla z26.d, P0/M, z21.d, z31.d -mul z28.d, z28.d,z1.d[0] -add z30.d, z30.d, z22.d -sqrdmulh z22.d, z24.d, z0.d[0] -sub z21.d, z25.d, z26.d -mla z28.d, P0/M, z20.d, z31.d -mul z24.d, z24.d,z1.d[0] -add z25.d, z25.d, z26.d -sqrdmulh z26.d, z27.d, z0.d[1] -sub z20.d, z25.d, z28.d -mla z24.d, P0/M, z22.d, z31.d -mul z27.d, z27.d,z1.d[1] -add z25.d, z25.d, z28.d -sqrdmulh z28.d, z29.d, z0.d[1] -sub z22.d, z30.d, z24.d -mla z27.d, P0/M, z26.d, z31.d -mul z29.d, z29.d,z1.d[1] -add z30.d, z30.d, z24.d -sqrdmulh z24.d, z25.d, z14.d[0] -sub z26.d, z21.d, z27.d -mla z29.d, P0/M, z28.d, z31.d -mul z25.d, z25.d,z15.d[0] -add z21.d, z21.d, z27.d -sqrdmulh z27.d, z20.d, z14.d[1] -sub z28.d, z23.d, z29.d -mla z25.d, P0/M, z24.d, z31.d -mul z20.d, z20.d,z15.d[1] -add z23.d, z23.d, z29.d -sqrdmulh z29.d, z26.d, z12.d[1] -sub z24.d, z30.d, z25.d -mla z20.d, P0/M, z27.d, z31.d -mul z26.d, z26.d,z13.d[1] -add z30.d, z30.d, z25.d -str q30, [x0, #224] -str q24, [x0, #480] -sqrdmulh z24.d, z21.d, z12.d[0] -sub z30.d, z22.d, z20.d -mla z26.d, P0/M, z29.d, z31.d -mul z21.d, z21.d,z13.d[0] -add z22.d, z22.d, z20.d -str q22, [x0, #736] -str q30, [x0, #992] -ldr q30, [x0, #2032] -ldr q22, [x0, #1776] -sqrdmulh z20.d, z30.d, z2.d[0] -sub z29.d, z28.d, z26.d -mla z21.d, P0/M, z24.d, z31.d -mul z30.d, z30.d,z3.d[0] -add z28.d, z28.d, z26.d -str q28, [x0, #1760] -str q29, [x0, #2016] -ldr q29, [x0, #1264] -ldr q28, [x0, #1520] -sqrdmulh z26.d, z22.d, z2.d[0] -sub z24.d, z23.d, z21.d -mla z30.d, P0/M, z20.d, z31.d -mul z22.d, z22.d,z3.d[0] -add z23.d, z23.d, z21.d -str q23, [x0, #1248] -str q24, [x0, #1504] -ldr q24, [x0, #1008] -ldr q23, [x0, #752] -sqrdmulh z21.d, z29.d, z2.d[0] -sub z20.d, z24.d, z30.d -mla z22.d, P0/M, z26.d, z31.d -mul z29.d, z29.d,z3.d[0] -add z24.d, z24.d, z30.d -ldr q30, [x0, #240] -ldr q26, [x0, #496] -sqrdmulh z25.d, z28.d, z2.d[0] -sub z27.d, z23.d, z22.d -mla z29.d, P0/M, z21.d, z31.d -mul z28.d, z28.d,z3.d[0] -add z23.d, z23.d, z22.d -sqrdmulh z22.d, z24.d, z0.d[0] -sub z21.d, z30.d, z29.d -mla z28.d, P0/M, z25.d, z31.d -mul z24.d, z24.d,z1.d[0] -add z30.d, z30.d, z29.d -sqrdmulh z29.d, z23.d, z0.d[0] -sub z25.d, z26.d, z28.d -mla z24.d, P0/M, z22.d, z31.d -mul z23.d, z23.d,z1.d[0] -add z26.d, z26.d, z28.d -sqrdmulh z28.d, z20.d, z0.d[1] -sub z22.d, z26.d, z24.d -mla z23.d, P0/M, z29.d, z31.d -mul z20.d, z20.d,z1.d[1] -add z26.d, z26.d, z24.d -sqrdmulh z24.d, z27.d, z0.d[1] -sub z29.d, z30.d, z23.d -mla z20.d, P0/M, z28.d, z31.d -mul z27.d, z27.d,z1.d[1] -add z30.d, z30.d, z23.d -sqrdmulh z23.d, z26.d, z14.d[0] -sub z28.d, z25.d, z20.d -mla z27.d, P0/M, z24.d, z31.d -mul z26.d, z26.d,z15.d[0] -add z25.d, z25.d, z20.d -sqrdmulh z20.d, z22.d, z14.d[1] -sub z24.d, z21.d, z27.d -mla z26.d, P0/M, z23.d, z31.d -mul z22.d, z22.d,z15.d[1] -add z21.d, z21.d, z27.d -sqrdmulh z27.d, z28.d, z12.d[1] -sub z23.d, z30.d, z26.d -mla z22.d, P0/M, z20.d, z31.d -mul z28.d, z28.d,z13.d[1] -add z30.d, z30.d, z26.d -str q30, [x0, #240] -str q23, [x0, #496] -sqrdmulh z23.d, z25.d, z12.d[0] -sub z30.d, z29.d, z22.d -mla z28.d, P0/M, z27.d, z31.d -mul z25.d, z25.d,z13.d[0] -add z29.d, z29.d, z22.d -str q29, [x0, #752] -str q30, [x0, #1008] -ldr q30, [x0, #1792] -ldr q29, [x0, #1536] -sqrdmulh z22.d, z30.d, z2.d[0] -sub z27.d, z24.d, z28.d -mla z25.d, P0/M, z23.d, z31.d -mul z30.d, z30.d,z3.d[0] -add z24.d, z24.d, z28.d -str q24, [x0, #1776] -str q27, [x0, #2032] -ldr q27, [x0, #1024] -ldr q24, [x0, #1280] -sqrdmulh z28.d, z29.d, z2.d[0] -sub z23.d, z21.d, z25.d -mla z30.d, P0/M, z22.d, z31.d -mul z29.d, z29.d,z3.d[0] -add z21.d, z21.d, z25.d -str q21, [x0, #1264] -str q23, [x0, #1520] -ldr q23, [x0, #768] -ldr q21, [x0, #512] -sqrdmulh z25.d, z27.d, z2.d[0] -sub z22.d, z23.d, z30.d -mla z29.d, P0/M, z28.d, z31.d -mul z27.d, z27.d,z3.d[0] -add z23.d, z23.d, z30.d -ldr q30, [x0, #0] -ldr q28, [x0, #256] -sqrdmulh z26.d, z24.d, z2.d[0] -sub z20.d, z21.d, z29.d -mla z27.d, P0/M, z25.d, z31.d -mul z24.d, z24.d,z3.d[0] -add z21.d, z21.d, z29.d -sqrdmulh z29.d, z23.d, z0.d[0] -sub z25.d, z30.d, z27.d -mla z24.d, P0/M, z26.d, z31.d -mul z23.d, z23.d,z1.d[0] -add z30.d, z30.d, z27.d -sqrdmulh z27.d, z21.d, z0.d[0] -sub z26.d, z28.d, z24.d -mla z23.d, P0/M, z29.d, z31.d -mul z21.d, z21.d,z1.d[0] -add z28.d, z28.d, z24.d -sqrdmulh z24.d, z22.d, z0.d[1] -sub z29.d, z28.d, z23.d -mla z21.d, P0/M, z27.d, z31.d -mul z22.d, z22.d,z1.d[1] -add z28.d, z28.d, z23.d -sqrdmulh z23.d, z20.d, z0.d[1] -sub z27.d, z30.d, z21.d -mla z22.d, P0/M, z24.d, z31.d -mul z20.d, z20.d,z1.d[1] -add z30.d, z30.d, z21.d -sqrdmulh z21.d, z28.d, z14.d[0] -sub z24.d, z26.d, z22.d -mla z20.d, P0/M, z23.d, z31.d -mul z28.d, z28.d,z15.d[0] -add z26.d, z26.d, z22.d -sqrdmulh z22.d, z29.d, z14.d[1] -sub z23.d, z25.d, z20.d -mla z28.d, P0/M, z21.d, z31.d -mul z29.d, z29.d,z15.d[1] -add z25.d, z25.d, z20.d -sqrdmulh z20.d, z24.d, z12.d[1] -sub z21.d, z30.d, z28.d -mla z29.d, P0/M, z22.d, z31.d -mul z24.d, z24.d,z13.d[1] -add z30.d, z30.d, z28.d -str q30, [x0, #0] -str q21, [x0, #256] -sqrdmulh z21.d, z26.d, z12.d[0] -sub z30.d, z27.d, z29.d -mla z24.d, P0/M, z20.d, z31.d -mul z26.d, z26.d,z13.d[0] -add z27.d, z27.d, z29.d -str q27, [x0, #512] -str q30, [x0, #768] -ldr q30, [x0, #1808] -ldr q27, [x0, #1552] -sqrdmulh z29.d, z30.d, z2.d[0] -sub z20.d, z23.d, z24.d -mla z26.d, P0/M, z21.d, z31.d -mul z30.d, z30.d,z3.d[0] -add z23.d, z23.d, z24.d -str q23, [x0, #1536] -str q20, [x0, #1792] -ldr q20, [x0, #1040] -ldr q23, [x0, #1296] -sqrdmulh z24.d, z27.d, z2.d[0] -sub z21.d, z25.d, z26.d -mla z30.d, P0/M, z29.d, z31.d -mul z27.d, z27.d,z3.d[0] -add z25.d, z25.d, z26.d -str q25, [x0, #1024] -str q21, [x0, #1280] -ldr q21, [x0, #784] -ldr q25, [x0, #528] -sqrdmulh z26.d, z20.d, z2.d[0] -sub z29.d, z21.d, z30.d -mla z27.d, P0/M, z24.d, z31.d -mul z20.d, z20.d,z3.d[0] -add z21.d, z21.d, z30.d -ldr q30, [x0, #16] -ldr q24, [x0, #272] -sqrdmulh z28.d, z23.d, z2.d[0] -sub z22.d, z25.d, z27.d -mla z20.d, P0/M, z26.d, z31.d -mul z23.d, z23.d,z3.d[0] -add z25.d, z25.d, z27.d -sqrdmulh z27.d, z21.d, z0.d[0] -sub z26.d, z30.d, z20.d -mla z23.d, P0/M, z28.d, z31.d -mul z21.d, z21.d,z1.d[0] -add z30.d, z30.d, z20.d -sqrdmulh z20.d, z25.d, z0.d[0] -sub z28.d, z24.d, z23.d -mla z21.d, P0/M, z27.d, z31.d -mul z25.d, z25.d,z1.d[0] -add z24.d, z24.d, z23.d -sqrdmulh z23.d, z29.d, z0.d[1] -sub z27.d, z24.d, z21.d -mla z25.d, P0/M, z20.d, z31.d -mul z29.d, z29.d,z1.d[1] -add z24.d, z24.d, z21.d -sqrdmulh z21.d, z22.d, z0.d[1] -sub z20.d, z30.d, z25.d -mla z29.d, P0/M, z23.d, z31.d -mul z22.d, z22.d,z1.d[1] -add z30.d, z30.d, z25.d -sqrdmulh z25.d, z24.d, z14.d[0] -sub z23.d, z28.d, z29.d -mla z22.d, P0/M, z21.d, z31.d -mul z24.d, z24.d,z15.d[0] -add z28.d, z28.d, z29.d -sqrdmulh z29.d, z27.d, z14.d[1] -sub z21.d, z26.d, z22.d -mla z24.d, P0/M, z25.d, z31.d -mul z27.d, z27.d,z15.d[1] -add z26.d, z26.d, z22.d -sqrdmulh z22.d, z23.d, z12.d[1] -sub z25.d, z30.d, z24.d -mla z27.d, P0/M, z29.d, z31.d -mul z23.d, z23.d,z13.d[1] -add z30.d, z30.d, z24.d -str q30, [x0, #16] -str q25, [x0, #272] -sqrdmulh z25.d, z28.d, z12.d[0] -sub z30.d, z20.d, z27.d -mla z23.d, P0/M, z22.d, z31.d -mul z28.d, z28.d,z13.d[0] -add z20.d, z20.d, z27.d -str q20, [x0, #528] -str q30, [x0, #784] -ldr q30, [x0, #1824] -ldr q20, [x0, #1568] -sqrdmulh z27.d, z30.d, z2.d[0] -sub z22.d, z21.d, z23.d -mla z28.d, P0/M, z25.d, z31.d -mul z30.d, z30.d,z3.d[0] -add z21.d, z21.d, z23.d -str q21, [x0, #1552] -str q22, [x0, #1808] -ldr q22, [x0, #1056] -ldr q21, [x0, #1312] -sqrdmulh z23.d, z20.d, z2.d[0] -sub z25.d, z26.d, z28.d -mla z30.d, P0/M, z27.d, z31.d -mul z20.d, z20.d,z3.d[0] -add z26.d, z26.d, z28.d -str q26, [x0, #1040] -str q25, [x0, #1296] -ldr q25, [x0, #800] -ldr q26, [x0, #544] -sqrdmulh z28.d, z22.d, z2.d[0] -sub z27.d, z25.d, z30.d -mla z20.d, P0/M, z23.d, z31.d -mul z22.d, z22.d,z3.d[0] -add z25.d, z25.d, z30.d -ldr q30, [x0, #32] -ldr q23, [x0, #288] -sqrdmulh z24.d, z21.d, z2.d[0] -sub z29.d, z26.d, z20.d -mla z22.d, P0/M, z28.d, z31.d -mul z21.d, z21.d,z3.d[0] -add z26.d, z26.d, z20.d -sqrdmulh z20.d, z25.d, z0.d[0] -sub z28.d, z30.d, z22.d -mla z21.d, P0/M, z24.d, z31.d -mul z25.d, z25.d,z1.d[0] -add z30.d, z30.d, z22.d -sqrdmulh z22.d, z26.d, z0.d[0] -sub z24.d, z23.d, z21.d -mla z25.d, P0/M, z20.d, z31.d -mul z26.d, z26.d,z1.d[0] -add z23.d, z23.d, z21.d -sqrdmulh z21.d, z27.d, z0.d[1] -sub z20.d, z23.d, z25.d -mla z26.d, P0/M, z22.d, z31.d -mul z27.d, z27.d,z1.d[1] -add z23.d, z23.d, z25.d -sqrdmulh z25.d, z29.d, z0.d[1] -sub z22.d, z30.d, z26.d -mla z27.d, P0/M, z21.d, z31.d -mul z29.d, z29.d,z1.d[1] -add z30.d, z30.d, z26.d -sqrdmulh z26.d, z23.d, z14.d[0] -sub z21.d, z24.d, z27.d -mla z29.d, P0/M, z25.d, z31.d -mul z23.d, z23.d,z15.d[0] -add z24.d, z24.d, z27.d -sqrdmulh z27.d, z20.d, z14.d[1] -sub z25.d, z28.d, z29.d -mla z23.d, P0/M, z26.d, z31.d -mul z20.d, z20.d,z15.d[1] -add z28.d, z28.d, z29.d -sqrdmulh z29.d, z21.d, z12.d[1] -sub z26.d, z30.d, z23.d -mla z20.d, P0/M, z27.d, z31.d -mul z21.d, z21.d,z13.d[1] -add z30.d, z30.d, z23.d -str q30, [x0, #32] -str q26, [x0, #288] -sqrdmulh z26.d, z24.d, z12.d[0] -sub z30.d, z22.d, z20.d -mla z21.d, P0/M, z29.d, z31.d -mul z24.d, z24.d,z13.d[0] -add z22.d, z22.d, z20.d -str q22, [x0, #544] -str q30, [x0, #800] -ldr q30, [x0, #1840] -ldr q22, [x0, #1584] -sqrdmulh z20.d, z30.d, z2.d[0] -sub z29.d, z25.d, z21.d -mla z24.d, P0/M, z26.d, z31.d -mul z30.d, z30.d,z3.d[0] -add z25.d, z25.d, z21.d -str q25, [x0, #1568] -str q29, [x0, #1824] -ldr q29, [x0, #1072] -ldr q25, [x0, #1328] -sqrdmulh z21.d, z22.d, z2.d[0] -sub z26.d, z28.d, z24.d -mla z30.d, P0/M, z20.d, z31.d -mul z22.d, z22.d,z3.d[0] -add z28.d, z28.d, z24.d -str q28, [x0, #1056] -str q26, [x0, #1312] -ldr q26, [x0, #816] -ldr q28, [x0, #560] -sqrdmulh z24.d, z29.d, z2.d[0] -sub z20.d, z26.d, z30.d -mla z22.d, P0/M, z21.d, z31.d -mul z29.d, z29.d,z3.d[0] -add z26.d, z26.d, z30.d -ldr q30, [x0, #48] -ldr q21, [x0, #304] -sqrdmulh z23.d, z25.d, z2.d[0] -sub z27.d, z28.d, z22.d -mla z29.d, P0/M, z24.d, z31.d -mul z25.d, z25.d,z3.d[0] -add z28.d, z28.d, z22.d -sqrdmulh z22.d, z26.d, z0.d[0] -sub z24.d, z30.d, z29.d -mla z25.d, P0/M, z23.d, z31.d -mul z26.d, z26.d,z1.d[0] -add z30.d, z30.d, z29.d -sqrdmulh z29.d, z28.d, z0.d[0] -sub z23.d, z21.d, z25.d -mla z26.d, P0/M, z22.d, z31.d -mul z28.d, z28.d,z1.d[0] -add z21.d, z21.d, z25.d -sqrdmulh z25.d, z20.d, z0.d[1] -sub z22.d, z21.d, z26.d -mla z28.d, P0/M, z29.d, z31.d -mul z20.d, z20.d,z1.d[1] -add z21.d, z21.d, z26.d -sqrdmulh z26.d, z27.d, z0.d[1] -sub z29.d, z30.d, z28.d -mla z20.d, P0/M, z25.d, z31.d -mul z27.d, z27.d,z1.d[1] -add z30.d, z30.d, z28.d -sqrdmulh z28.d, z21.d, z14.d[0] -sub z25.d, z23.d, z20.d -mla z27.d, P0/M, z26.d, z31.d -mul z21.d, z21.d,z15.d[0] -add z23.d, z23.d, z20.d -sqrdmulh z20.d, z22.d, z14.d[1] -sub z26.d, z24.d, z27.d -mla z21.d, P0/M, z28.d, z31.d -mul z22.d, z22.d,z15.d[1] -add z24.d, z24.d, z27.d -sqrdmulh z27.d, z25.d, z12.d[1] -sub z28.d, z30.d, z21.d -mla z22.d, P0/M, z20.d, z31.d -mul z25.d, z25.d,z13.d[1] -add z30.d, z30.d, z21.d -str q30, [x0, #48] -str q28, [x0, #304] -sqrdmulh z28.d, z23.d, z12.d[0] -sub z30.d, z29.d, z22.d -mla z25.d, P0/M, z27.d, z31.d -mul z23.d, z23.d,z13.d[0] -add z29.d, z29.d, z22.d -str q29, [x0, #560] -str q30, [x0, #816] -ldr q30, [x0, #1856] -ldr q29, [x0, #1600] -sqrdmulh z22.d, z30.d, z2.d[0] -sub z27.d, z26.d, z25.d -mla z23.d, P0/M, z28.d, z31.d -mul z30.d, z30.d,z3.d[0] -add z26.d, z26.d, z25.d -str q26, [x0, #1584] -str q27, [x0, #1840] -ldr q27, [x0, #1088] -ldr q26, [x0, #1344] -sqrdmulh z25.d, z29.d, z2.d[0] -sub z28.d, z24.d, z23.d -mla z30.d, P0/M, z22.d, z31.d -mul z29.d, z29.d,z3.d[0] -add z24.d, z24.d, z23.d -str q24, [x0, #1072] -str q28, [x0, #1328] -ldr q28, [x0, #832] -ldr q24, [x0, #576] -sqrdmulh z23.d, z27.d, z2.d[0] -sub z22.d, z28.d, z30.d -mla z29.d, P0/M, z25.d, z31.d -mul z27.d, z27.d,z3.d[0] -add z28.d, z28.d, z30.d -ldr q30, [x0, #64] -ldr q25, [x0, #320] -sqrdmulh z21.d, z26.d, z2.d[0] -sub z20.d, z24.d, z29.d -mla z27.d, P0/M, z23.d, z31.d -mul z26.d, z26.d,z3.d[0] -add z24.d, z24.d, z29.d -sqrdmulh z29.d, z28.d, z0.d[0] -sub z23.d, z30.d, z27.d -mla z26.d, P0/M, z21.d, z31.d -mul z28.d, z28.d,z1.d[0] -add z30.d, z30.d, z27.d -sqrdmulh z27.d, z24.d, z0.d[0] -sub z21.d, z25.d, z26.d -mla z28.d, P0/M, z29.d, z31.d -mul z24.d, z24.d,z1.d[0] -add z25.d, z25.d, z26.d -sqrdmulh z26.d, z22.d, z0.d[1] -sub z29.d, z25.d, z28.d -mla z24.d, P0/M, z27.d, z31.d -mul z22.d, z22.d,z1.d[1] -add z25.d, z25.d, z28.d -sqrdmulh z28.d, z20.d, z0.d[1] -sub z27.d, z30.d, z24.d -mla z22.d, P0/M, z26.d, z31.d -mul z20.d, z20.d,z1.d[1] -add z30.d, z30.d, z24.d -sqrdmulh z24.d, z25.d, z14.d[0] -sub z26.d, z21.d, z22.d -mla z20.d, P0/M, z28.d, z31.d -mul z25.d, z25.d,z15.d[0] -add z21.d, z21.d, z22.d -sqrdmulh z22.d, z29.d, z14.d[1] -sub z28.d, z23.d, z20.d -mla z25.d, P0/M, z24.d, z31.d -mul z29.d, z29.d,z15.d[1] -add z23.d, z23.d, z20.d -sqrdmulh z20.d, z26.d, z12.d[1] -sub z24.d, z30.d, z25.d -mla z29.d, P0/M, z22.d, z31.d -mul z26.d, z26.d,z13.d[1] -add z30.d, z30.d, z25.d -str q30, [x0, #64] -str q24, [x0, #320] -sqrdmulh z24.d, z21.d, z12.d[0] -sub z30.d, z27.d, z29.d -mla z26.d, P0/M, z20.d, z31.d -mul z21.d, z21.d,z13.d[0] -add z27.d, z27.d, z29.d -str q27, [x0, #576] -str q30, [x0, #832] -ldr q30, [x0, #1872] -ldr q27, [x0, #1616] -sqrdmulh z29.d, z30.d, z2.d[0] -sub z20.d, z28.d, z26.d -mla z21.d, P0/M, z24.d, z31.d -mul z30.d, z30.d,z3.d[0] -add z28.d, z28.d, z26.d -str q28, [x0, #1600] -str q20, [x0, #1856] -ldr q20, [x0, #1104] -ldr q28, [x0, #1360] -sqrdmulh z26.d, z27.d, z2.d[0] -sub z24.d, z23.d, z21.d -mla z30.d, P0/M, z29.d, z31.d -mul z27.d, z27.d,z3.d[0] -add z23.d, z23.d, z21.d -str q23, [x0, #1088] -str q24, [x0, #1344] -ldr q24, [x0, #848] -ldr q23, [x0, #592] -sqrdmulh z21.d, z20.d, z2.d[0] -sub z29.d, z24.d, z30.d -mla z27.d, P0/M, z26.d, z31.d -mul z20.d, z20.d,z3.d[0] -add z24.d, z24.d, z30.d -ldr q30, [x0, #80] -ldr q26, [x0, #336] -sqrdmulh z25.d, z28.d, z2.d[0] -sub z22.d, z23.d, z27.d -mla z20.d, P0/M, z21.d, z31.d -mul z28.d, z28.d,z3.d[0] -add z23.d, z23.d, z27.d -sqrdmulh z27.d, z24.d, z0.d[0] -sub z21.d, z30.d, z20.d -mla z28.d, P0/M, z25.d, z31.d -mul z24.d, z24.d,z1.d[0] -add z30.d, z30.d, z20.d -sqrdmulh z20.d, z23.d, z0.d[0] -sub z25.d, z26.d, z28.d -mla z24.d, P0/M, z27.d, z31.d -mul z23.d, z23.d,z1.d[0] -add z26.d, z26.d, z28.d -sqrdmulh z28.d, z29.d, z0.d[1] -sub z27.d, z26.d, z24.d -mla z23.d, P0/M, z20.d, z31.d -mul z29.d, z29.d,z1.d[1] -add z26.d, z26.d, z24.d -sqrdmulh z24.d, z22.d, z0.d[1] -sub z20.d, z30.d, z23.d -mla z29.d, P0/M, z28.d, z31.d -mul z22.d, z22.d,z1.d[1] -add z30.d, z30.d, z23.d -sqrdmulh z23.d, z26.d, z14.d[0] -sub z28.d, z25.d, z29.d -mla z22.d, P0/M, z24.d, z31.d -mul z26.d, z26.d,z15.d[0] -add z25.d, z25.d, z29.d -sqrdmulh z29.d, z27.d, z14.d[1] -sub z24.d, z21.d, z22.d -mla z26.d, P0/M, z23.d, z31.d -mul z27.d, z27.d,z15.d[1] -add z21.d, z21.d, z22.d -sqrdmulh z22.d, z28.d, z12.d[1] -sub z23.d, z30.d, z26.d -mla z27.d, P0/M, z29.d, z31.d -mul z28.d, z28.d,z13.d[1] -add z30.d, z30.d, z26.d -str q30, [x0, #80] -str q23, [x0, #336] -sqrdmulh z23.d, z25.d, z12.d[0] -sub z30.d, z20.d, z27.d -mla z28.d, P0/M, z22.d, z31.d -mul z25.d, z25.d,z13.d[0] -add z20.d, z20.d, z27.d -str q20, [x0, #592] -str q30, [x0, #848] -ldr q30, [x0, #1888] -ldr q20, [x0, #1632] -sqrdmulh z27.d, z30.d, z2.d[0] -sub z22.d, z24.d, z28.d -mla z25.d, P0/M, z23.d, z31.d -mul z30.d, z30.d,z3.d[0] -add z24.d, z24.d, z28.d -str q24, [x0, #1616] -str q22, [x0, #1872] -ldr q22, [x0, #1120] -ldr q24, [x0, #1376] -sqrdmulh z28.d, z20.d, z2.d[0] -sub z23.d, z21.d, z25.d -mla z30.d, P0/M, z27.d, z31.d -mul z20.d, z20.d,z3.d[0] -add z21.d, z21.d, z25.d -str q21, [x0, #1104] -str q23, [x0, #1360] -ldr q23, [x0, #864] -ldr q21, [x0, #608] -sqrdmulh z25.d, z22.d, z2.d[0] -sub z27.d, z23.d, z30.d -mla z20.d, P0/M, z28.d, z31.d -mul z22.d, z22.d,z3.d[0] -add z23.d, z23.d, z30.d -ldr q30, [x0, #96] -ldr q28, [x0, #352] -sqrdmulh z26.d, z24.d, z2.d[0] -sub z29.d, z21.d, z20.d -mla z22.d, P0/M, z25.d, z31.d -mul z24.d, z24.d,z3.d[0] -add z21.d, z21.d, z20.d -sqrdmulh z20.d, z23.d, z0.d[0] -sub z25.d, z30.d, z22.d -mla z24.d, P0/M, z26.d, z31.d -mul z23.d, z23.d,z1.d[0] -add z30.d, z30.d, z22.d -sqrdmulh z22.d, z21.d, z0.d[0] -sub z26.d, z28.d, z24.d -mla z23.d, P0/M, z20.d, z31.d -mul z21.d, z21.d,z1.d[0] -add z28.d, z28.d, z24.d -sqrdmulh z24.d, z27.d, z0.d[1] -sub z20.d, z28.d, z23.d -mla z21.d, P0/M, z22.d, z31.d -mul z27.d, z27.d,z1.d[1] -add z28.d, z28.d, z23.d -sqrdmulh z23.d, z29.d, z0.d[1] -sub z22.d, z30.d, z21.d -mla z27.d, P0/M, z24.d, z31.d -mul z29.d, z29.d,z1.d[1] -add z30.d, z30.d, z21.d -sqrdmulh z21.d, z28.d, z14.d[0] -sub z24.d, z26.d, z27.d -mla z29.d, P0/M, z23.d, z31.d -mul z28.d, z28.d,z15.d[0] -add z26.d, z26.d, z27.d -sqrdmulh z27.d, z20.d, z14.d[1] -sub z23.d, z25.d, z29.d -mla z28.d, P0/M, z21.d, z31.d -mul z20.d, z20.d,z15.d[1] -add z25.d, z25.d, z29.d -sqrdmulh z29.d, z24.d, z12.d[1] -sub z21.d, z30.d, z28.d -mla z20.d, P0/M, z27.d, z31.d -mul z24.d, z24.d,z13.d[1] -add z30.d, z30.d, z28.d -str q30, [x0, #96] -str q21, [x0, #352] -sqrdmulh z21.d, z26.d, z12.d[0] -sub z30.d, z22.d, z20.d -mla z24.d, P0/M, z29.d, z31.d -mul z26.d, z26.d,z13.d[0] -add z22.d, z22.d, z20.d -str q22, [x0, #608] -str q30, [x0, #864] -ldr q30, [x0, #1904] -ldr q22, [x0, #1648] -sqrdmulh z20.d, z30.d, z2.d[0] -sub z29.d, z23.d, z24.d -mla z26.d, P0/M, z21.d, z31.d -mul z30.d, z30.d,z3.d[0] -add z23.d, z23.d, z24.d -str q23, [x0, #1632] -str q29, [x0, #1888] -ldr q29, [x0, #1136] -ldr q23, [x0, #1392] -sqrdmulh z24.d, z22.d, z2.d[0] -sub z21.d, z25.d, z26.d -mla z30.d, P0/M, z20.d, z31.d -mul z22.d, z22.d,z3.d[0] -add z25.d, z25.d, z26.d -str q25, [x0, #1120] -str q21, [x0, #1376] -ldr q21, [x0, #880] -ldr q25, [x0, #624] -sqrdmulh z26.d, z29.d, z2.d[0] -sub z20.d, z21.d, z30.d -mla z22.d, P0/M, z24.d, z31.d -mul z29.d, z29.d,z3.d[0] -add z21.d, z21.d, z30.d -ldr q30, [x0, #112] -ldr q24, [x0, #368] -sqrdmulh z28.d, z23.d, z2.d[0] -sub z27.d, z25.d, z22.d -mla z29.d, P0/M, z26.d, z31.d -mul z23.d, z23.d,z3.d[0] -add z25.d, z25.d, z22.d -sqrdmulh z22.d, z21.d, z0.d[0] -sub z26.d, z30.d, z29.d -mla z23.d, P0/M, z28.d, z31.d -mul z21.d, z21.d,z1.d[0] -add z30.d, z30.d, z29.d -sqrdmulh z29.d, z25.d, z0.d[0] -sub z28.d, z24.d, z23.d -mla z21.d, P0/M, z22.d, z31.d -mul z25.d, z25.d,z1.d[0] -add z24.d, z24.d, z23.d -sqrdmulh z23.d, z20.d, z0.d[1] -sub z22.d, z24.d, z21.d -mla z25.d, P0/M, z29.d, z31.d -mul z20.d, z20.d,z1.d[1] -add z24.d, z24.d, z21.d -sqrdmulh z21.d, z27.d, z0.d[1] -sub z29.d, z30.d, z25.d -mla z20.d, P0/M, z23.d, z31.d -mul z27.d, z27.d,z1.d[1] -add z30.d, z30.d, z25.d -sqrdmulh z25.d, z24.d, z14.d[0] -sub z23.d, z28.d, z20.d -mla z27.d, P0/M, z21.d, z31.d -mul z24.d, z24.d,z15.d[0] -add z28.d, z28.d, z20.d -sqrdmulh z20.d, z22.d, z14.d[1] -sub z21.d, z26.d, z27.d -mla z24.d, P0/M, z25.d, z31.d -mul z22.d, z22.d,z15.d[1] -add z26.d, z26.d, z27.d -sqrdmulh z27.d, z23.d, z12.d[1] -sub z25.d, z30.d, z24.d -mla z22.d, P0/M, z20.d, z31.d -mul z23.d, z23.d,z13.d[1] -add z30.d, z30.d, z24.d -str q30, [x0, #112] -str q25, [x0, #368] -sqrdmulh z25.d, z28.d, z12.d[0] -sub z30.d, z29.d, z22.d -mla z23.d, P0/M, z27.d, z31.d -mul z28.d, z28.d,z13.d[0] -add z29.d, z29.d, z22.d -str q29, [x0, #624] -str q30, [x0, #880] -sub z30.d, z21.d, z23.d -mla z28.d, P0/M, z25.d, z31.d -add z21.d, z21.d, z23.d -str q21, [x0, #1648] -str q30, [x0, #1904] -sub z30.d, z26.d, z28.d -add z26.d, z26.d, z28.d -str q26, [x0, #1136] -str q30, [x0, #1392] -ldr q4, [x17, #+128] -ldr q5, [x17, #+144] -ldr q6, [x17, #+160] -ldr q7, [x17, #+176] -ldr q8, [x17, #+192] -ldr q9, [x17, #+208] -ldr q10, [x17, #+224] -ldr q11, [x17, #+240] -ldr q16, [x0, #240] -ldr q17, [x0, #208] -sqrdmulh z18.d, z16.d, z5.d[0] -mul z16.d, z16.d,z4.d[0] -ldr q19, [x0, #144] -ldr q20, [x0, #176] -sqrdmulh z24.d, z17.d, z5.d[0] -mul z17.d, z17.d,z4.d[0] -mla z16.d, P0/M, z18.d, z31.d -ldr q18, [x0, #112] -ldr q27, [x0, #80] -sqrdmulh z22.d, z19.d, z5.d[0] -mul z19.d, z19.d,z4.d[0] -mla z17.d, P0/M, z24.d, z31.d -ldr q24, [x0, #16] -sub z29.d, z18.d, z16.d -ldr q25, [x0, #48] -add z18.d, z18.d, z16.d -sqrdmulh z16.d, z20.d, z5.d[0] -mul z20.d, z20.d,z4.d[0] -sub z23.d, z27.d, z17.d -mla z19.d, P0/M, z22.d, z31.d -add z27.d, z27.d, z17.d -sqrdmulh z17.d, z18.d, z7.d[0] -mul z18.d, z18.d,z6.d[0] -sub z22.d, z24.d, z19.d -mla z20.d, P0/M, z16.d, z31.d -add z24.d, z24.d, z19.d -sqrdmulh z19.d, z27.d, z7.d[0] -mul z27.d, z27.d,z6.d[0] -sub z16.d, z25.d, z20.d -mla z18.d, P0/M, z17.d, z31.d -add z25.d, z25.d, z20.d -sqrdmulh z20.d, z29.d, z7.d[1] -mul z29.d, z29.d,z6.d[1] -sub z17.d, z25.d, z18.d -mla z27.d, P0/M, z19.d, z31.d -add z25.d, z25.d, z18.d -sqrdmulh z18.d, z23.d, z7.d[1] -mul z23.d, z23.d,z6.d[1] -sub z19.d, z24.d, z27.d -mla z29.d, P0/M, z20.d, z31.d -add z24.d, z24.d, z27.d -sqrdmulh z27.d, z25.d, z9.d[0] -mul z25.d, z25.d,z8.d[0] -sub z20.d, z16.d, z29.d -mla z23.d, P0/M, z18.d, z31.d -add z16.d, z16.d, z29.d -sqrdmulh z29.d, z17.d, z9.d[1] -mul z17.d, z17.d,z8.d[1] -sub z18.d, z22.d, z23.d -mla z25.d, P0/M, z27.d, z31.d -add z22.d, z22.d, z23.d -sqrdmulh z23.d, z20.d, z11.d[1] -mul z20.d, z20.d,z10.d[1] -sub z27.d, z24.d, z25.d -mla z17.d, P0/M, z29.d, z31.d -add z24.d, z24.d, z25.d -sqrdmulh z25.d, z16.d, z11.d[0] -str q24, [x0, #16] -mul z16.d, z16.d,z10.d[0] -str q27, [x0, #48] -mla z20.d, P0/M, z23.d, z31.d -sub z23.d, z19.d, z17.d -ldr q27, [x0, #224] -ldr q24, [x0, #192] -add z19.d, z19.d, z17.d -sqrdmulh z17.d, z27.d, z5.d[0] -str q19, [x0, #80] -mul z27.d, z27.d,z4.d[0] -str q23, [x0, #112] -mla z16.d, P0/M, z25.d, z31.d -ldr q25, [x0, #128] -sub z23.d, z18.d, z20.d -ldr q19, [x0, #160] -add z18.d, z18.d, z20.d -sqrdmulh z20.d, z24.d, z5.d[0] -str q18, [x0, #208] -mul z24.d, z24.d,z4.d[0] -str q23, [x0, #240] -mla z27.d, P0/M, z17.d, z31.d -ldr q17, [x0, #96] -sub z23.d, z22.d, z16.d -ldr q18, [x0, #64] -add z22.d, z22.d, z16.d -sqrdmulh z16.d, z25.d, z5.d[0] -str q22, [x0, #144] -mul z25.d, z25.d,z4.d[0] -str q23, [x0, #176] -mla z24.d, P0/M, z20.d, z31.d -ldr q20, [x0, #0] -sub z23.d, z17.d, z27.d -ldr q22, [x0, #32] -add z17.d, z17.d, z27.d -sqrdmulh z27.d, z19.d, z5.d[0] -mul z19.d, z19.d,z4.d[0] -sub z29.d, z18.d, z24.d -mla z25.d, P0/M, z16.d, z31.d -add z18.d, z18.d, z24.d -sqrdmulh z24.d, z17.d, z7.d[0] -mul z17.d, z17.d,z6.d[0] -sub z16.d, z20.d, z25.d -mla z19.d, P0/M, z27.d, z31.d -add z20.d, z20.d, z25.d -sqrdmulh z25.d, z18.d, z7.d[0] -mul z18.d, z18.d,z6.d[0] -sub z27.d, z22.d, z19.d -mla z17.d, P0/M, z24.d, z31.d -add z22.d, z22.d, z19.d -sqrdmulh z19.d, z23.d, z7.d[1] -mul z23.d, z23.d,z6.d[1] -sub z24.d, z22.d, z17.d -mla z18.d, P0/M, z25.d, z31.d -add z22.d, z22.d, z17.d -ldr q3, [x17, #+256] -ldr q2, [x17, #+272] -ldr q1, [x17, #+288] -ldr q0, [x17, #+304] -ldr q15, [x17, #+320] -ldr q14, [x17, #+336] -ldr q13, [x17, #+352] -ldr q12, [x17, #+368] -sqrdmulh z17.d, z29.d, z7.d[1] -mul z29.d, z29.d,z6.d[1] -sub z25.d, z20.d, z18.d -mla z23.d, P0/M, z19.d, z31.d -add z20.d, z20.d, z18.d -sqrdmulh z18.d, z22.d, z9.d[0] -mul z22.d, z22.d,z8.d[0] -sub z19.d, z27.d, z23.d -mla z29.d, P0/M, z17.d, z31.d -add z27.d, z27.d, z23.d -sqrdmulh z23.d, z24.d, z9.d[1] -mul z24.d, z24.d,z8.d[1] -sub z17.d, z16.d, z29.d -mla z22.d, P0/M, z18.d, z31.d -add z16.d, z16.d, z29.d -sqrdmulh z29.d, z19.d, z11.d[1] -mul z19.d, z19.d,z10.d[1] -sub z18.d, z20.d, z22.d -mla z24.d, P0/M, z23.d, z31.d -add z20.d, z20.d, z22.d -sqrdmulh z22.d, z27.d, z11.d[0] -str q20, [x0, #0] -mul z27.d, z27.d,z10.d[0] -str q18, [x0, #32] -mla z19.d, P0/M, z29.d, z31.d -sub z29.d, z25.d, z24.d -ldr q18, [x0, #496] -ldr q20, [x0, #464] -add z25.d, z25.d, z24.d -sqrdmulh z24.d, z18.d, z2.d[0] -str q25, [x0, #64] -mul z18.d, z18.d,z3.d[0] -str q29, [x0, #96] -mla z27.d, P0/M, z22.d, z31.d -ldr q22, [x0, #400] -sub z29.d, z17.d, z19.d -ldr q25, [x0, #432] -add z17.d, z17.d, z19.d -sqrdmulh z19.d, z20.d, z2.d[0] -str q17, [x0, #192] -mul z20.d, z20.d,z3.d[0] -str q29, [x0, #224] -mla z18.d, P0/M, z24.d, z31.d -ldr q24, [x0, #368] -sub z29.d, z16.d, z27.d -ldr q17, [x0, #336] -add z16.d, z16.d, z27.d -sqrdmulh z27.d, z22.d, z2.d[0] -str q16, [x0, #128] -mul z22.d, z22.d,z3.d[0] -str q29, [x0, #160] -mla z20.d, P0/M, z19.d, z31.d -ldr q19, [x0, #272] -sub z29.d, z24.d, z18.d -ldr q16, [x0, #304] -add z24.d, z24.d, z18.d -sqrdmulh z18.d, z25.d, z2.d[0] -mul z25.d, z25.d,z3.d[0] -sub z23.d, z17.d, z20.d -mla z22.d, P0/M, z27.d, z31.d -add z17.d, z17.d, z20.d -sqrdmulh z20.d, z24.d, z0.d[0] -mul z24.d, z24.d,z1.d[0] -sub z27.d, z19.d, z22.d -mla z25.d, P0/M, z18.d, z31.d -add z19.d, z19.d, z22.d -sqrdmulh z22.d, z17.d, z0.d[0] -mul z17.d, z17.d,z1.d[0] -sub z18.d, z16.d, z25.d -mla z24.d, P0/M, z20.d, z31.d -add z16.d, z16.d, z25.d -sqrdmulh z25.d, z29.d, z0.d[1] -mul z29.d, z29.d,z1.d[1] -sub z20.d, z16.d, z24.d -mla z17.d, P0/M, z22.d, z31.d -add z16.d, z16.d, z24.d -sqrdmulh z24.d, z23.d, z0.d[1] -mul z23.d, z23.d,z1.d[1] -sub z22.d, z19.d, z17.d -mla z29.d, P0/M, z25.d, z31.d -add z19.d, z19.d, z17.d -sqrdmulh z17.d, z16.d, z14.d[0] -mul z16.d, z16.d,z15.d[0] -sub z25.d, z18.d, z29.d -mla z23.d, P0/M, z24.d, z31.d -add z18.d, z18.d, z29.d -sqrdmulh z29.d, z20.d, z14.d[1] -mul z20.d, z20.d,z15.d[1] -sub z24.d, z27.d, z23.d -mla z16.d, P0/M, z17.d, z31.d -add z27.d, z27.d, z23.d -sqrdmulh z23.d, z25.d, z12.d[1] -mul z25.d, z25.d,z13.d[1] -sub z17.d, z19.d, z16.d -mla z20.d, P0/M, z29.d, z31.d -add z19.d, z19.d, z16.d -sqrdmulh z16.d, z18.d, z12.d[0] -str q19, [x0, #272] -mul z18.d, z18.d,z13.d[0] -str q17, [x0, #304] -mla z25.d, P0/M, z23.d, z31.d -sub z23.d, z22.d, z20.d -ldr q17, [x0, #480] -ldr q19, [x0, #448] -add z22.d, z22.d, z20.d -sqrdmulh z20.d, z17.d, z2.d[0] -str q22, [x0, #336] -mul z17.d, z17.d,z3.d[0] -str q23, [x0, #368] -mla z18.d, P0/M, z16.d, z31.d -ldr q16, [x0, #384] -sub z23.d, z24.d, z25.d -ldr q22, [x0, #416] -add z24.d, z24.d, z25.d -sqrdmulh z25.d, z19.d, z2.d[0] -str q24, [x0, #464] -mul z19.d, z19.d,z3.d[0] -str q23, [x0, #496] -mla z17.d, P0/M, z20.d, z31.d -ldr q20, [x0, #352] -sub z23.d, z27.d, z18.d -ldr q24, [x0, #320] -add z27.d, z27.d, z18.d -sqrdmulh z18.d, z16.d, z2.d[0] -str q27, [x0, #400] -mul z16.d, z16.d,z3.d[0] -str q23, [x0, #432] -mla z19.d, P0/M, z25.d, z31.d -ldr q25, [x0, #256] -sub z23.d, z20.d, z17.d -ldr q27, [x0, #288] -add z20.d, z20.d, z17.d -sqrdmulh z17.d, z22.d, z2.d[0] -mul z22.d, z22.d,z3.d[0] -sub z29.d, z24.d, z19.d -mla z16.d, P0/M, z18.d, z31.d -add z24.d, z24.d, z19.d -sqrdmulh z19.d, z20.d, z0.d[0] -mul z20.d, z20.d,z1.d[0] -sub z18.d, z25.d, z16.d -mla z22.d, P0/M, z17.d, z31.d -add z25.d, z25.d, z16.d -sqrdmulh z16.d, z24.d, z0.d[0] -mul z24.d, z24.d,z1.d[0] -sub z17.d, z27.d, z22.d -mla z20.d, P0/M, z19.d, z31.d -add z27.d, z27.d, z22.d -sqrdmulh z22.d, z23.d, z0.d[1] -mul z23.d, z23.d,z1.d[1] -sub z19.d, z27.d, z20.d -mla z24.d, P0/M, z16.d, z31.d -add z27.d, z27.d, z20.d -ldr q11, [x17, #+384] -ldr q10, [x17, #+400] -ldr q9, [x17, #+416] -ldr q8, [x17, #+432] -ldr q7, [x17, #+448] -ldr q6, [x17, #+464] -ldr q5, [x17, #+480] -ldr q4, [x17, #+496] -sqrdmulh z20.d, z29.d, z0.d[1] -mul z29.d, z29.d,z1.d[1] -sub z16.d, z25.d, z24.d -mla z23.d, P0/M, z22.d, z31.d -add z25.d, z25.d, z24.d -sqrdmulh z24.d, z27.d, z14.d[0] -mul z27.d, z27.d,z15.d[0] -sub z22.d, z17.d, z23.d -mla z29.d, P0/M, z20.d, z31.d -add z17.d, z17.d, z23.d -sqrdmulh z23.d, z19.d, z14.d[1] -mul z19.d, z19.d,z15.d[1] -sub z20.d, z18.d, z29.d -mla z27.d, P0/M, z24.d, z31.d -add z18.d, z18.d, z29.d -sqrdmulh z29.d, z22.d, z12.d[1] -mul z22.d, z22.d,z13.d[1] -sub z24.d, z25.d, z27.d -mla z19.d, P0/M, z23.d, z31.d -add z25.d, z25.d, z27.d -sqrdmulh z27.d, z17.d, z12.d[0] -str q25, [x0, #256] -mul z17.d, z17.d,z13.d[0] -str q24, [x0, #288] -mla z22.d, P0/M, z29.d, z31.d -sub z29.d, z16.d, z19.d -ldr q24, [x0, #752] -ldr q25, [x0, #720] -add z16.d, z16.d, z19.d -sqrdmulh z19.d, z24.d, z10.d[0] -str q16, [x0, #320] -mul z24.d, z24.d,z11.d[0] -str q29, [x0, #352] -mla z17.d, P0/M, z27.d, z31.d -ldr q27, [x0, #656] -sub z29.d, z20.d, z22.d -ldr q16, [x0, #688] -add z20.d, z20.d, z22.d -sqrdmulh z22.d, z25.d, z10.d[0] -str q20, [x0, #448] -mul z25.d, z25.d,z11.d[0] -str q29, [x0, #480] -mla z24.d, P0/M, z19.d, z31.d -ldr q19, [x0, #624] -sub z29.d, z18.d, z17.d -ldr q20, [x0, #592] -add z18.d, z18.d, z17.d -sqrdmulh z17.d, z27.d, z10.d[0] -str q18, [x0, #384] -mul z27.d, z27.d,z11.d[0] -str q29, [x0, #416] -mla z25.d, P0/M, z22.d, z31.d -ldr q22, [x0, #528] -sub z29.d, z19.d, z24.d -ldr q18, [x0, #560] -add z19.d, z19.d, z24.d -sqrdmulh z24.d, z16.d, z10.d[0] -mul z16.d, z16.d,z11.d[0] -sub z23.d, z20.d, z25.d -mla z27.d, P0/M, z17.d, z31.d -add z20.d, z20.d, z25.d -sqrdmulh z25.d, z19.d, z8.d[0] -mul z19.d, z19.d,z9.d[0] -sub z17.d, z22.d, z27.d -mla z16.d, P0/M, z24.d, z31.d -add z22.d, z22.d, z27.d -sqrdmulh z27.d, z20.d, z8.d[0] -mul z20.d, z20.d,z9.d[0] -sub z24.d, z18.d, z16.d -mla z19.d, P0/M, z25.d, z31.d -add z18.d, z18.d, z16.d -sqrdmulh z16.d, z29.d, z8.d[1] -mul z29.d, z29.d,z9.d[1] -sub z25.d, z18.d, z19.d -mla z20.d, P0/M, z27.d, z31.d -add z18.d, z18.d, z19.d -sqrdmulh z19.d, z23.d, z8.d[1] -mul z23.d, z23.d,z9.d[1] -sub z27.d, z22.d, z20.d -mla z29.d, P0/M, z16.d, z31.d -add z22.d, z22.d, z20.d -sqrdmulh z20.d, z18.d, z6.d[0] -mul z18.d, z18.d,z7.d[0] -sub z16.d, z24.d, z29.d -mla z23.d, P0/M, z19.d, z31.d -add z24.d, z24.d, z29.d -sqrdmulh z29.d, z25.d, z6.d[1] -mul z25.d, z25.d,z7.d[1] -sub z19.d, z17.d, z23.d -mla z18.d, P0/M, z20.d, z31.d -add z17.d, z17.d, z23.d -sqrdmulh z23.d, z16.d, z4.d[1] -mul z16.d, z16.d,z5.d[1] -sub z20.d, z22.d, z18.d -mla z25.d, P0/M, z29.d, z31.d -add z22.d, z22.d, z18.d -sqrdmulh z18.d, z24.d, z4.d[0] -str q22, [x0, #528] -mul z24.d, z24.d,z5.d[0] -str q20, [x0, #560] -mla z16.d, P0/M, z23.d, z31.d -sub z23.d, z27.d, z25.d -ldr q20, [x0, #736] -ldr q22, [x0, #704] -add z27.d, z27.d, z25.d -sqrdmulh z25.d, z20.d, z10.d[0] -str q27, [x0, #592] -mul z20.d, z20.d,z11.d[0] -str q23, [x0, #624] -mla z24.d, P0/M, z18.d, z31.d -ldr q18, [x0, #640] -sub z23.d, z19.d, z16.d -ldr q27, [x0, #672] -add z19.d, z19.d, z16.d -sqrdmulh z16.d, z22.d, z10.d[0] -str q19, [x0, #720] -mul z22.d, z22.d,z11.d[0] -str q23, [x0, #752] -mla z20.d, P0/M, z25.d, z31.d -ldr q25, [x0, #608] -sub z23.d, z17.d, z24.d -ldr q19, [x0, #576] -add z17.d, z17.d, z24.d -sqrdmulh z24.d, z18.d, z10.d[0] -str q17, [x0, #656] -mul z18.d, z18.d,z11.d[0] -str q23, [x0, #688] -mla z22.d, P0/M, z16.d, z31.d -ldr q16, [x0, #512] -sub z23.d, z25.d, z20.d -ldr q17, [x0, #544] -add z25.d, z25.d, z20.d -sqrdmulh z20.d, z27.d, z10.d[0] -mul z27.d, z27.d,z11.d[0] -sub z29.d, z19.d, z22.d -mla z18.d, P0/M, z24.d, z31.d -add z19.d, z19.d, z22.d -sqrdmulh z22.d, z25.d, z8.d[0] -mul z25.d, z25.d,z9.d[0] -sub z24.d, z16.d, z18.d -mla z27.d, P0/M, z20.d, z31.d -add z16.d, z16.d, z18.d -sqrdmulh z18.d, z19.d, z8.d[0] -mul z19.d, z19.d,z9.d[0] -sub z20.d, z17.d, z27.d -mla z25.d, P0/M, z22.d, z31.d -add z17.d, z17.d, z27.d -sqrdmulh z27.d, z23.d, z8.d[1] -mul z23.d, z23.d,z9.d[1] -sub z22.d, z17.d, z25.d -mla z19.d, P0/M, z18.d, z31.d -add z17.d, z17.d, z25.d -ldr q12, [x17, #+512] -ldr q13, [x17, #+528] -ldr q14, [x17, #+544] -ldr q15, [x17, #+560] -ldr q0, [x17, #+576] -ldr q1, [x17, #+592] -ldr q2, [x17, #+608] -ldr q3, [x17, #+624] -sqrdmulh z25.d, z29.d, z8.d[1] -mul z29.d, z29.d,z9.d[1] -sub z18.d, z16.d, z19.d -mla z23.d, P0/M, z27.d, z31.d -add z16.d, z16.d, z19.d -sqrdmulh z19.d, z17.d, z6.d[0] -mul z17.d, z17.d,z7.d[0] -sub z27.d, z20.d, z23.d -mla z29.d, P0/M, z25.d, z31.d -add z20.d, z20.d, z23.d -sqrdmulh z23.d, z22.d, z6.d[1] -mul z22.d, z22.d,z7.d[1] -sub z25.d, z24.d, z29.d -mla z17.d, P0/M, z19.d, z31.d -add z24.d, z24.d, z29.d -sqrdmulh z29.d, z27.d, z4.d[1] -mul z27.d, z27.d,z5.d[1] -sub z19.d, z16.d, z17.d -mla z22.d, P0/M, z23.d, z31.d -add z16.d, z16.d, z17.d -sqrdmulh z17.d, z20.d, z4.d[0] -str q16, [x0, #512] -mul z20.d, z20.d,z5.d[0] -str q19, [x0, #544] -mla z27.d, P0/M, z29.d, z31.d -sub z29.d, z18.d, z22.d -ldr q19, [x0, #1008] -ldr q16, [x0, #976] -add z18.d, z18.d, z22.d -sqrdmulh z22.d, z19.d, z13.d[0] -str q18, [x0, #576] -mul z19.d, z19.d,z12.d[0] -str q29, [x0, #608] -mla z20.d, P0/M, z17.d, z31.d -ldr q17, [x0, #912] -sub z29.d, z25.d, z27.d -ldr q18, [x0, #944] -add z25.d, z25.d, z27.d -sqrdmulh z27.d, z16.d, z13.d[0] -str q25, [x0, #704] -mul z16.d, z16.d,z12.d[0] -str q29, [x0, #736] -mla z19.d, P0/M, z22.d, z31.d -ldr q22, [x0, #880] -sub z29.d, z24.d, z20.d -ldr q25, [x0, #848] -add z24.d, z24.d, z20.d -sqrdmulh z20.d, z17.d, z13.d[0] -str q24, [x0, #640] -mul z17.d, z17.d,z12.d[0] -str q29, [x0, #672] -mla z16.d, P0/M, z27.d, z31.d -ldr q27, [x0, #784] -sub z29.d, z22.d, z19.d -ldr q24, [x0, #816] -add z22.d, z22.d, z19.d -sqrdmulh z19.d, z18.d, z13.d[0] -mul z18.d, z18.d,z12.d[0] -sub z23.d, z25.d, z16.d -mla z17.d, P0/M, z20.d, z31.d -add z25.d, z25.d, z16.d -sqrdmulh z16.d, z22.d, z15.d[0] -mul z22.d, z22.d,z14.d[0] -sub z20.d, z27.d, z17.d -mla z18.d, P0/M, z19.d, z31.d -add z27.d, z27.d, z17.d -sqrdmulh z17.d, z25.d, z15.d[0] -mul z25.d, z25.d,z14.d[0] -sub z19.d, z24.d, z18.d -mla z22.d, P0/M, z16.d, z31.d -add z24.d, z24.d, z18.d -sqrdmulh z18.d, z29.d, z15.d[1] -mul z29.d, z29.d,z14.d[1] -sub z16.d, z24.d, z22.d -mla z25.d, P0/M, z17.d, z31.d -add z24.d, z24.d, z22.d -sqrdmulh z22.d, z23.d, z15.d[1] -mul z23.d, z23.d,z14.d[1] -sub z17.d, z27.d, z25.d -mla z29.d, P0/M, z18.d, z31.d -add z27.d, z27.d, z25.d -sqrdmulh z25.d, z24.d, z1.d[0] -mul z24.d, z24.d,z0.d[0] -sub z18.d, z19.d, z29.d -mla z23.d, P0/M, z22.d, z31.d -add z19.d, z19.d, z29.d -sqrdmulh z29.d, z16.d, z1.d[1] -mul z16.d, z16.d,z0.d[1] -sub z22.d, z20.d, z23.d -mla z24.d, P0/M, z25.d, z31.d -add z20.d, z20.d, z23.d -sqrdmulh z23.d, z18.d, z3.d[1] -mul z18.d, z18.d,z2.d[1] -sub z25.d, z27.d, z24.d -mla z16.d, P0/M, z29.d, z31.d -add z27.d, z27.d, z24.d -sqrdmulh z24.d, z19.d, z3.d[0] -str q27, [x0, #784] -mul z19.d, z19.d,z2.d[0] -str q25, [x0, #816] -mla z18.d, P0/M, z23.d, z31.d -sub z23.d, z17.d, z16.d -ldr q25, [x0, #992] -ldr q27, [x0, #960] -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z25.d, z13.d[0] -str q17, [x0, #848] -mul z25.d, z25.d,z12.d[0] -str q23, [x0, #880] -mla z19.d, P0/M, z24.d, z31.d -ldr q24, [x0, #896] -sub z23.d, z22.d, z18.d -ldr q17, [x0, #928] -add z22.d, z22.d, z18.d -sqrdmulh z18.d, z27.d, z13.d[0] -str q22, [x0, #976] -mul z27.d, z27.d,z12.d[0] -str q23, [x0, #1008] -mla z25.d, P0/M, z16.d, z31.d -ldr q16, [x0, #864] -sub z23.d, z20.d, z19.d -ldr q22, [x0, #832] -add z20.d, z20.d, z19.d -sqrdmulh z19.d, z24.d, z13.d[0] -str q20, [x0, #912] -mul z24.d, z24.d,z12.d[0] -str q23, [x0, #944] -mla z27.d, P0/M, z18.d, z31.d -ldr q18, [x0, #768] -sub z23.d, z16.d, z25.d -ldr q20, [x0, #800] -add z16.d, z16.d, z25.d -sqrdmulh z25.d, z17.d, z13.d[0] -mul z17.d, z17.d,z12.d[0] -sub z29.d, z22.d, z27.d -mla z24.d, P0/M, z19.d, z31.d -add z22.d, z22.d, z27.d -sqrdmulh z27.d, z16.d, z15.d[0] -mul z16.d, z16.d,z14.d[0] -sub z19.d, z18.d, z24.d -mla z17.d, P0/M, z25.d, z31.d -add z18.d, z18.d, z24.d -sqrdmulh z24.d, z22.d, z15.d[0] -mul z22.d, z22.d,z14.d[0] -sub z25.d, z20.d, z17.d -mla z16.d, P0/M, z27.d, z31.d -add z20.d, z20.d, z17.d -sqrdmulh z17.d, z23.d, z15.d[1] -mul z23.d, z23.d,z14.d[1] -sub z27.d, z20.d, z16.d -mla z22.d, P0/M, z24.d, z31.d -add z20.d, z20.d, z16.d -ldr q4, [x17, #+640] -ldr q5, [x17, #+656] -ldr q6, [x17, #+672] -ldr q7, [x17, #+688] -ldr q8, [x17, #+704] -ldr q9, [x17, #+720] -ldr q10, [x17, #+736] -ldr q11, [x17, #+752] -sqrdmulh z16.d, z29.d, z15.d[1] -mul z29.d, z29.d,z14.d[1] -sub z24.d, z18.d, z22.d -mla z23.d, P0/M, z17.d, z31.d -add z18.d, z18.d, z22.d -sqrdmulh z22.d, z20.d, z1.d[0] -mul z20.d, z20.d,z0.d[0] -sub z17.d, z25.d, z23.d -mla z29.d, P0/M, z16.d, z31.d -add z25.d, z25.d, z23.d -sqrdmulh z23.d, z27.d, z1.d[1] -mul z27.d, z27.d,z0.d[1] -sub z16.d, z19.d, z29.d -mla z20.d, P0/M, z22.d, z31.d -add z19.d, z19.d, z29.d -sqrdmulh z29.d, z17.d, z3.d[1] -mul z17.d, z17.d,z2.d[1] -sub z22.d, z18.d, z20.d -mla z27.d, P0/M, z23.d, z31.d -add z18.d, z18.d, z20.d -sqrdmulh z20.d, z25.d, z3.d[0] -str q18, [x0, #768] -mul z25.d, z25.d,z2.d[0] -str q22, [x0, #800] -mla z17.d, P0/M, z29.d, z31.d -sub z29.d, z24.d, z27.d -ldr q22, [x0, #1264] -ldr q18, [x0, #1232] -add z24.d, z24.d, z27.d -sqrdmulh z27.d, z22.d, z5.d[0] -str q24, [x0, #832] -mul z22.d, z22.d,z4.d[0] -str q29, [x0, #864] -mla z25.d, P0/M, z20.d, z31.d -ldr q20, [x0, #1168] -sub z29.d, z16.d, z17.d -ldr q24, [x0, #1200] -add z16.d, z16.d, z17.d -sqrdmulh z17.d, z18.d, z5.d[0] -str q16, [x0, #960] -mul z18.d, z18.d,z4.d[0] -str q29, [x0, #992] -mla z22.d, P0/M, z27.d, z31.d -ldr q27, [x0, #1136] -sub z29.d, z19.d, z25.d -ldr q16, [x0, #1104] -add z19.d, z19.d, z25.d -sqrdmulh z25.d, z20.d, z5.d[0] -str q19, [x0, #896] -mul z20.d, z20.d,z4.d[0] -str q29, [x0, #928] -mla z18.d, P0/M, z17.d, z31.d -ldr q17, [x0, #1040] -sub z29.d, z27.d, z22.d -ldr q19, [x0, #1072] -add z27.d, z27.d, z22.d -sqrdmulh z22.d, z24.d, z5.d[0] -mul z24.d, z24.d,z4.d[0] -sub z23.d, z16.d, z18.d -mla z20.d, P0/M, z25.d, z31.d -add z16.d, z16.d, z18.d -sqrdmulh z18.d, z27.d, z7.d[0] -mul z27.d, z27.d,z6.d[0] -sub z25.d, z17.d, z20.d -mla z24.d, P0/M, z22.d, z31.d -add z17.d, z17.d, z20.d -sqrdmulh z20.d, z16.d, z7.d[0] -mul z16.d, z16.d,z6.d[0] -sub z22.d, z19.d, z24.d -mla z27.d, P0/M, z18.d, z31.d -add z19.d, z19.d, z24.d -sqrdmulh z24.d, z29.d, z7.d[1] -mul z29.d, z29.d,z6.d[1] -sub z18.d, z19.d, z27.d -mla z16.d, P0/M, z20.d, z31.d -add z19.d, z19.d, z27.d -sqrdmulh z27.d, z23.d, z7.d[1] -mul z23.d, z23.d,z6.d[1] -sub z20.d, z17.d, z16.d -mla z29.d, P0/M, z24.d, z31.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z19.d, z9.d[0] -mul z19.d, z19.d,z8.d[0] -sub z24.d, z22.d, z29.d -mla z23.d, P0/M, z27.d, z31.d -add z22.d, z22.d, z29.d -sqrdmulh z29.d, z18.d, z9.d[1] -mul z18.d, z18.d,z8.d[1] -sub z27.d, z25.d, z23.d -mla z19.d, P0/M, z16.d, z31.d -add z25.d, z25.d, z23.d -sqrdmulh z23.d, z24.d, z11.d[1] -mul z24.d, z24.d,z10.d[1] -sub z16.d, z17.d, z19.d -mla z18.d, P0/M, z29.d, z31.d -add z17.d, z17.d, z19.d -sqrdmulh z19.d, z22.d, z11.d[0] -str q17, [x0, #1040] -mul z22.d, z22.d,z10.d[0] -str q16, [x0, #1072] -mla z24.d, P0/M, z23.d, z31.d -sub z23.d, z20.d, z18.d -ldr q16, [x0, #1248] -ldr q17, [x0, #1216] -add z20.d, z20.d, z18.d -sqrdmulh z18.d, z16.d, z5.d[0] -str q20, [x0, #1104] -mul z16.d, z16.d,z4.d[0] -str q23, [x0, #1136] -mla z22.d, P0/M, z19.d, z31.d -ldr q19, [x0, #1152] -sub z23.d, z27.d, z24.d -ldr q20, [x0, #1184] -add z27.d, z27.d, z24.d -sqrdmulh z24.d, z17.d, z5.d[0] -str q27, [x0, #1232] -mul z17.d, z17.d,z4.d[0] -str q23, [x0, #1264] -mla z16.d, P0/M, z18.d, z31.d -ldr q18, [x0, #1120] -sub z23.d, z25.d, z22.d -ldr q27, [x0, #1088] -add z25.d, z25.d, z22.d -sqrdmulh z22.d, z19.d, z5.d[0] -str q25, [x0, #1168] -mul z19.d, z19.d,z4.d[0] -str q23, [x0, #1200] -mla z17.d, P0/M, z24.d, z31.d -ldr q24, [x0, #1024] -sub z23.d, z18.d, z16.d -ldr q25, [x0, #1056] -add z18.d, z18.d, z16.d -sqrdmulh z16.d, z20.d, z5.d[0] -mul z20.d, z20.d,z4.d[0] -sub z29.d, z27.d, z17.d -mla z19.d, P0/M, z22.d, z31.d -add z27.d, z27.d, z17.d -sqrdmulh z17.d, z18.d, z7.d[0] -mul z18.d, z18.d,z6.d[0] -sub z22.d, z24.d, z19.d -mla z20.d, P0/M, z16.d, z31.d -add z24.d, z24.d, z19.d -sqrdmulh z19.d, z27.d, z7.d[0] -mul z27.d, z27.d,z6.d[0] -sub z16.d, z25.d, z20.d -mla z18.d, P0/M, z17.d, z31.d -add z25.d, z25.d, z20.d -sqrdmulh z20.d, z23.d, z7.d[1] -mul z23.d, z23.d,z6.d[1] -sub z17.d, z25.d, z18.d -mla z27.d, P0/M, z19.d, z31.d -add z25.d, z25.d, z18.d -ldr q3, [x17, #+768] -ldr q2, [x17, #+784] -ldr q1, [x17, #+800] -ldr q0, [x17, #+816] -ldr q15, [x17, #+832] -ldr q14, [x17, #+848] -ldr q13, [x17, #+864] -ldr q12, [x17, #+880] -sqrdmulh z18.d, z29.d, z7.d[1] -mul z29.d, z29.d,z6.d[1] -sub z19.d, z24.d, z27.d -mla z23.d, P0/M, z20.d, z31.d -add z24.d, z24.d, z27.d -sqrdmulh z27.d, z25.d, z9.d[0] -mul z25.d, z25.d,z8.d[0] -sub z20.d, z16.d, z23.d -mla z29.d, P0/M, z18.d, z31.d -add z16.d, z16.d, z23.d -sqrdmulh z23.d, z17.d, z9.d[1] -mul z17.d, z17.d,z8.d[1] -sub z18.d, z22.d, z29.d -mla z25.d, P0/M, z27.d, z31.d -add z22.d, z22.d, z29.d -sqrdmulh z29.d, z20.d, z11.d[1] -mul z20.d, z20.d,z10.d[1] -sub z27.d, z24.d, z25.d -mla z17.d, P0/M, z23.d, z31.d -add z24.d, z24.d, z25.d -sqrdmulh z25.d, z16.d, z11.d[0] -str q24, [x0, #1024] -mul z16.d, z16.d,z10.d[0] -str q27, [x0, #1056] -mla z20.d, P0/M, z29.d, z31.d -sub z29.d, z19.d, z17.d -ldr q27, [x0, #1520] -ldr q24, [x0, #1488] -add z19.d, z19.d, z17.d -sqrdmulh z17.d, z27.d, z2.d[0] -str q19, [x0, #1088] -mul z27.d, z27.d,z3.d[0] -str q29, [x0, #1120] -mla z16.d, P0/M, z25.d, z31.d -ldr q25, [x0, #1424] -sub z29.d, z18.d, z20.d -ldr q19, [x0, #1456] -add z18.d, z18.d, z20.d -sqrdmulh z20.d, z24.d, z2.d[0] -str q18, [x0, #1216] -mul z24.d, z24.d,z3.d[0] -str q29, [x0, #1248] -mla z27.d, P0/M, z17.d, z31.d -ldr q17, [x0, #1392] -sub z29.d, z22.d, z16.d -ldr q18, [x0, #1360] -add z22.d, z22.d, z16.d -sqrdmulh z16.d, z25.d, z2.d[0] -str q22, [x0, #1152] -mul z25.d, z25.d,z3.d[0] -str q29, [x0, #1184] -mla z24.d, P0/M, z20.d, z31.d -ldr q20, [x0, #1296] -sub z29.d, z17.d, z27.d -ldr q22, [x0, #1328] -add z17.d, z17.d, z27.d -sqrdmulh z27.d, z19.d, z2.d[0] -mul z19.d, z19.d,z3.d[0] -sub z23.d, z18.d, z24.d -mla z25.d, P0/M, z16.d, z31.d -add z18.d, z18.d, z24.d -sqrdmulh z24.d, z17.d, z0.d[0] -mul z17.d, z17.d,z1.d[0] -sub z16.d, z20.d, z25.d -mla z19.d, P0/M, z27.d, z31.d -add z20.d, z20.d, z25.d -sqrdmulh z25.d, z18.d, z0.d[0] -mul z18.d, z18.d,z1.d[0] -sub z27.d, z22.d, z19.d -mla z17.d, P0/M, z24.d, z31.d -add z22.d, z22.d, z19.d -sqrdmulh z19.d, z29.d, z0.d[1] -mul z29.d, z29.d,z1.d[1] -sub z24.d, z22.d, z17.d -mla z18.d, P0/M, z25.d, z31.d -add z22.d, z22.d, z17.d -sqrdmulh z17.d, z23.d, z0.d[1] -mul z23.d, z23.d,z1.d[1] -sub z25.d, z20.d, z18.d -mla z29.d, P0/M, z19.d, z31.d -add z20.d, z20.d, z18.d -sqrdmulh z18.d, z22.d, z14.d[0] -mul z22.d, z22.d,z15.d[0] -sub z19.d, z27.d, z29.d -mla z23.d, P0/M, z17.d, z31.d -add z27.d, z27.d, z29.d -sqrdmulh z29.d, z24.d, z14.d[1] -mul z24.d, z24.d,z15.d[1] -sub z17.d, z16.d, z23.d -mla z22.d, P0/M, z18.d, z31.d -add z16.d, z16.d, z23.d -sqrdmulh z23.d, z19.d, z12.d[1] -mul z19.d, z19.d,z13.d[1] -sub z18.d, z20.d, z22.d -mla z24.d, P0/M, z29.d, z31.d -add z20.d, z20.d, z22.d -sqrdmulh z22.d, z27.d, z12.d[0] -str q20, [x0, #1296] -mul z27.d, z27.d,z13.d[0] -str q18, [x0, #1328] -mla z19.d, P0/M, z23.d, z31.d -sub z23.d, z25.d, z24.d -ldr q18, [x0, #1504] -ldr q20, [x0, #1472] -add z25.d, z25.d, z24.d -sqrdmulh z24.d, z18.d, z2.d[0] -str q25, [x0, #1360] -mul z18.d, z18.d,z3.d[0] -str q23, [x0, #1392] -mla z27.d, P0/M, z22.d, z31.d -ldr q22, [x0, #1408] -sub z23.d, z17.d, z19.d -ldr q25, [x0, #1440] -add z17.d, z17.d, z19.d -sqrdmulh z19.d, z20.d, z2.d[0] -str q17, [x0, #1488] -mul z20.d, z20.d,z3.d[0] -str q23, [x0, #1520] -mla z18.d, P0/M, z24.d, z31.d -ldr q24, [x0, #1376] -sub z23.d, z16.d, z27.d -ldr q17, [x0, #1344] -add z16.d, z16.d, z27.d -sqrdmulh z27.d, z22.d, z2.d[0] -str q16, [x0, #1424] -mul z22.d, z22.d,z3.d[0] -str q23, [x0, #1456] -mla z20.d, P0/M, z19.d, z31.d -ldr q19, [x0, #1280] -sub z23.d, z24.d, z18.d -ldr q16, [x0, #1312] -add z24.d, z24.d, z18.d -sqrdmulh z18.d, z25.d, z2.d[0] -mul z25.d, z25.d,z3.d[0] -sub z29.d, z17.d, z20.d -mla z22.d, P0/M, z27.d, z31.d -add z17.d, z17.d, z20.d -sqrdmulh z20.d, z24.d, z0.d[0] -mul z24.d, z24.d,z1.d[0] -sub z27.d, z19.d, z22.d -mla z25.d, P0/M, z18.d, z31.d -add z19.d, z19.d, z22.d -sqrdmulh z22.d, z17.d, z0.d[0] -mul z17.d, z17.d,z1.d[0] -sub z18.d, z16.d, z25.d -mla z24.d, P0/M, z20.d, z31.d -add z16.d, z16.d, z25.d -sqrdmulh z25.d, z23.d, z0.d[1] -mul z23.d, z23.d,z1.d[1] -sub z20.d, z16.d, z24.d -mla z17.d, P0/M, z22.d, z31.d -add z16.d, z16.d, z24.d -ldr q11, [x17, #+896] -ldr q10, [x17, #+912] -ldr q9, [x17, #+928] -ldr q8, [x17, #+944] -ldr q7, [x17, #+960] -ldr q6, [x17, #+976] -ldr q5, [x17, #+992] -ldr q4, [x17, #+1008] -sqrdmulh z24.d, z29.d, z0.d[1] -mul z29.d, z29.d,z1.d[1] -sub z22.d, z19.d, z17.d -mla z23.d, P0/M, z25.d, z31.d -add z19.d, z19.d, z17.d -sqrdmulh z17.d, z16.d, z14.d[0] -mul z16.d, z16.d,z15.d[0] -sub z25.d, z18.d, z23.d -mla z29.d, P0/M, z24.d, z31.d -add z18.d, z18.d, z23.d -sqrdmulh z23.d, z20.d, z14.d[1] -mul z20.d, z20.d,z15.d[1] -sub z24.d, z27.d, z29.d -mla z16.d, P0/M, z17.d, z31.d -add z27.d, z27.d, z29.d -sqrdmulh z29.d, z25.d, z12.d[1] -mul z25.d, z25.d,z13.d[1] -sub z17.d, z19.d, z16.d -mla z20.d, P0/M, z23.d, z31.d -add z19.d, z19.d, z16.d -sqrdmulh z16.d, z18.d, z12.d[0] -str q19, [x0, #1280] -mul z18.d, z18.d,z13.d[0] -str q17, [x0, #1312] -mla z25.d, P0/M, z29.d, z31.d -sub z29.d, z22.d, z20.d -ldr q17, [x0, #1776] -ldr q19, [x0, #1744] -add z22.d, z22.d, z20.d -sqrdmulh z20.d, z17.d, z10.d[0] -str q22, [x0, #1344] -mul z17.d, z17.d,z11.d[0] -str q29, [x0, #1376] -mla z18.d, P0/M, z16.d, z31.d -ldr q16, [x0, #1680] -sub z29.d, z24.d, z25.d -ldr q22, [x0, #1712] -add z24.d, z24.d, z25.d -sqrdmulh z25.d, z19.d, z10.d[0] -str q24, [x0, #1472] -mul z19.d, z19.d,z11.d[0] -str q29, [x0, #1504] -mla z17.d, P0/M, z20.d, z31.d -ldr q20, [x0, #1648] -sub z29.d, z27.d, z18.d -ldr q24, [x0, #1616] -add z27.d, z27.d, z18.d -sqrdmulh z18.d, z16.d, z10.d[0] -str q27, [x0, #1408] -mul z16.d, z16.d,z11.d[0] -str q29, [x0, #1440] -mla z19.d, P0/M, z25.d, z31.d -ldr q25, [x0, #1552] -sub z29.d, z20.d, z17.d -ldr q27, [x0, #1584] -add z20.d, z20.d, z17.d -sqrdmulh z17.d, z22.d, z10.d[0] -mul z22.d, z22.d,z11.d[0] -sub z23.d, z24.d, z19.d -mla z16.d, P0/M, z18.d, z31.d -add z24.d, z24.d, z19.d -sqrdmulh z19.d, z20.d, z8.d[0] -mul z20.d, z20.d,z9.d[0] -sub z18.d, z25.d, z16.d -mla z22.d, P0/M, z17.d, z31.d -add z25.d, z25.d, z16.d -sqrdmulh z16.d, z24.d, z8.d[0] -mul z24.d, z24.d,z9.d[0] -sub z17.d, z27.d, z22.d -mla z20.d, P0/M, z19.d, z31.d -add z27.d, z27.d, z22.d -sqrdmulh z22.d, z29.d, z8.d[1] -mul z29.d, z29.d,z9.d[1] -sub z19.d, z27.d, z20.d -mla z24.d, P0/M, z16.d, z31.d -add z27.d, z27.d, z20.d -sqrdmulh z20.d, z23.d, z8.d[1] -mul z23.d, z23.d,z9.d[1] -sub z16.d, z25.d, z24.d -mla z29.d, P0/M, z22.d, z31.d -add z25.d, z25.d, z24.d -sqrdmulh z24.d, z27.d, z6.d[0] -mul z27.d, z27.d,z7.d[0] -sub z22.d, z17.d, z29.d -mla z23.d, P0/M, z20.d, z31.d -add z17.d, z17.d, z29.d -sqrdmulh z29.d, z19.d, z6.d[1] -mul z19.d, z19.d,z7.d[1] -sub z20.d, z18.d, z23.d -mla z27.d, P0/M, z24.d, z31.d -add z18.d, z18.d, z23.d -sqrdmulh z23.d, z22.d, z4.d[1] -mul z22.d, z22.d,z5.d[1] -sub z24.d, z25.d, z27.d -mla z19.d, P0/M, z29.d, z31.d -add z25.d, z25.d, z27.d -sqrdmulh z27.d, z17.d, z4.d[0] -str q25, [x0, #1552] -mul z17.d, z17.d,z5.d[0] -str q24, [x0, #1584] -mla z22.d, P0/M, z23.d, z31.d -sub z23.d, z16.d, z19.d -ldr q24, [x0, #1760] -ldr q25, [x0, #1728] -add z16.d, z16.d, z19.d -sqrdmulh z19.d, z24.d, z10.d[0] -str q16, [x0, #1616] -mul z24.d, z24.d,z11.d[0] -str q23, [x0, #1648] -mla z17.d, P0/M, z27.d, z31.d -ldr q27, [x0, #1664] -sub z23.d, z20.d, z22.d -ldr q16, [x0, #1696] -add z20.d, z20.d, z22.d -sqrdmulh z22.d, z25.d, z10.d[0] -str q20, [x0, #1744] -mul z25.d, z25.d,z11.d[0] -str q23, [x0, #1776] -mla z24.d, P0/M, z19.d, z31.d -ldr q19, [x0, #1632] -sub z23.d, z18.d, z17.d -ldr q20, [x0, #1600] -add z18.d, z18.d, z17.d -sqrdmulh z17.d, z27.d, z10.d[0] -str q18, [x0, #1680] -mul z27.d, z27.d,z11.d[0] -str q23, [x0, #1712] -mla z25.d, P0/M, z22.d, z31.d -ldr q22, [x0, #1536] -sub z23.d, z19.d, z24.d -ldr q18, [x0, #1568] -add z19.d, z19.d, z24.d -sqrdmulh z24.d, z16.d, z10.d[0] -mul z16.d, z16.d,z11.d[0] -sub z29.d, z20.d, z25.d -mla z27.d, P0/M, z17.d, z31.d -add z20.d, z20.d, z25.d -sqrdmulh z25.d, z19.d, z8.d[0] -mul z19.d, z19.d,z9.d[0] -sub z17.d, z22.d, z27.d -mla z16.d, P0/M, z24.d, z31.d -add z22.d, z22.d, z27.d -sqrdmulh z27.d, z20.d, z8.d[0] -mul z20.d, z20.d,z9.d[0] -sub z24.d, z18.d, z16.d -mla z19.d, P0/M, z25.d, z31.d -add z18.d, z18.d, z16.d -sqrdmulh z16.d, z23.d, z8.d[1] -mul z23.d, z23.d,z9.d[1] -sub z25.d, z18.d, z19.d -mla z20.d, P0/M, z27.d, z31.d -add z18.d, z18.d, z19.d -ldr q12, [x17, #+1024] -ldr q13, [x17, #+1040] -ldr q14, [x17, #+1056] -ldr q15, [x17, #+1072] -ldr q0, [x17, #+1088] -ldr q1, [x17, #+1104] -ldr q2, [x17, #+1120] -ldr q3, [x17, #+1136] -sqrdmulh z19.d, z29.d, z8.d[1] -mul z29.d, z29.d,z9.d[1] -sub z27.d, z22.d, z20.d -mla z23.d, P0/M, z16.d, z31.d -add z22.d, z22.d, z20.d -sqrdmulh z20.d, z18.d, z6.d[0] -mul z18.d, z18.d,z7.d[0] -sub z16.d, z24.d, z23.d -mla z29.d, P0/M, z19.d, z31.d -add z24.d, z24.d, z23.d -sqrdmulh z23.d, z25.d, z6.d[1] -mul z25.d, z25.d,z7.d[1] -sub z19.d, z17.d, z29.d -mla z18.d, P0/M, z20.d, z31.d -add z17.d, z17.d, z29.d -sqrdmulh z29.d, z16.d, z4.d[1] -mul z16.d, z16.d,z5.d[1] -sub z20.d, z22.d, z18.d -mla z25.d, P0/M, z23.d, z31.d -add z22.d, z22.d, z18.d -sqrdmulh z18.d, z24.d, z4.d[0] -str q22, [x0, #1536] -mul z24.d, z24.d,z5.d[0] -str q20, [x0, #1568] -mla z16.d, P0/M, z29.d, z31.d -sub z29.d, z27.d, z25.d -ldr q20, [x0, #2032] -ldr q22, [x0, #2000] -add z27.d, z27.d, z25.d -sqrdmulh z25.d, z20.d, z13.d[0] -str q27, [x0, #1600] -mul z20.d, z20.d,z12.d[0] -str q29, [x0, #1632] -mla z24.d, P0/M, z18.d, z31.d -ldr q18, [x0, #1936] -sub z29.d, z19.d, z16.d -ldr q27, [x0, #1968] -add z19.d, z19.d, z16.d -sqrdmulh z16.d, z22.d, z13.d[0] -str q19, [x0, #1728] -mul z22.d, z22.d,z12.d[0] -str q29, [x0, #1760] -mla z20.d, P0/M, z25.d, z31.d -ldr q25, [x0, #1904] -sub z29.d, z17.d, z24.d -ldr q19, [x0, #1872] -add z17.d, z17.d, z24.d -sqrdmulh z24.d, z18.d, z13.d[0] -str q17, [x0, #1664] -mul z18.d, z18.d,z12.d[0] -str q29, [x0, #1696] -mla z22.d, P0/M, z16.d, z31.d -ldr q16, [x0, #1808] -sub z29.d, z25.d, z20.d -ldr q17, [x0, #1840] -add z25.d, z25.d, z20.d -sqrdmulh z20.d, z27.d, z13.d[0] -mul z27.d, z27.d,z12.d[0] -sub z23.d, z19.d, z22.d -mla z18.d, P0/M, z24.d, z31.d -add z19.d, z19.d, z22.d -sqrdmulh z22.d, z25.d, z15.d[0] -mul z25.d, z25.d,z14.d[0] -sub z24.d, z16.d, z18.d -mla z27.d, P0/M, z20.d, z31.d -add z16.d, z16.d, z18.d -sqrdmulh z18.d, z19.d, z15.d[0] -mul z19.d, z19.d,z14.d[0] -sub z20.d, z17.d, z27.d -mla z25.d, P0/M, z22.d, z31.d -add z17.d, z17.d, z27.d -sqrdmulh z27.d, z29.d, z15.d[1] -mul z29.d, z29.d,z14.d[1] -sub z22.d, z17.d, z25.d -mla z19.d, P0/M, z18.d, z31.d -add z17.d, z17.d, z25.d -sqrdmulh z25.d, z23.d, z15.d[1] -mul z23.d, z23.d,z14.d[1] -sub z18.d, z16.d, z19.d -mla z29.d, P0/M, z27.d, z31.d -add z16.d, z16.d, z19.d -sqrdmulh z19.d, z17.d, z1.d[0] -mul z17.d, z17.d,z0.d[0] -sub z27.d, z20.d, z29.d -mla z23.d, P0/M, z25.d, z31.d -add z20.d, z20.d, z29.d -sqrdmulh z29.d, z22.d, z1.d[1] -mul z22.d, z22.d,z0.d[1] -sub z25.d, z24.d, z23.d -mla z17.d, P0/M, z19.d, z31.d -add z24.d, z24.d, z23.d -sqrdmulh z23.d, z27.d, z3.d[1] -mul z27.d, z27.d,z2.d[1] -sub z19.d, z16.d, z17.d -mla z22.d, P0/M, z29.d, z31.d -add z16.d, z16.d, z17.d -sqrdmulh z17.d, z20.d, z3.d[0] -str q16, [x0, #1808] -mul z20.d, z20.d,z2.d[0] -str q19, [x0, #1840] -mla z27.d, P0/M, z23.d, z31.d -sub z23.d, z18.d, z22.d -ldr q19, [x0, #2016] -ldr q16, [x0, #1984] -add z18.d, z18.d, z22.d -sqrdmulh z22.d, z19.d, z13.d[0] -str q18, [x0, #1872] -mul z19.d, z19.d,z12.d[0] -str q23, [x0, #1904] -mla z20.d, P0/M, z17.d, z31.d -ldr q17, [x0, #1920] -sub z23.d, z25.d, z27.d -ldr q18, [x0, #1952] -add z25.d, z25.d, z27.d -sqrdmulh z27.d, z16.d, z13.d[0] -str q25, [x0, #2000] -mul z16.d, z16.d,z12.d[0] -str q23, [x0, #2032] -mla z19.d, P0/M, z22.d, z31.d -ldr q22, [x0, #1888] -sub z23.d, z24.d, z20.d -ldr q25, [x0, #1856] -add z24.d, z24.d, z20.d -sqrdmulh z20.d, z17.d, z13.d[0] -str q24, [x0, #1936] -mul z17.d, z17.d,z12.d[0] -str q23, [x0, #1968] -mla z16.d, P0/M, z27.d, z31.d -ldr q27, [x0, #1792] -sub z23.d, z22.d, z19.d -ldr q24, [x0, #1824] -add z22.d, z22.d, z19.d -sqrdmulh z19.d, z18.d, z13.d[0] -mul z18.d, z18.d,z12.d[0] -sub z29.d, z25.d, z16.d -mla z17.d, P0/M, z20.d, z31.d -add z25.d, z25.d, z16.d -sqrdmulh z16.d, z22.d, z15.d[0] -mul z22.d, z22.d,z14.d[0] -sub z20.d, z27.d, z17.d -mla z18.d, P0/M, z19.d, z31.d -add z27.d, z27.d, z17.d -sqrdmulh z17.d, z25.d, z15.d[0] -mul z25.d, z25.d,z14.d[0] -sub z19.d, z24.d, z18.d -mla z22.d, P0/M, z16.d, z31.d -add z24.d, z24.d, z18.d -sqrdmulh z18.d, z23.d, z15.d[1] -mul z23.d, z23.d,z14.d[1] -sub z16.d, z24.d, z22.d -mla z25.d, P0/M, z17.d, z31.d -add z24.d, z24.d, z22.d -sqrdmulh z22.d, z29.d, z15.d[1] -mul z29.d, z29.d,z14.d[1] -sub z17.d, z27.d, z25.d -mla z23.d, P0/M, z18.d, z31.d -add z27.d, z27.d, z25.d -sqrdmulh z25.d, z24.d, z1.d[0] -mul z24.d, z24.d,z0.d[0] -sub z18.d, z19.d, z23.d -mla z29.d, P0/M, z22.d, z31.d -add z19.d, z19.d, z23.d -sqrdmulh z23.d, z16.d, z1.d[1] -mul z16.d, z16.d,z0.d[1] -sub z22.d, z20.d, z29.d -mla z24.d, P0/M, z25.d, z31.d -add z20.d, z20.d, z29.d -sqrdmulh z29.d, z18.d, z3.d[1] -mul z18.d, z18.d,z2.d[1] -sub z25.d, z27.d, z24.d -mla z16.d, P0/M, z23.d, z31.d -add z27.d, z27.d, z24.d -sqrdmulh z24.d, z19.d, z3.d[0] -str q27, [x0, #1792] -mul z19.d, z19.d,z2.d[0] -str q25, [x0, #1824] -mla z18.d, P0/M, z29.d, z31.d -sub z29.d, z17.d, z16.d -add z17.d, z17.d, z16.d -str q17, [x0, #1856] -str q29, [x0, #1888] -mla z19.d, P0/M, z24.d, z31.d -sub z24.d, z22.d, z18.d -add z22.d, z22.d, z18.d -str q22, [x0, #1984] -str q24, [x0, #2016] -sub z24.d, z20.d, z19.d -add z20.d, z20.d, z19.d -str q20, [x0, #1920] -str q24, [x0, #1952] -// Restore SVE2 vector registers -ldp d8, d9, [sp, #16*0] -ldp d10, d11, [sp, #16*1] -ldp d12, d13, [sp, #16*2] -ldp d14, d15, [sp, #16*3] -add sp, sp, #(16*4) -// Restore GPRs -ldp x19, x20, [sp, #16*0] -ldp x21, x22, [sp, #16*1] -ldp x23, x24, [sp, #16*2] -ldp x25, x26, [sp, #16*3] -ldp x27, x28, [sp, #16*4] -ldr x29, [sp, #16*5] -add sp, sp, #(16*5+16) -ret - -// Line count: 2697 -// Instruction count: 2693 \ No newline at end of file diff --git a/tests/ntt_sve2/auto/ntt_u64_incomplete_72057594067788289_60277548896192635_var_3_3_2.s b/tests/ntt_sve2/auto/ntt_u64_incomplete_72057594067788289_60277548896192635_var_3_3_2.s deleted file mode 100644 index cb5189a..0000000 --- a/tests/ntt_sve2/auto/ntt_u64_incomplete_72057594067788289_60277548896192635_var_3_3_2.s +++ /dev/null @@ -1,2727 +0,0 @@ - -/// -/// Copyright (c) 2021 Arm Limited -/// SPDX-License-Identifier: MIT -/// -/// Permission is hereby granted, free of charge, to any person obtaining a copy -/// of this software and associated documentation files (the "Software"), to deal -/// in the Software without restriction, including without limitation the rights -/// to use, copy, modify, merge, publish, distribute, sublicense, and/or sell -/// copies of the Software, and to permit persons to whom the Software is -/// furnished to do so, subject to the following conditions: -/// -/// The above copyright notice and this permission notice shall be included in all -/// copies or substantial portions of the Software. -/// -/// THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR -/// IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, -/// FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE -/// AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER -/// LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, -/// OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE -/// SOFTWARE - - -/// -/// This assembly code has been auto-generated. -/// Don't modify it directly. -/// - -modulus: -.dword -72057594067788289 -.dword -72057594067788289 -.dword -72057594067788289 -.dword -72057594067788289 -.align 6 -roots_merged: -.dword 25792053496987399 // Layer 0, block 0 -.dword 0 // Layer None, block None -.dword 3301382846246308405 // Layer 0, block 0 -.dword 0 // Layer None, block None -.dword 36678763444893001 // Layer 1, block 0 -.dword 12009493193917617 // Layer 1, block 1 -.dword 4694881719000765600 // Layer 1, block 0 -.dword 1537215128184439725 // Layer 1, block 1 -.dword 57226611787624233 // Layer 2, block 0 -.dword 39665359539540334 // Layer 2, block 1 -.dword 7325006305780451127 // Layer 2, block 0 -.dword 5077166018957207276 // Layer 2, block 1 -.dword 14359056949694594 // Layer 2, block 2 -.dword 63449028357011879 // Layer 2, block 3 -.dword 1837959288799265711 // Layer 2, block 2 -.dword 8121475626332016399 // Layer 2, block 3 -.dword 56437370284897879 // Layer 3, block 0 -.dword 0 // Layer None, block None -.dword 7223983393473341270 // Layer 3, block 0 -.dword 0 // Layer None, block None -.dword 15519149204003269 // Layer 4, block 0 -.dword 18945631884663455 // Layer 4, block 1 -.dword 1986451097289241753 // Layer 4, block 0 -.dword 2425040880231995866 // Layer 4, block 1 -.dword 21843809513296019 // Layer 5, block 0 -.dword 52861630939350015 // Layer 5, block 1 -.dword 2796007616543237058 // Layer 5, block 0 -.dword 6766288757432881341 // Layer 5, block 1 -.dword 58200436133340777 // Layer 5, block 2 -.dword 45581265709396633 // Layer 5, block 3 -.dword 7449655821980514543 // Layer 5, block 2 -.dword 5834402008385018253 // Layer 5, block 3 -.dword 7801853795705237 // Layer 3, block 1 -.dword 0 // Layer None, block None -.dword 998637285436439396 // Layer 3, block 1 -.dword 0 // Layer None, block None -.dword 72057409685042741 // Layer 4, block 2 -.dword 67813594624550994 // Layer 4, block 3 -.dword 9223348435863355444 // Layer 4, block 2 -.dword 8680140108345514992 // Layer 4, block 3 -.dword 16444438478993771 // Layer 5, block 4 -.dword 44738633871916757 // Layer 5, block 5 -.dword 2104888124438946221 // Layer 5, block 4 -.dword 5726545133232289544 // Layer 5, block 5 -.dword 14998888047589537 // Layer 5, block 6 -.dword 1367715298619054 // Layer 5, block 7 -.dword 1919857669295880083 // Layer 5, block 6 -.dword 175067558150691679 // Layer 5, block 7 -.dword 50810289212278368 // Layer 3, block 2 -.dword 0 // Layer None, block None -.dword 6503717016476519110 // Layer 3, block 2 -.dword 0 // Layer None, block None -.dword 38922220208018571 // Layer 4, block 4 -.dword 7966052600948377 // Layer 4, block 5 -.dword 4982044184561839686 // Layer 4, block 4 -.dword 1019654732498851778 // Layer 4, block 5 -.dword 45879272116084567 // Layer 5, block 8 -.dword 66654388400258382 // Layer 5, block 9 -.dword 5872546828425266758 // Layer 5, block 8 -.dword 8531761711697548017 // Layer 5, block 9 -.dword 8930087962801744 // Layer 5, block 10 -.dword 61848588213223279 // Layer 5, block 11 -.dword 1143051258764947771 // Layer 5, block 10 -.dword 7916619288011967173 // Layer 5, block 11 -.dword 31977682183549777 // Layer 3, block 3 -.dword 0 // Layer None, block None -.dword 4093143317798190700 // Layer 3, block 3 -.dword 0 // Layer None, block None -.dword 66070897124800871 // Layer 4, block 6 -.dword 953067252694683 // Layer 4, block 7 -.dword 8457074828469936528 // Layer 4, block 6 -.dword 121992608294366219 // Layer 4, block 7 -.dword 33801610235026337 // Layer 5, block 12 -.dword 32122784433286747 // Layer 5, block 13 -.dword 4326606108290444417 // Layer 5, block 12 -.dword 4111716405756826253 // Layer 5, block 13 -.dword 67688369535326483 // Layer 5, block 14 -.dword 45021686719473556 // Layer 5, block 15 -.dword 8664111296931419854 // Layer 5, block 14 -.dword 5762775897704545946 // Layer 5, block 15 -.dword 66662168904752601 // Layer 3, block 4 -.dword 0 // Layer None, block None -.dword 8532757616272395351 // Layer 3, block 4 -.dword 0 // Layer None, block None -.dword 23961218891132444 // Layer 4, block 8 -.dword 59012643726482518 // Layer 4, block 9 -.dword 3067036016793986470 // Layer 4, block 8 -.dword 7553618393859575754 // Layer 4, block 9 -.dword 52812533586708198 // Layer 5, block 16 -.dword 27994290036168371 // Layer 5, block 17 -.dword 6760004296297333018 // Layer 5, block 16 -.dword 3583269123144660376 // Layer 5, block 17 -.dword 45890717144660134 // Layer 5, block 18 -.dword 39684773913748863 // Layer 5, block 19 -.dword 5874011792082332260 // Layer 5, block 18 -.dword 5079651058854869198 // Layer 5, block 19 -.dword 50149898471788096 // Layer 3, block 5 -.dword 0 // Layer None, block None -.dword 6419187001728793164 // Layer 3, block 5 -.dword 0 // Layer None, block None -.dword 65714767972465509 // Layer 4, block 10 -.dword 51421828010275652 // Layer 4, block 11 -.dword 8411490296989900223 // Layer 4, block 10 -.dword 6581993982587733829 // Layer 4, block 11 -.dword 18683690578478417 // Layer 5, block 20 -.dword 3282356803714609 // Layer 5, block 21 -.dword 2391512393054205061 // Layer 5, block 20 -.dword 420141670701365074 // Layer 5, block 21 -.dword 67884452950503047 // Layer 5, block 22 -.dword 10335338564031418 // Layer 5, block 23 -.dword 8689209974063619263 // Layer 5, block 22 -.dword 1322923335647807838 // Layer 5, block 23 -.dword 30932683335866672 // Layer 3, block 6 -.dword 0 // Layer None, block None -.dword 3959383465350182760 // Layer 3, block 6 -.dword 0 // Layer None, block None -.dword 27050097608373352 // Layer 4, block 12 -.dword 67454821565758121 // Layer 4, block 13 -.dword 3462412492436980406 // Layer 4, block 12 -.dword 8634217156839057519 // Layer 4, block 13 -.dword 32828920539599153 // Layer 5, block 24 -.dword 8624332566875856 // Layer 5, block 25 -.dword 4202101827327358896 // Layer 5, block 24 -.dword 1103914568102652181 // Layer 5, block 25 -.dword 56732837753533829 // Layer 5, block 26 -.dword 14816466027490539 // Layer 5, block 27 -.dword 7261803229443070495 // Layer 5, block 26 -.dword 1896507650732884485 // Layer 5, block 27 -.dword 54968319742463037 // Layer 3, block 7 -.dword 0 // Layer None, block None -.dword 7035944924119603816 // Layer 3, block 7 -.dword 0 // Layer None, block None -.dword 55666925166425210 // Layer 4, block 14 -.dword 34241587306439298 // Layer 4, block 15 -.dword 7125366418349706083 // Layer 4, block 14 -.dword 4382923173407965878 // Layer 4, block 15 -.dword 8550051130607768 // Layer 5, block 28 -.dword 14420141705316589 // Layer 5, block 29 -.dword 1094406544264277001 // Layer 5, block 28 -.dword 1845778137515640974 // Layer 5, block 29 -.dword 55622715926092387 // Layer 5, block 30 -.dword 3405033449209397 // Layer 5, block 31 -.dword 7119707635589449714 // Layer 5, block 30 -.dword 435844281318190845 // Layer 5, block 31 -.text -.type ntt_u64_incomplete_sve2_asm_var_3_3_2, %function -.global ntt_u64_incomplete_sve2_asm_var_3_3_2 -modulus_addr: .quad modulus -roots_merged_addr: .quad roots_merged -ntt_u64_incomplete_sve2_asm_var_3_3_2: -// Save GPRs -sub sp, sp, #(16*5+16) -stp x19, x20, [sp, #16*0] -stp x19, x20, [sp, #16*0] -stp x21, x22, [sp, #16*1] -stp x23, x24, [sp, #16*2] -stp x25, x26, [sp, #16*3] -stp x27, x28, [sp, #16*4] -str x29, [sp, #16*5] -// Save SVE2 vector registers -sub sp, sp, #(16*4) -stp d8, d9, [sp, #16*0] -stp d10, d11, [sp, #16*1] -stp d12, d13, [sp, #16*2] -stp d14, d15, [sp, #16*3] -ldr x17, modulus_addr -ldr q31, [x17] -ptrue P0.d -ldr x17, roots_merged_addr -ldr q3, [x17, #+0] -ldr q2, [x17, #+16] -ldr q1, [x17, #+32] -ldr q0, [x17, #+48] -ldr q15, [x17, #+64] -ldr q14, [x17, #+80] -ldr q13, [x17, #+96] -ldr q12, [x17, #+112] -ldr q30, [x0, #1920] -ldr q29, [x0, #1664] -sqrdmulh z28.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -ldr q27, [x0, #1152] -sqrdmulh z26.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -ldr q25, [x0, #1408] -mla z30.d, P0/M, z28.d, z31.d -sqrdmulh z28.d, z27.d, z2.d[0] -mul z27.d, z27.d,z3.d[0] -ldr q24, [x0, #896] -mla z29.d, P0/M, z26.d, z31.d -sub z26.d, z24.d, z30.d -add z24.d, z24.d, z30.d -sqrdmulh z30.d, z25.d, z2.d[0] -mul z25.d, z25.d,z3.d[0] -ldr q23, [x0, #640] -mla z27.d, P0/M, z28.d, z31.d -sub z28.d, z23.d, z29.d -add z23.d, z23.d, z29.d -sqrdmulh z29.d, z24.d, z0.d[0] -mul z24.d, z24.d,z1.d[0] -ldr q22, [x0, #128] -mla z25.d, P0/M, z30.d, z31.d -sub z30.d, z22.d, z27.d -add z22.d, z22.d, z27.d -sqrdmulh z27.d, z23.d, z0.d[0] -mul z23.d, z23.d,z1.d[0] -ldr q21, [x0, #384] -mla z24.d, P0/M, z29.d, z31.d -sub z29.d, z21.d, z25.d -add z21.d, z21.d, z25.d -sqrdmulh z25.d, z26.d, z0.d[1] -mul z26.d, z26.d,z1.d[1] -mla z23.d, P0/M, z27.d, z31.d -sub z27.d, z21.d, z24.d -add z21.d, z21.d, z24.d -sqrdmulh z24.d, z28.d, z0.d[1] -mul z28.d, z28.d,z1.d[1] -mla z26.d, P0/M, z25.d, z31.d -sub z25.d, z22.d, z23.d -add z22.d, z22.d, z23.d -sqrdmulh z23.d, z21.d, z14.d[0] -mul z21.d, z21.d,z15.d[0] -mla z28.d, P0/M, z24.d, z31.d -sub z24.d, z29.d, z26.d -add z29.d, z29.d, z26.d -sqrdmulh z26.d, z27.d, z14.d[1] -mul z27.d, z27.d,z15.d[1] -mla z21.d, P0/M, z23.d, z31.d -sub z23.d, z30.d, z28.d -add z30.d, z30.d, z28.d -sqrdmulh z28.d, z24.d, z12.d[1] -mul z24.d, z24.d,z13.d[1] -ldr q20, [x0, #1936] -mla z27.d, P0/M, z26.d, z31.d -sub z26.d, z22.d, z21.d -add z22.d, z22.d, z21.d -sqrdmulh z21.d, z29.d, z12.d[0] -mul z29.d, z29.d,z13.d[0] -ldr q19, [x0, #1680] -mla z24.d, P0/M, z28.d, z31.d -sub z28.d, z25.d, z27.d -add z25.d, z25.d, z27.d -sqrdmulh z27.d, z20.d, z2.d[0] -mul z20.d, z20.d,z3.d[0] -ldr q18, [x0, #1168] -mla z29.d, P0/M, z21.d, z31.d -sub z21.d, z23.d, z24.d -add z23.d, z23.d, z24.d -sqrdmulh z24.d, z19.d, z2.d[0] -str q22, [x0, #128] -mul z19.d, z19.d,z3.d[0] -ldr q22, [x0, #1424] -mla z20.d, P0/M, z27.d, z31.d -sub z27.d, z30.d, z29.d -add z30.d, z30.d, z29.d -sqrdmulh z29.d, z18.d, z2.d[0] -str q26, [x0, #384] -mul z18.d, z18.d,z3.d[0] -ldr q26, [x0, #912] -mla z19.d, P0/M, z24.d, z31.d -sub z24.d, z26.d, z20.d -add z26.d, z26.d, z20.d -sqrdmulh z20.d, z22.d, z2.d[0] -str q25, [x0, #640] -mul z22.d, z22.d,z3.d[0] -ldr q25, [x0, #656] -mla z18.d, P0/M, z29.d, z31.d -sub z29.d, z25.d, z19.d -add z25.d, z25.d, z19.d -sqrdmulh z19.d, z26.d, z0.d[0] -str q28, [x0, #896] -mul z26.d, z26.d,z1.d[0] -ldr q28, [x0, #144] -mla z22.d, P0/M, z20.d, z31.d -sub z20.d, z28.d, z18.d -add z28.d, z28.d, z18.d -sqrdmulh z18.d, z25.d, z0.d[0] -str q23, [x0, #1664] -mul z25.d, z25.d,z1.d[0] -ldr q23, [x0, #400] -mla z26.d, P0/M, z19.d, z31.d -sub z19.d, z23.d, z22.d -add z23.d, z23.d, z22.d -sqrdmulh z22.d, z24.d, z0.d[1] -str q21, [x0, #1920] -mul z24.d, z24.d,z1.d[1] -mla z25.d, P0/M, z18.d, z31.d -sub z18.d, z23.d, z26.d -add z23.d, z23.d, z26.d -sqrdmulh z26.d, z29.d, z0.d[1] -str q30, [x0, #1152] -mul z29.d, z29.d,z1.d[1] -mla z24.d, P0/M, z22.d, z31.d -sub z22.d, z28.d, z25.d -add z28.d, z28.d, z25.d -sqrdmulh z25.d, z23.d, z14.d[0] -str q27, [x0, #1408] -mul z23.d, z23.d,z15.d[0] -mla z29.d, P0/M, z26.d, z31.d -sub z26.d, z19.d, z24.d -add z19.d, z19.d, z24.d -sqrdmulh z24.d, z18.d, z14.d[1] -mul z18.d, z18.d,z15.d[1] -mla z23.d, P0/M, z25.d, z31.d -sub z25.d, z20.d, z29.d -add z20.d, z20.d, z29.d -sqrdmulh z29.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -ldr q27, [x0, #1952] -mla z18.d, P0/M, z24.d, z31.d -sub z24.d, z28.d, z23.d -add z28.d, z28.d, z23.d -sqrdmulh z23.d, z19.d, z12.d[0] -mul z19.d, z19.d,z13.d[0] -ldr q30, [x0, #1696] -mla z26.d, P0/M, z29.d, z31.d -sub z29.d, z22.d, z18.d -add z22.d, z22.d, z18.d -sqrdmulh z18.d, z27.d, z2.d[0] -mul z27.d, z27.d,z3.d[0] -ldr q21, [x0, #1184] -mla z19.d, P0/M, z23.d, z31.d -sub z23.d, z25.d, z26.d -add z25.d, z25.d, z26.d -sqrdmulh z26.d, z30.d, z2.d[0] -str q28, [x0, #144] -mul z30.d, z30.d,z3.d[0] -ldr q28, [x0, #1440] -mla z27.d, P0/M, z18.d, z31.d -sub z18.d, z20.d, z19.d -add z20.d, z20.d, z19.d -sqrdmulh z19.d, z21.d, z2.d[0] -str q24, [x0, #400] -mul z21.d, z21.d,z3.d[0] -ldr q24, [x0, #928] -mla z30.d, P0/M, z26.d, z31.d -sub z26.d, z24.d, z27.d -add z24.d, z24.d, z27.d -sqrdmulh z27.d, z28.d, z2.d[0] -str q22, [x0, #656] -mul z28.d, z28.d,z3.d[0] -ldr q22, [x0, #672] -mla z21.d, P0/M, z19.d, z31.d -sub z19.d, z22.d, z30.d -add z22.d, z22.d, z30.d -sqrdmulh z30.d, z24.d, z0.d[0] -str q29, [x0, #912] -mul z24.d, z24.d,z1.d[0] -ldr q29, [x0, #160] -mla z28.d, P0/M, z27.d, z31.d -sub z27.d, z29.d, z21.d -add z29.d, z29.d, z21.d -sqrdmulh z21.d, z22.d, z0.d[0] -str q25, [x0, #1680] -mul z22.d, z22.d,z1.d[0] -ldr q25, [x0, #416] -mla z24.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z28.d -add z25.d, z25.d, z28.d -sqrdmulh z28.d, z26.d, z0.d[1] -str q23, [x0, #1936] -mul z26.d, z26.d,z1.d[1] -mla z22.d, P0/M, z21.d, z31.d -sub z21.d, z25.d, z24.d -add z25.d, z25.d, z24.d -sqrdmulh z24.d, z19.d, z0.d[1] -str q20, [x0, #1168] -mul z19.d, z19.d,z1.d[1] -mla z26.d, P0/M, z28.d, z31.d -sub z28.d, z29.d, z22.d -add z29.d, z29.d, z22.d -sqrdmulh z22.d, z25.d, z14.d[0] -str q18, [x0, #1424] -mul z25.d, z25.d,z15.d[0] -mla z19.d, P0/M, z24.d, z31.d -sub z24.d, z30.d, z26.d -add z30.d, z30.d, z26.d -sqrdmulh z26.d, z21.d, z14.d[1] -mul z21.d, z21.d,z15.d[1] -mla z25.d, P0/M, z22.d, z31.d -sub z22.d, z27.d, z19.d -add z27.d, z27.d, z19.d -sqrdmulh z19.d, z24.d, z12.d[1] -mul z24.d, z24.d,z13.d[1] -ldr q18, [x0, #1968] -mla z21.d, P0/M, z26.d, z31.d -sub z26.d, z29.d, z25.d -add z29.d, z29.d, z25.d -sqrdmulh z25.d, z30.d, z12.d[0] -mul z30.d, z30.d,z13.d[0] -ldr q20, [x0, #1712] -mla z24.d, P0/M, z19.d, z31.d -sub z19.d, z28.d, z21.d -add z28.d, z28.d, z21.d -sqrdmulh z21.d, z18.d, z2.d[0] -mul z18.d, z18.d,z3.d[0] -ldr q23, [x0, #1200] -mla z30.d, P0/M, z25.d, z31.d -sub z25.d, z22.d, z24.d -add z22.d, z22.d, z24.d -sqrdmulh z24.d, z20.d, z2.d[0] -str q29, [x0, #160] -mul z20.d, z20.d,z3.d[0] -ldr q29, [x0, #1456] -mla z18.d, P0/M, z21.d, z31.d -sub z21.d, z27.d, z30.d -add z27.d, z27.d, z30.d -sqrdmulh z30.d, z23.d, z2.d[0] -str q26, [x0, #416] -mul z23.d, z23.d,z3.d[0] -ldr q26, [x0, #944] -mla z20.d, P0/M, z24.d, z31.d -sub z24.d, z26.d, z18.d -add z26.d, z26.d, z18.d -sqrdmulh z18.d, z29.d, z2.d[0] -str q28, [x0, #672] -mul z29.d, z29.d,z3.d[0] -ldr q28, [x0, #688] -mla z23.d, P0/M, z30.d, z31.d -sub z30.d, z28.d, z20.d -add z28.d, z28.d, z20.d -sqrdmulh z20.d, z26.d, z0.d[0] -str q19, [x0, #928] -mul z26.d, z26.d,z1.d[0] -ldr q19, [x0, #176] -mla z29.d, P0/M, z18.d, z31.d -sub z18.d, z19.d, z23.d -add z19.d, z19.d, z23.d -sqrdmulh z23.d, z28.d, z0.d[0] -str q22, [x0, #1696] -mul z28.d, z28.d,z1.d[0] -ldr q22, [x0, #432] -mla z26.d, P0/M, z20.d, z31.d -sub z20.d, z22.d, z29.d -add z22.d, z22.d, z29.d -sqrdmulh z29.d, z24.d, z0.d[1] -str q25, [x0, #1952] -mul z24.d, z24.d,z1.d[1] -mla z28.d, P0/M, z23.d, z31.d -sub z23.d, z22.d, z26.d -add z22.d, z22.d, z26.d -sqrdmulh z26.d, z30.d, z0.d[1] -str q27, [x0, #1184] -mul z30.d, z30.d,z1.d[1] -mla z24.d, P0/M, z29.d, z31.d -sub z29.d, z19.d, z28.d -add z19.d, z19.d, z28.d -sqrdmulh z28.d, z22.d, z14.d[0] -str q21, [x0, #1440] -mul z22.d, z22.d,z15.d[0] -mla z30.d, P0/M, z26.d, z31.d -sub z26.d, z20.d, z24.d -add z20.d, z20.d, z24.d -sqrdmulh z24.d, z23.d, z14.d[1] -mul z23.d, z23.d,z15.d[1] -mla z22.d, P0/M, z28.d, z31.d -sub z28.d, z18.d, z30.d -add z18.d, z18.d, z30.d -sqrdmulh z30.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -ldr q21, [x0, #1984] -mla z23.d, P0/M, z24.d, z31.d -sub z24.d, z19.d, z22.d -add z19.d, z19.d, z22.d -sqrdmulh z22.d, z20.d, z12.d[0] -mul z20.d, z20.d,z13.d[0] -ldr q27, [x0, #1728] -mla z26.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z23.d -add z29.d, z29.d, z23.d -sqrdmulh z23.d, z21.d, z2.d[0] -mul z21.d, z21.d,z3.d[0] -ldr q25, [x0, #1216] -mla z20.d, P0/M, z22.d, z31.d -sub z22.d, z28.d, z26.d -add z28.d, z28.d, z26.d -sqrdmulh z26.d, z27.d, z2.d[0] -str q19, [x0, #176] -mul z27.d, z27.d,z3.d[0] -ldr q19, [x0, #1472] -mla z21.d, P0/M, z23.d, z31.d -sub z23.d, z18.d, z20.d -add z18.d, z18.d, z20.d -sqrdmulh z20.d, z25.d, z2.d[0] -str q24, [x0, #432] -mul z25.d, z25.d,z3.d[0] -ldr q24, [x0, #960] -mla z27.d, P0/M, z26.d, z31.d -sub z26.d, z24.d, z21.d -add z24.d, z24.d, z21.d -sqrdmulh z21.d, z19.d, z2.d[0] -str q29, [x0, #688] -mul z19.d, z19.d,z3.d[0] -ldr q29, [x0, #704] -mla z25.d, P0/M, z20.d, z31.d -sub z20.d, z29.d, z27.d -add z29.d, z29.d, z27.d -sqrdmulh z27.d, z24.d, z0.d[0] -str q30, [x0, #944] -mul z24.d, z24.d,z1.d[0] -ldr q30, [x0, #192] -mla z19.d, P0/M, z21.d, z31.d -sub z21.d, z30.d, z25.d -add z30.d, z30.d, z25.d -sqrdmulh z25.d, z29.d, z0.d[0] -str q28, [x0, #1712] -mul z29.d, z29.d,z1.d[0] -ldr q28, [x0, #448] -mla z24.d, P0/M, z27.d, z31.d -sub z27.d, z28.d, z19.d -add z28.d, z28.d, z19.d -sqrdmulh z19.d, z26.d, z0.d[1] -str q22, [x0, #1968] -mul z26.d, z26.d,z1.d[1] -mla z29.d, P0/M, z25.d, z31.d -sub z25.d, z28.d, z24.d -add z28.d, z28.d, z24.d -sqrdmulh z24.d, z20.d, z0.d[1] -str q18, [x0, #1200] -mul z20.d, z20.d,z1.d[1] -mla z26.d, P0/M, z19.d, z31.d -sub z19.d, z30.d, z29.d -add z30.d, z30.d, z29.d -sqrdmulh z29.d, z28.d, z14.d[0] -str q23, [x0, #1456] -mul z28.d, z28.d,z15.d[0] -mla z20.d, P0/M, z24.d, z31.d -sub z24.d, z27.d, z26.d -add z27.d, z27.d, z26.d -sqrdmulh z26.d, z25.d, z14.d[1] -mul z25.d, z25.d,z15.d[1] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z21.d, z20.d -add z21.d, z21.d, z20.d -sqrdmulh z20.d, z24.d, z12.d[1] -mul z24.d, z24.d,z13.d[1] -ldr q23, [x0, #2000] -mla z25.d, P0/M, z26.d, z31.d -sub z26.d, z30.d, z28.d -add z30.d, z30.d, z28.d -sqrdmulh z28.d, z27.d, z12.d[0] -mul z27.d, z27.d,z13.d[0] -ldr q18, [x0, #1744] -mla z24.d, P0/M, z20.d, z31.d -sub z20.d, z19.d, z25.d -add z19.d, z19.d, z25.d -sqrdmulh z25.d, z23.d, z2.d[0] -mul z23.d, z23.d,z3.d[0] -ldr q22, [x0, #1232] -mla z27.d, P0/M, z28.d, z31.d -sub z28.d, z29.d, z24.d -add z29.d, z29.d, z24.d -sqrdmulh z24.d, z18.d, z2.d[0] -str q30, [x0, #192] -mul z18.d, z18.d,z3.d[0] -ldr q30, [x0, #1488] -mla z23.d, P0/M, z25.d, z31.d -sub z25.d, z21.d, z27.d -add z21.d, z21.d, z27.d -sqrdmulh z27.d, z22.d, z2.d[0] -str q26, [x0, #448] -mul z22.d, z22.d,z3.d[0] -ldr q26, [x0, #976] -mla z18.d, P0/M, z24.d, z31.d -sub z24.d, z26.d, z23.d -add z26.d, z26.d, z23.d -sqrdmulh z23.d, z30.d, z2.d[0] -str q19, [x0, #704] -mul z30.d, z30.d,z3.d[0] -ldr q19, [x0, #720] -mla z22.d, P0/M, z27.d, z31.d -sub z27.d, z19.d, z18.d -add z19.d, z19.d, z18.d -sqrdmulh z18.d, z26.d, z0.d[0] -str q20, [x0, #960] -mul z26.d, z26.d,z1.d[0] -ldr q20, [x0, #208] -mla z30.d, P0/M, z23.d, z31.d -sub z23.d, z20.d, z22.d -add z20.d, z20.d, z22.d -sqrdmulh z22.d, z19.d, z0.d[0] -str q29, [x0, #1728] -mul z19.d, z19.d,z1.d[0] -ldr q29, [x0, #464] -mla z26.d, P0/M, z18.d, z31.d -sub z18.d, z29.d, z30.d -add z29.d, z29.d, z30.d -sqrdmulh z30.d, z24.d, z0.d[1] -str q28, [x0, #1984] -mul z24.d, z24.d,z1.d[1] -mla z19.d, P0/M, z22.d, z31.d -sub z22.d, z29.d, z26.d -add z29.d, z29.d, z26.d -sqrdmulh z26.d, z27.d, z0.d[1] -str q21, [x0, #1216] -mul z27.d, z27.d,z1.d[1] -mla z24.d, P0/M, z30.d, z31.d -sub z30.d, z20.d, z19.d -add z20.d, z20.d, z19.d -sqrdmulh z19.d, z29.d, z14.d[0] -str q25, [x0, #1472] -mul z29.d, z29.d,z15.d[0] -mla z27.d, P0/M, z26.d, z31.d -sub z26.d, z18.d, z24.d -add z18.d, z18.d, z24.d -sqrdmulh z24.d, z22.d, z14.d[1] -mul z22.d, z22.d,z15.d[1] -mla z29.d, P0/M, z19.d, z31.d -sub z19.d, z23.d, z27.d -add z23.d, z23.d, z27.d -sqrdmulh z27.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -ldr q25, [x0, #2016] -mla z22.d, P0/M, z24.d, z31.d -sub z24.d, z20.d, z29.d -add z20.d, z20.d, z29.d -sqrdmulh z29.d, z18.d, z12.d[0] -mul z18.d, z18.d,z13.d[0] -ldr q21, [x0, #1760] -mla z26.d, P0/M, z27.d, z31.d -sub z27.d, z30.d, z22.d -add z30.d, z30.d, z22.d -sqrdmulh z22.d, z25.d, z2.d[0] -mul z25.d, z25.d,z3.d[0] -ldr q28, [x0, #1248] -mla z18.d, P0/M, z29.d, z31.d -sub z29.d, z19.d, z26.d -add z19.d, z19.d, z26.d -sqrdmulh z26.d, z21.d, z2.d[0] -str q20, [x0, #208] -mul z21.d, z21.d,z3.d[0] -ldr q20, [x0, #1504] -mla z25.d, P0/M, z22.d, z31.d -sub z22.d, z23.d, z18.d -add z23.d, z23.d, z18.d -sqrdmulh z18.d, z28.d, z2.d[0] -str q24, [x0, #464] -mul z28.d, z28.d,z3.d[0] -ldr q24, [x0, #992] -mla z21.d, P0/M, z26.d, z31.d -sub z26.d, z24.d, z25.d -add z24.d, z24.d, z25.d -sqrdmulh z25.d, z20.d, z2.d[0] -str q30, [x0, #720] -mul z20.d, z20.d,z3.d[0] -ldr q30, [x0, #736] -mla z28.d, P0/M, z18.d, z31.d -sub z18.d, z30.d, z21.d -add z30.d, z30.d, z21.d -sqrdmulh z21.d, z24.d, z0.d[0] -str q27, [x0, #976] -mul z24.d, z24.d,z1.d[0] -ldr q27, [x0, #224] -mla z20.d, P0/M, z25.d, z31.d -sub z25.d, z27.d, z28.d -add z27.d, z27.d, z28.d -sqrdmulh z28.d, z30.d, z0.d[0] -str q19, [x0, #1744] -mul z30.d, z30.d,z1.d[0] -ldr q19, [x0, #480] -mla z24.d, P0/M, z21.d, z31.d -sub z21.d, z19.d, z20.d -add z19.d, z19.d, z20.d -sqrdmulh z20.d, z26.d, z0.d[1] -str q29, [x0, #2000] -mul z26.d, z26.d,z1.d[1] -mla z30.d, P0/M, z28.d, z31.d -sub z28.d, z19.d, z24.d -add z19.d, z19.d, z24.d -sqrdmulh z24.d, z18.d, z0.d[1] -str q23, [x0, #1232] -mul z18.d, z18.d,z1.d[1] -mla z26.d, P0/M, z20.d, z31.d -sub z20.d, z27.d, z30.d -add z27.d, z27.d, z30.d -sqrdmulh z30.d, z19.d, z14.d[0] -str q22, [x0, #1488] -mul z19.d, z19.d,z15.d[0] -mla z18.d, P0/M, z24.d, z31.d -sub z24.d, z21.d, z26.d -add z21.d, z21.d, z26.d -sqrdmulh z26.d, z28.d, z14.d[1] -mul z28.d, z28.d,z15.d[1] -mla z19.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z18.d -add z25.d, z25.d, z18.d -sqrdmulh z18.d, z24.d, z12.d[1] -mul z24.d, z24.d,z13.d[1] -ldr q22, [x0, #2032] -mla z28.d, P0/M, z26.d, z31.d -sub z26.d, z27.d, z19.d -add z27.d, z27.d, z19.d -sqrdmulh z19.d, z21.d, z12.d[0] -mul z21.d, z21.d,z13.d[0] -ldr q23, [x0, #1776] -mla z24.d, P0/M, z18.d, z31.d -sub z18.d, z20.d, z28.d -add z20.d, z20.d, z28.d -sqrdmulh z28.d, z22.d, z2.d[0] -mul z22.d, z22.d,z3.d[0] -ldr q29, [x0, #1264] -mla z21.d, P0/M, z19.d, z31.d -sub z19.d, z30.d, z24.d -add z30.d, z30.d, z24.d -sqrdmulh z24.d, z23.d, z2.d[0] -str q27, [x0, #224] -mul z23.d, z23.d,z3.d[0] -ldr q27, [x0, #1520] -mla z22.d, P0/M, z28.d, z31.d -sub z28.d, z25.d, z21.d -add z25.d, z25.d, z21.d -sqrdmulh z21.d, z29.d, z2.d[0] -str q26, [x0, #480] -mul z29.d, z29.d,z3.d[0] -ldr q26, [x0, #1008] -mla z23.d, P0/M, z24.d, z31.d -sub z24.d, z26.d, z22.d -add z26.d, z26.d, z22.d -sqrdmulh z22.d, z27.d, z2.d[0] -str q20, [x0, #736] -mul z27.d, z27.d,z3.d[0] -ldr q20, [x0, #752] -mla z29.d, P0/M, z21.d, z31.d -sub z21.d, z20.d, z23.d -add z20.d, z20.d, z23.d -sqrdmulh z23.d, z26.d, z0.d[0] -str q18, [x0, #992] -mul z26.d, z26.d,z1.d[0] -ldr q18, [x0, #240] -mla z27.d, P0/M, z22.d, z31.d -sub z22.d, z18.d, z29.d -add z18.d, z18.d, z29.d -sqrdmulh z29.d, z20.d, z0.d[0] -str q30, [x0, #1760] -mul z20.d, z20.d,z1.d[0] -ldr q30, [x0, #496] -mla z26.d, P0/M, z23.d, z31.d -sub z23.d, z30.d, z27.d -add z30.d, z30.d, z27.d -sqrdmulh z27.d, z24.d, z0.d[1] -str q19, [x0, #2016] -mul z24.d, z24.d,z1.d[1] -mla z20.d, P0/M, z29.d, z31.d -sub z29.d, z30.d, z26.d -add z30.d, z30.d, z26.d -sqrdmulh z26.d, z21.d, z0.d[1] -str q25, [x0, #1248] -mul z21.d, z21.d,z1.d[1] -mla z24.d, P0/M, z27.d, z31.d -sub z27.d, z18.d, z20.d -add z18.d, z18.d, z20.d -sqrdmulh z20.d, z30.d, z14.d[0] -str q28, [x0, #1504] -mul z30.d, z30.d,z15.d[0] -mla z21.d, P0/M, z26.d, z31.d -sub z26.d, z23.d, z24.d -add z23.d, z23.d, z24.d -sqrdmulh z24.d, z29.d, z14.d[1] -mul z29.d, z29.d,z15.d[1] -mla z30.d, P0/M, z20.d, z31.d -sub z20.d, z22.d, z21.d -add z22.d, z22.d, z21.d -sqrdmulh z21.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -ldr q28, [x0, #1792] -mla z29.d, P0/M, z24.d, z31.d -sub z24.d, z18.d, z30.d -add z18.d, z18.d, z30.d -sqrdmulh z30.d, z23.d, z12.d[0] -mul z23.d, z23.d,z13.d[0] -ldr q25, [x0, #1536] -mla z26.d, P0/M, z21.d, z31.d -sub z21.d, z27.d, z29.d -add z27.d, z27.d, z29.d -sqrdmulh z29.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -ldr q19, [x0, #1024] -mla z23.d, P0/M, z30.d, z31.d -sub z30.d, z20.d, z26.d -add z20.d, z20.d, z26.d -sqrdmulh z26.d, z25.d, z2.d[0] -str q18, [x0, #240] -mul z25.d, z25.d,z3.d[0] -ldr q18, [x0, #1280] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z22.d, z23.d -add z22.d, z22.d, z23.d -sqrdmulh z23.d, z19.d, z2.d[0] -str q24, [x0, #496] -mul z19.d, z19.d,z3.d[0] -ldr q24, [x0, #768] -mla z25.d, P0/M, z26.d, z31.d -sub z26.d, z24.d, z28.d -add z24.d, z24.d, z28.d -sqrdmulh z28.d, z18.d, z2.d[0] -str q27, [x0, #752] -mul z18.d, z18.d,z3.d[0] -ldr q27, [x0, #512] -mla z19.d, P0/M, z23.d, z31.d -sub z23.d, z27.d, z25.d -add z27.d, z27.d, z25.d -sqrdmulh z25.d, z24.d, z0.d[0] -str q21, [x0, #1008] -mul z24.d, z24.d,z1.d[0] -ldr q21, [x0, #0] -mla z18.d, P0/M, z28.d, z31.d -sub z28.d, z21.d, z19.d -add z21.d, z21.d, z19.d -sqrdmulh z19.d, z27.d, z0.d[0] -str q20, [x0, #1776] -mul z27.d, z27.d,z1.d[0] -ldr q20, [x0, #256] -mla z24.d, P0/M, z25.d, z31.d -sub z25.d, z20.d, z18.d -add z20.d, z20.d, z18.d -sqrdmulh z18.d, z26.d, z0.d[1] -str q30, [x0, #2032] -mul z26.d, z26.d,z1.d[1] -mla z27.d, P0/M, z19.d, z31.d -sub z19.d, z20.d, z24.d -add z20.d, z20.d, z24.d -sqrdmulh z24.d, z23.d, z0.d[1] -str q22, [x0, #1264] -mul z23.d, z23.d,z1.d[1] -mla z26.d, P0/M, z18.d, z31.d -sub z18.d, z21.d, z27.d -add z21.d, z21.d, z27.d -sqrdmulh z27.d, z20.d, z14.d[0] -str q29, [x0, #1520] -mul z20.d, z20.d,z15.d[0] -mla z23.d, P0/M, z24.d, z31.d -sub z24.d, z25.d, z26.d -add z25.d, z25.d, z26.d -sqrdmulh z26.d, z19.d, z14.d[1] -mul z19.d, z19.d,z15.d[1] -mla z20.d, P0/M, z27.d, z31.d -sub z27.d, z28.d, z23.d -add z28.d, z28.d, z23.d -sqrdmulh z23.d, z24.d, z12.d[1] -mul z24.d, z24.d,z13.d[1] -ldr q29, [x0, #1808] -mla z19.d, P0/M, z26.d, z31.d -sub z26.d, z21.d, z20.d -add z21.d, z21.d, z20.d -sqrdmulh z20.d, z25.d, z12.d[0] -mul z25.d, z25.d,z13.d[0] -ldr q22, [x0, #1552] -mla z24.d, P0/M, z23.d, z31.d -sub z23.d, z18.d, z19.d -add z18.d, z18.d, z19.d -sqrdmulh z19.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -ldr q30, [x0, #1040] -mla z25.d, P0/M, z20.d, z31.d -sub z20.d, z27.d, z24.d -add z27.d, z27.d, z24.d -sqrdmulh z24.d, z22.d, z2.d[0] -str q21, [x0, #0] -mul z22.d, z22.d,z3.d[0] -ldr q21, [x0, #1296] -mla z29.d, P0/M, z19.d, z31.d -sub z19.d, z28.d, z25.d -add z28.d, z28.d, z25.d -sqrdmulh z25.d, z30.d, z2.d[0] -str q26, [x0, #256] -mul z30.d, z30.d,z3.d[0] -ldr q26, [x0, #784] -mla z22.d, P0/M, z24.d, z31.d -sub z24.d, z26.d, z29.d -add z26.d, z26.d, z29.d -sqrdmulh z29.d, z21.d, z2.d[0] -str q18, [x0, #512] -mul z21.d, z21.d,z3.d[0] -ldr q18, [x0, #528] -mla z30.d, P0/M, z25.d, z31.d -sub z25.d, z18.d, z22.d -add z18.d, z18.d, z22.d -sqrdmulh z22.d, z26.d, z0.d[0] -str q23, [x0, #768] -mul z26.d, z26.d,z1.d[0] -ldr q23, [x0, #16] -mla z21.d, P0/M, z29.d, z31.d -sub z29.d, z23.d, z30.d -add z23.d, z23.d, z30.d -sqrdmulh z30.d, z18.d, z0.d[0] -str q27, [x0, #1536] -mul z18.d, z18.d,z1.d[0] -ldr q27, [x0, #272] -mla z26.d, P0/M, z22.d, z31.d -sub z22.d, z27.d, z21.d -add z27.d, z27.d, z21.d -sqrdmulh z21.d, z24.d, z0.d[1] -str q20, [x0, #1792] -mul z24.d, z24.d,z1.d[1] -mla z18.d, P0/M, z30.d, z31.d -sub z30.d, z27.d, z26.d -add z27.d, z27.d, z26.d -sqrdmulh z26.d, z25.d, z0.d[1] -str q28, [x0, #1024] -mul z25.d, z25.d,z1.d[1] -mla z24.d, P0/M, z21.d, z31.d -sub z21.d, z23.d, z18.d -add z23.d, z23.d, z18.d -sqrdmulh z18.d, z27.d, z14.d[0] -str q19, [x0, #1280] -mul z27.d, z27.d,z15.d[0] -mla z25.d, P0/M, z26.d, z31.d -sub z26.d, z22.d, z24.d -add z22.d, z22.d, z24.d -sqrdmulh z24.d, z30.d, z14.d[1] -mul z30.d, z30.d,z15.d[1] -mla z27.d, P0/M, z18.d, z31.d -sub z18.d, z29.d, z25.d -add z29.d, z29.d, z25.d -sqrdmulh z25.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -ldr q19, [x0, #1824] -mla z30.d, P0/M, z24.d, z31.d -sub z24.d, z23.d, z27.d -add z23.d, z23.d, z27.d -sqrdmulh z27.d, z22.d, z12.d[0] -mul z22.d, z22.d,z13.d[0] -ldr q28, [x0, #1568] -mla z26.d, P0/M, z25.d, z31.d -sub z25.d, z21.d, z30.d -add z21.d, z21.d, z30.d -sqrdmulh z30.d, z19.d, z2.d[0] -mul z19.d, z19.d,z3.d[0] -ldr q20, [x0, #1056] -mla z22.d, P0/M, z27.d, z31.d -sub z27.d, z18.d, z26.d -add z18.d, z18.d, z26.d -sqrdmulh z26.d, z28.d, z2.d[0] -str q23, [x0, #16] -mul z28.d, z28.d,z3.d[0] -ldr q23, [x0, #1312] -mla z19.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z22.d -add z29.d, z29.d, z22.d -sqrdmulh z22.d, z20.d, z2.d[0] -str q24, [x0, #272] -mul z20.d, z20.d,z3.d[0] -ldr q24, [x0, #800] -mla z28.d, P0/M, z26.d, z31.d -sub z26.d, z24.d, z19.d -add z24.d, z24.d, z19.d -sqrdmulh z19.d, z23.d, z2.d[0] -str q21, [x0, #528] -mul z23.d, z23.d,z3.d[0] -ldr q21, [x0, #544] -mla z20.d, P0/M, z22.d, z31.d -sub z22.d, z21.d, z28.d -add z21.d, z21.d, z28.d -sqrdmulh z28.d, z24.d, z0.d[0] -str q25, [x0, #784] -mul z24.d, z24.d,z1.d[0] -ldr q25, [x0, #32] -mla z23.d, P0/M, z19.d, z31.d -sub z19.d, z25.d, z20.d -add z25.d, z25.d, z20.d -sqrdmulh z20.d, z21.d, z0.d[0] -str q18, [x0, #1552] -mul z21.d, z21.d,z1.d[0] -ldr q18, [x0, #288] -mla z24.d, P0/M, z28.d, z31.d -sub z28.d, z18.d, z23.d -add z18.d, z18.d, z23.d -sqrdmulh z23.d, z26.d, z0.d[1] -str q27, [x0, #1808] -mul z26.d, z26.d,z1.d[1] -mla z21.d, P0/M, z20.d, z31.d -sub z20.d, z18.d, z24.d -add z18.d, z18.d, z24.d -sqrdmulh z24.d, z22.d, z0.d[1] -str q29, [x0, #1040] -mul z22.d, z22.d,z1.d[1] -mla z26.d, P0/M, z23.d, z31.d -sub z23.d, z25.d, z21.d -add z25.d, z25.d, z21.d -sqrdmulh z21.d, z18.d, z14.d[0] -str q30, [x0, #1296] -mul z18.d, z18.d,z15.d[0] -mla z22.d, P0/M, z24.d, z31.d -sub z24.d, z28.d, z26.d -add z28.d, z28.d, z26.d -sqrdmulh z26.d, z20.d, z14.d[1] -mul z20.d, z20.d,z15.d[1] -mla z18.d, P0/M, z21.d, z31.d -sub z21.d, z19.d, z22.d -add z19.d, z19.d, z22.d -sqrdmulh z22.d, z24.d, z12.d[1] -mul z24.d, z24.d,z13.d[1] -ldr q30, [x0, #1840] -mla z20.d, P0/M, z26.d, z31.d -sub z26.d, z25.d, z18.d -add z25.d, z25.d, z18.d -sqrdmulh z18.d, z28.d, z12.d[0] -mul z28.d, z28.d,z13.d[0] -ldr q29, [x0, #1584] -mla z24.d, P0/M, z22.d, z31.d -sub z22.d, z23.d, z20.d -add z23.d, z23.d, z20.d -sqrdmulh z20.d, z30.d, z2.d[0] -mul z30.d, z30.d,z3.d[0] -ldr q27, [x0, #1072] -mla z28.d, P0/M, z18.d, z31.d -sub z18.d, z21.d, z24.d -add z21.d, z21.d, z24.d -sqrdmulh z24.d, z29.d, z2.d[0] -str q25, [x0, #32] -mul z29.d, z29.d,z3.d[0] -ldr q25, [x0, #1328] -mla z30.d, P0/M, z20.d, z31.d -sub z20.d, z19.d, z28.d -add z19.d, z19.d, z28.d -sqrdmulh z28.d, z27.d, z2.d[0] -str q26, [x0, #288] -mul z27.d, z27.d,z3.d[0] -ldr q26, [x0, #816] -mla z29.d, P0/M, z24.d, z31.d -sub z24.d, z26.d, z30.d -add z26.d, z26.d, z30.d -sqrdmulh z30.d, z25.d, z2.d[0] -str q23, [x0, #544] -mul z25.d, z25.d,z3.d[0] -ldr q23, [x0, #560] -mla z27.d, P0/M, z28.d, z31.d -sub z28.d, z23.d, z29.d -add z23.d, z23.d, z29.d -sqrdmulh z29.d, z26.d, z0.d[0] -str q22, [x0, #800] -mul z26.d, z26.d,z1.d[0] -ldr q22, [x0, #48] -mla z25.d, P0/M, z30.d, z31.d -sub z30.d, z22.d, z27.d -add z22.d, z22.d, z27.d -sqrdmulh z27.d, z23.d, z0.d[0] -str q21, [x0, #1568] -mul z23.d, z23.d,z1.d[0] -ldr q21, [x0, #304] -mla z26.d, P0/M, z29.d, z31.d -sub z29.d, z21.d, z25.d -add z21.d, z21.d, z25.d -sqrdmulh z25.d, z24.d, z0.d[1] -str q18, [x0, #1824] -mul z24.d, z24.d,z1.d[1] -mla z23.d, P0/M, z27.d, z31.d -sub z27.d, z21.d, z26.d -add z21.d, z21.d, z26.d -sqrdmulh z26.d, z28.d, z0.d[1] -str q19, [x0, #1056] -mul z28.d, z28.d,z1.d[1] -mla z24.d, P0/M, z25.d, z31.d -sub z25.d, z22.d, z23.d -add z22.d, z22.d, z23.d -sqrdmulh z23.d, z21.d, z14.d[0] -str q20, [x0, #1312] -mul z21.d, z21.d,z15.d[0] -mla z28.d, P0/M, z26.d, z31.d -sub z26.d, z29.d, z24.d -add z29.d, z29.d, z24.d -sqrdmulh z24.d, z27.d, z14.d[1] -mul z27.d, z27.d,z15.d[1] -mla z21.d, P0/M, z23.d, z31.d -sub z23.d, z30.d, z28.d -add z30.d, z30.d, z28.d -sqrdmulh z28.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -ldr q20, [x0, #1856] -mla z27.d, P0/M, z24.d, z31.d -sub z24.d, z22.d, z21.d -add z22.d, z22.d, z21.d -sqrdmulh z21.d, z29.d, z12.d[0] -mul z29.d, z29.d,z13.d[0] -ldr q19, [x0, #1600] -mla z26.d, P0/M, z28.d, z31.d -sub z28.d, z25.d, z27.d -add z25.d, z25.d, z27.d -sqrdmulh z27.d, z20.d, z2.d[0] -mul z20.d, z20.d,z3.d[0] -ldr q18, [x0, #1088] -mla z29.d, P0/M, z21.d, z31.d -sub z21.d, z23.d, z26.d -add z23.d, z23.d, z26.d -sqrdmulh z26.d, z19.d, z2.d[0] -str q22, [x0, #48] -mul z19.d, z19.d,z3.d[0] -ldr q22, [x0, #1344] -mla z20.d, P0/M, z27.d, z31.d -sub z27.d, z30.d, z29.d -add z30.d, z30.d, z29.d -sqrdmulh z29.d, z18.d, z2.d[0] -str q24, [x0, #304] -mul z18.d, z18.d,z3.d[0] -ldr q24, [x0, #832] -mla z19.d, P0/M, z26.d, z31.d -sub z26.d, z24.d, z20.d -add z24.d, z24.d, z20.d -sqrdmulh z20.d, z22.d, z2.d[0] -str q25, [x0, #560] -mul z22.d, z22.d,z3.d[0] -ldr q25, [x0, #576] -mla z18.d, P0/M, z29.d, z31.d -sub z29.d, z25.d, z19.d -add z25.d, z25.d, z19.d -sqrdmulh z19.d, z24.d, z0.d[0] -str q28, [x0, #816] -mul z24.d, z24.d,z1.d[0] -ldr q28, [x0, #64] -mla z22.d, P0/M, z20.d, z31.d -sub z20.d, z28.d, z18.d -add z28.d, z28.d, z18.d -sqrdmulh z18.d, z25.d, z0.d[0] -str q23, [x0, #1584] -mul z25.d, z25.d,z1.d[0] -ldr q23, [x0, #320] -mla z24.d, P0/M, z19.d, z31.d -sub z19.d, z23.d, z22.d -add z23.d, z23.d, z22.d -sqrdmulh z22.d, z26.d, z0.d[1] -str q21, [x0, #1840] -mul z26.d, z26.d,z1.d[1] -mla z25.d, P0/M, z18.d, z31.d -sub z18.d, z23.d, z24.d -add z23.d, z23.d, z24.d -sqrdmulh z24.d, z29.d, z0.d[1] -str q30, [x0, #1072] -mul z29.d, z29.d,z1.d[1] -mla z26.d, P0/M, z22.d, z31.d -sub z22.d, z28.d, z25.d -add z28.d, z28.d, z25.d -sqrdmulh z25.d, z23.d, z14.d[0] -str q27, [x0, #1328] -mul z23.d, z23.d,z15.d[0] -mla z29.d, P0/M, z24.d, z31.d -sub z24.d, z19.d, z26.d -add z19.d, z19.d, z26.d -sqrdmulh z26.d, z18.d, z14.d[1] -mul z18.d, z18.d,z15.d[1] -mla z23.d, P0/M, z25.d, z31.d -sub z25.d, z20.d, z29.d -add z20.d, z20.d, z29.d -sqrdmulh z29.d, z24.d, z12.d[1] -mul z24.d, z24.d,z13.d[1] -ldr q27, [x0, #1872] -mla z18.d, P0/M, z26.d, z31.d -sub z26.d, z28.d, z23.d -add z28.d, z28.d, z23.d -sqrdmulh z23.d, z19.d, z12.d[0] -mul z19.d, z19.d,z13.d[0] -ldr q30, [x0, #1616] -mla z24.d, P0/M, z29.d, z31.d -sub z29.d, z22.d, z18.d -add z22.d, z22.d, z18.d -sqrdmulh z18.d, z27.d, z2.d[0] -mul z27.d, z27.d,z3.d[0] -ldr q21, [x0, #1104] -mla z19.d, P0/M, z23.d, z31.d -sub z23.d, z25.d, z24.d -add z25.d, z25.d, z24.d -sqrdmulh z24.d, z30.d, z2.d[0] -str q28, [x0, #64] -mul z30.d, z30.d,z3.d[0] -ldr q28, [x0, #1360] -mla z27.d, P0/M, z18.d, z31.d -sub z18.d, z20.d, z19.d -add z20.d, z20.d, z19.d -sqrdmulh z19.d, z21.d, z2.d[0] -str q26, [x0, #320] -mul z21.d, z21.d,z3.d[0] -ldr q26, [x0, #848] -mla z30.d, P0/M, z24.d, z31.d -sub z24.d, z26.d, z27.d -add z26.d, z26.d, z27.d -sqrdmulh z27.d, z28.d, z2.d[0] -str q22, [x0, #576] -mul z28.d, z28.d,z3.d[0] -ldr q22, [x0, #592] -mla z21.d, P0/M, z19.d, z31.d -sub z19.d, z22.d, z30.d -add z22.d, z22.d, z30.d -sqrdmulh z30.d, z26.d, z0.d[0] -str q29, [x0, #832] -mul z26.d, z26.d,z1.d[0] -ldr q29, [x0, #80] -mla z28.d, P0/M, z27.d, z31.d -sub z27.d, z29.d, z21.d -add z29.d, z29.d, z21.d -sqrdmulh z21.d, z22.d, z0.d[0] -str q25, [x0, #1600] -mul z22.d, z22.d,z1.d[0] -ldr q25, [x0, #336] -mla z26.d, P0/M, z30.d, z31.d -sub z30.d, z25.d, z28.d -add z25.d, z25.d, z28.d -sqrdmulh z28.d, z24.d, z0.d[1] -str q23, [x0, #1856] -mul z24.d, z24.d,z1.d[1] -mla z22.d, P0/M, z21.d, z31.d -sub z21.d, z25.d, z26.d -add z25.d, z25.d, z26.d -sqrdmulh z26.d, z19.d, z0.d[1] -str q20, [x0, #1088] -mul z19.d, z19.d,z1.d[1] -mla z24.d, P0/M, z28.d, z31.d -sub z28.d, z29.d, z22.d -add z29.d, z29.d, z22.d -sqrdmulh z22.d, z25.d, z14.d[0] -str q18, [x0, #1344] -mul z25.d, z25.d,z15.d[0] -mla z19.d, P0/M, z26.d, z31.d -sub z26.d, z30.d, z24.d -add z30.d, z30.d, z24.d -sqrdmulh z24.d, z21.d, z14.d[1] -mul z21.d, z21.d,z15.d[1] -mla z25.d, P0/M, z22.d, z31.d -sub z22.d, z27.d, z19.d -add z27.d, z27.d, z19.d -sqrdmulh z19.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -ldr q18, [x0, #1888] -mla z21.d, P0/M, z24.d, z31.d -sub z24.d, z29.d, z25.d -add z29.d, z29.d, z25.d -sqrdmulh z25.d, z30.d, z12.d[0] -mul z30.d, z30.d,z13.d[0] -ldr q20, [x0, #1632] -mla z26.d, P0/M, z19.d, z31.d -sub z19.d, z28.d, z21.d -add z28.d, z28.d, z21.d -sqrdmulh z21.d, z18.d, z2.d[0] -mul z18.d, z18.d,z3.d[0] -ldr q23, [x0, #1120] -mla z30.d, P0/M, z25.d, z31.d -sub z25.d, z22.d, z26.d -add z22.d, z22.d, z26.d -sqrdmulh z26.d, z20.d, z2.d[0] -str q29, [x0, #80] -mul z20.d, z20.d,z3.d[0] -ldr q29, [x0, #1376] -mla z18.d, P0/M, z21.d, z31.d -sub z21.d, z27.d, z30.d -add z27.d, z27.d, z30.d -sqrdmulh z30.d, z23.d, z2.d[0] -str q24, [x0, #336] -mul z23.d, z23.d,z3.d[0] -ldr q24, [x0, #864] -mla z20.d, P0/M, z26.d, z31.d -sub z26.d, z24.d, z18.d -add z24.d, z24.d, z18.d -sqrdmulh z18.d, z29.d, z2.d[0] -str q28, [x0, #592] -mul z29.d, z29.d,z3.d[0] -ldr q28, [x0, #608] -mla z23.d, P0/M, z30.d, z31.d -sub z30.d, z28.d, z20.d -add z28.d, z28.d, z20.d -sqrdmulh z20.d, z24.d, z0.d[0] -str q19, [x0, #848] -mul z24.d, z24.d,z1.d[0] -ldr q19, [x0, #96] -mla z29.d, P0/M, z18.d, z31.d -sub z18.d, z19.d, z23.d -add z19.d, z19.d, z23.d -sqrdmulh z23.d, z28.d, z0.d[0] -str q22, [x0, #1616] -mul z28.d, z28.d,z1.d[0] -ldr q22, [x0, #352] -mla z24.d, P0/M, z20.d, z31.d -sub z20.d, z22.d, z29.d -add z22.d, z22.d, z29.d -sqrdmulh z29.d, z26.d, z0.d[1] -str q25, [x0, #1872] -mul z26.d, z26.d,z1.d[1] -mla z28.d, P0/M, z23.d, z31.d -sub z23.d, z22.d, z24.d -add z22.d, z22.d, z24.d -sqrdmulh z24.d, z30.d, z0.d[1] -str q27, [x0, #1104] -mul z30.d, z30.d,z1.d[1] -mla z26.d, P0/M, z29.d, z31.d -sub z29.d, z19.d, z28.d -add z19.d, z19.d, z28.d -sqrdmulh z28.d, z22.d, z14.d[0] -str q21, [x0, #1360] -mul z22.d, z22.d,z15.d[0] -mla z30.d, P0/M, z24.d, z31.d -sub z24.d, z20.d, z26.d -add z20.d, z20.d, z26.d -sqrdmulh z26.d, z23.d, z14.d[1] -mul z23.d, z23.d,z15.d[1] -mla z22.d, P0/M, z28.d, z31.d -sub z28.d, z18.d, z30.d -add z18.d, z18.d, z30.d -sqrdmulh z30.d, z24.d, z12.d[1] -mul z24.d, z24.d,z13.d[1] -ldr q21, [x0, #1904] -mla z23.d, P0/M, z26.d, z31.d -sub z26.d, z19.d, z22.d -add z19.d, z19.d, z22.d -sqrdmulh z22.d, z20.d, z12.d[0] -mul z20.d, z20.d,z13.d[0] -ldr q27, [x0, #1648] -mla z24.d, P0/M, z30.d, z31.d -sub z30.d, z29.d, z23.d -add z29.d, z29.d, z23.d -sqrdmulh z23.d, z21.d, z2.d[0] -mul z21.d, z21.d,z3.d[0] -ldr q25, [x0, #1136] -mla z20.d, P0/M, z22.d, z31.d -sub z22.d, z28.d, z24.d -add z28.d, z28.d, z24.d -sqrdmulh z24.d, z27.d, z2.d[0] -str q19, [x0, #96] -mul z27.d, z27.d,z3.d[0] -ldr q19, [x0, #1392] -mla z21.d, P0/M, z23.d, z31.d -sub z23.d, z18.d, z20.d -add z18.d, z18.d, z20.d -sqrdmulh z20.d, z25.d, z2.d[0] -str q26, [x0, #352] -mul z25.d, z25.d,z3.d[0] -ldr q26, [x0, #880] -mla z27.d, P0/M, z24.d, z31.d -sub z24.d, z26.d, z21.d -add z26.d, z26.d, z21.d -sqrdmulh z21.d, z19.d, z2.d[0] -str q29, [x0, #608] -mul z19.d, z19.d,z3.d[0] -ldr q29, [x0, #624] -mla z25.d, P0/M, z20.d, z31.d -sub z20.d, z29.d, z27.d -add z29.d, z29.d, z27.d -sqrdmulh z27.d, z26.d, z0.d[0] -str q30, [x0, #864] -mul z26.d, z26.d,z1.d[0] -ldr q30, [x0, #112] -mla z19.d, P0/M, z21.d, z31.d -sub z21.d, z30.d, z25.d -add z30.d, z30.d, z25.d -sqrdmulh z25.d, z29.d, z0.d[0] -str q28, [x0, #1632] -mul z29.d, z29.d,z1.d[0] -ldr q28, [x0, #368] -mla z26.d, P0/M, z27.d, z31.d -sub z27.d, z28.d, z19.d -add z28.d, z28.d, z19.d -sqrdmulh z19.d, z24.d, z0.d[1] -str q22, [x0, #1888] -mul z24.d, z24.d,z1.d[1] -mla z29.d, P0/M, z25.d, z31.d -sub z25.d, z28.d, z26.d -add z28.d, z28.d, z26.d -sqrdmulh z26.d, z20.d, z0.d[1] -str q18, [x0, #1120] -mul z20.d, z20.d,z1.d[1] -mla z24.d, P0/M, z19.d, z31.d -sub z19.d, z30.d, z29.d -add z30.d, z30.d, z29.d -sqrdmulh z29.d, z28.d, z14.d[0] -str q23, [x0, #1376] -mul z28.d, z28.d,z15.d[0] -mla z20.d, P0/M, z26.d, z31.d -sub z26.d, z27.d, z24.d -add z27.d, z27.d, z24.d -sqrdmulh z24.d, z25.d, z14.d[1] -mul z25.d, z25.d,z15.d[1] -mla z28.d, P0/M, z29.d, z31.d -sub z29.d, z21.d, z20.d -add z21.d, z21.d, z20.d -sqrdmulh z20.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -mla z25.d, P0/M, z24.d, z31.d -sub z24.d, z30.d, z28.d -add z30.d, z30.d, z28.d -sqrdmulh z28.d, z27.d, z12.d[0] -mul z27.d, z27.d,z13.d[0] -mla z26.d, P0/M, z20.d, z31.d -sub z20.d, z19.d, z25.d -add z19.d, z19.d, z25.d -mla z27.d, P0/M, z28.d, z31.d -sub z28.d, z29.d, z26.d -add z29.d, z29.d, z26.d -str q30, [x0, #112] -sub z30.d, z21.d, z27.d -add z21.d, z21.d, z27.d -str q24, [x0, #368] -str q19, [x0, #624] -str q20, [x0, #880] -str q29, [x0, #1648] -str q28, [x0, #1904] -str q21, [x0, #1136] -str q30, [x0, #1392] -ldr q4, [x17, #+128] -ldr q5, [x17, #+144] -ldr q6, [x17, #+160] -ldr q7, [x17, #+176] -ldr q8, [x17, #+192] -ldr q9, [x17, #+208] -ldr q10, [x17, #+224] -ldr q11, [x17, #+240] -ldr q16, [x0, #240] -ldr q17, [x0, #208] -sqrdmulh z22.d, z16.d, z5.d[0] -mul z16.d, z16.d,z4.d[0] -ldr q18, [x0, #144] -sqrdmulh z23.d, z17.d, z5.d[0] -mul z17.d, z17.d,z4.d[0] -ldr q25, [x0, #176] -mla z16.d, P0/M, z22.d, z31.d -sqrdmulh z22.d, z18.d, z5.d[0] -mul z18.d, z18.d,z4.d[0] -ldr q26, [x0, #112] -mla z17.d, P0/M, z23.d, z31.d -sub z23.d, z26.d, z16.d -add z26.d, z26.d, z16.d -sqrdmulh z16.d, z25.d, z5.d[0] -mul z25.d, z25.d,z4.d[0] -ldr q27, [x0, #80] -mla z18.d, P0/M, z22.d, z31.d -sub z22.d, z27.d, z17.d -add z27.d, z27.d, z17.d -sqrdmulh z17.d, z26.d, z7.d[0] -mul z26.d, z26.d,z6.d[0] -ldr q24, [x0, #16] -mla z25.d, P0/M, z16.d, z31.d -sub z16.d, z24.d, z18.d -add z24.d, z24.d, z18.d -sqrdmulh z18.d, z27.d, z7.d[0] -mul z27.d, z27.d,z6.d[0] -ldr q19, [x0, #48] -mla z26.d, P0/M, z17.d, z31.d -sub z17.d, z19.d, z25.d -add z19.d, z19.d, z25.d -sqrdmulh z25.d, z23.d, z7.d[1] -mul z23.d, z23.d,z6.d[1] -mla z27.d, P0/M, z18.d, z31.d -sub z18.d, z19.d, z26.d -add z19.d, z19.d, z26.d -sqrdmulh z26.d, z22.d, z7.d[1] -mul z22.d, z22.d,z6.d[1] -mla z23.d, P0/M, z25.d, z31.d -sub z25.d, z24.d, z27.d -add z24.d, z24.d, z27.d -sqrdmulh z27.d, z19.d, z9.d[0] -mul z19.d, z19.d,z8.d[0] -mla z22.d, P0/M, z26.d, z31.d -sub z26.d, z17.d, z23.d -add z17.d, z17.d, z23.d -sqrdmulh z23.d, z18.d, z9.d[1] -mul z18.d, z18.d,z8.d[1] -mla z19.d, P0/M, z27.d, z31.d -sub z27.d, z16.d, z22.d -add z16.d, z16.d, z22.d -sqrdmulh z22.d, z26.d, z11.d[1] -mul z26.d, z26.d,z10.d[1] -ldr q20, [x0, #224] -mla z18.d, P0/M, z23.d, z31.d -sub z23.d, z24.d, z19.d -add z24.d, z24.d, z19.d -sqrdmulh z19.d, z17.d, z11.d[0] -mul z17.d, z17.d,z10.d[0] -ldr q29, [x0, #192] -mla z26.d, P0/M, z22.d, z31.d -sub z22.d, z25.d, z18.d -add z25.d, z25.d, z18.d -sqrdmulh z18.d, z20.d, z5.d[0] -mul z20.d, z20.d,z4.d[0] -ldr q28, [x0, #128] -mla z17.d, P0/M, z19.d, z31.d -sub z19.d, z27.d, z26.d -add z27.d, z27.d, z26.d -sqrdmulh z26.d, z29.d, z5.d[0] -str q24, [x0, #16] -mul z29.d, z29.d,z4.d[0] -ldr q24, [x0, #160] -mla z20.d, P0/M, z18.d, z31.d -sub z18.d, z16.d, z17.d -add z16.d, z16.d, z17.d -sqrdmulh z17.d, z28.d, z5.d[0] -str q23, [x0, #48] -mul z28.d, z28.d,z4.d[0] -ldr q23, [x0, #96] -mla z29.d, P0/M, z26.d, z31.d -sub z26.d, z23.d, z20.d -add z23.d, z23.d, z20.d -sqrdmulh z20.d, z24.d, z5.d[0] -str q25, [x0, #80] -mul z24.d, z24.d,z4.d[0] -ldr q25, [x0, #64] -mla z28.d, P0/M, z17.d, z31.d -sub z17.d, z25.d, z29.d -add z25.d, z25.d, z29.d -sqrdmulh z29.d, z23.d, z7.d[0] -str q22, [x0, #112] -mul z23.d, z23.d,z6.d[0] -ldr q22, [x0, #0] -mla z24.d, P0/M, z20.d, z31.d -sub z20.d, z22.d, z28.d -add z22.d, z22.d, z28.d -sqrdmulh z28.d, z25.d, z7.d[0] -str q27, [x0, #208] -mul z25.d, z25.d,z6.d[0] -ldr q27, [x0, #32] -mla z23.d, P0/M, z29.d, z31.d -sub z29.d, z27.d, z24.d -add z27.d, z27.d, z24.d -sqrdmulh z24.d, z26.d, z7.d[1] -str q19, [x0, #240] -mul z26.d, z26.d,z6.d[1] -mla z25.d, P0/M, z28.d, z31.d -sub z28.d, z27.d, z23.d -add z27.d, z27.d, z23.d -sqrdmulh z23.d, z17.d, z7.d[1] -str q16, [x0, #144] -mul z17.d, z17.d,z6.d[1] -mla z26.d, P0/M, z24.d, z31.d -sub z24.d, z22.d, z25.d -add z22.d, z22.d, z25.d -ldr q3, [x17, #+256] -sqrdmulh z25.d, z27.d, z9.d[0] -str q18, [x0, #176] -mul z27.d, z27.d,z8.d[0] -mla z17.d, P0/M, z23.d, z31.d -sub z23.d, z29.d, z26.d -add z29.d, z29.d, z26.d -ldr q2, [x17, #+272] -sqrdmulh z26.d, z28.d, z9.d[1] -mul z28.d, z28.d,z8.d[1] -mla z27.d, P0/M, z25.d, z31.d -sub z25.d, z20.d, z17.d -add z20.d, z20.d, z17.d -ldr q1, [x17, #+288] -ldr q0, [x17, #+304] -ldr q15, [x17, #+320] -ldr q14, [x17, #+336] -ldr q13, [x17, #+352] -ldr q12, [x17, #+368] -sqrdmulh z17.d, z23.d, z11.d[1] -mul z23.d, z23.d,z10.d[1] -ldr q18, [x0, #496] -mla z28.d, P0/M, z26.d, z31.d -sub z26.d, z22.d, z27.d -add z22.d, z22.d, z27.d -sqrdmulh z27.d, z29.d, z11.d[0] -mul z29.d, z29.d,z10.d[0] -ldr q16, [x0, #464] -mla z23.d, P0/M, z17.d, z31.d -sub z17.d, z24.d, z28.d -add z24.d, z24.d, z28.d -sqrdmulh z28.d, z18.d, z2.d[0] -mul z18.d, z18.d,z3.d[0] -ldr q19, [x0, #400] -mla z29.d, P0/M, z27.d, z31.d -sub z27.d, z25.d, z23.d -add z25.d, z25.d, z23.d -sqrdmulh z23.d, z16.d, z2.d[0] -str q22, [x0, #0] -mul z16.d, z16.d,z3.d[0] -ldr q22, [x0, #432] -mla z18.d, P0/M, z28.d, z31.d -sub z28.d, z20.d, z29.d -add z20.d, z20.d, z29.d -sqrdmulh z29.d, z19.d, z2.d[0] -str q26, [x0, #32] -mul z19.d, z19.d,z3.d[0] -ldr q26, [x0, #368] -mla z16.d, P0/M, z23.d, z31.d -sub z23.d, z26.d, z18.d -add z26.d, z26.d, z18.d -sqrdmulh z18.d, z22.d, z2.d[0] -str q24, [x0, #64] -mul z22.d, z22.d,z3.d[0] -ldr q24, [x0, #336] -mla z19.d, P0/M, z29.d, z31.d -sub z29.d, z24.d, z16.d -add z24.d, z24.d, z16.d -sqrdmulh z16.d, z26.d, z0.d[0] -str q17, [x0, #96] -mul z26.d, z26.d,z1.d[0] -ldr q17, [x0, #272] -mla z22.d, P0/M, z18.d, z31.d -sub z18.d, z17.d, z19.d -add z17.d, z17.d, z19.d -sqrdmulh z19.d, z24.d, z0.d[0] -str q25, [x0, #192] -mul z24.d, z24.d,z1.d[0] -ldr q25, [x0, #304] -mla z26.d, P0/M, z16.d, z31.d -sub z16.d, z25.d, z22.d -add z25.d, z25.d, z22.d -sqrdmulh z22.d, z23.d, z0.d[1] -str q27, [x0, #224] -mul z23.d, z23.d,z1.d[1] -mla z24.d, P0/M, z19.d, z31.d -sub z19.d, z25.d, z26.d -add z25.d, z25.d, z26.d -sqrdmulh z26.d, z29.d, z0.d[1] -str q20, [x0, #128] -mul z29.d, z29.d,z1.d[1] -mla z23.d, P0/M, z22.d, z31.d -sub z22.d, z17.d, z24.d -add z17.d, z17.d, z24.d -sqrdmulh z24.d, z25.d, z14.d[0] -str q28, [x0, #160] -mul z25.d, z25.d,z15.d[0] -mla z29.d, P0/M, z26.d, z31.d -sub z26.d, z16.d, z23.d -add z16.d, z16.d, z23.d -sqrdmulh z23.d, z19.d, z14.d[1] -mul z19.d, z19.d,z15.d[1] -mla z25.d, P0/M, z24.d, z31.d -sub z24.d, z18.d, z29.d -add z18.d, z18.d, z29.d -sqrdmulh z29.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -ldr q28, [x0, #480] -mla z19.d, P0/M, z23.d, z31.d -sub z23.d, z17.d, z25.d -add z17.d, z17.d, z25.d -sqrdmulh z25.d, z16.d, z12.d[0] -mul z16.d, z16.d,z13.d[0] -ldr q20, [x0, #448] -mla z26.d, P0/M, z29.d, z31.d -sub z29.d, z22.d, z19.d -add z22.d, z22.d, z19.d -sqrdmulh z19.d, z28.d, z2.d[0] -mul z28.d, z28.d,z3.d[0] -ldr q27, [x0, #384] -mla z16.d, P0/M, z25.d, z31.d -sub z25.d, z24.d, z26.d -add z24.d, z24.d, z26.d -sqrdmulh z26.d, z20.d, z2.d[0] -str q17, [x0, #272] -mul z20.d, z20.d,z3.d[0] -ldr q17, [x0, #416] -mla z28.d, P0/M, z19.d, z31.d -sub z19.d, z18.d, z16.d -add z18.d, z18.d, z16.d -sqrdmulh z16.d, z27.d, z2.d[0] -str q23, [x0, #304] -mul z27.d, z27.d,z3.d[0] -ldr q23, [x0, #352] -mla z20.d, P0/M, z26.d, z31.d -sub z26.d, z23.d, z28.d -add z23.d, z23.d, z28.d -sqrdmulh z28.d, z17.d, z2.d[0] -str q22, [x0, #336] -mul z17.d, z17.d,z3.d[0] -ldr q22, [x0, #320] -mla z27.d, P0/M, z16.d, z31.d -sub z16.d, z22.d, z20.d -add z22.d, z22.d, z20.d -sqrdmulh z20.d, z23.d, z0.d[0] -str q29, [x0, #368] -mul z23.d, z23.d,z1.d[0] -ldr q29, [x0, #256] -mla z17.d, P0/M, z28.d, z31.d -sub z28.d, z29.d, z27.d -add z29.d, z29.d, z27.d -sqrdmulh z27.d, z22.d, z0.d[0] -str q24, [x0, #464] -mul z22.d, z22.d,z1.d[0] -ldr q24, [x0, #288] -mla z23.d, P0/M, z20.d, z31.d -sub z20.d, z24.d, z17.d -add z24.d, z24.d, z17.d -sqrdmulh z17.d, z26.d, z0.d[1] -str q25, [x0, #496] -mul z26.d, z26.d,z1.d[1] -mla z22.d, P0/M, z27.d, z31.d -sub z27.d, z24.d, z23.d -add z24.d, z24.d, z23.d -sqrdmulh z23.d, z16.d, z0.d[1] -str q18, [x0, #400] -mul z16.d, z16.d,z1.d[1] -mla z26.d, P0/M, z17.d, z31.d -sub z17.d, z29.d, z22.d -add z29.d, z29.d, z22.d -ldr q11, [x17, #+384] -sqrdmulh z22.d, z24.d, z14.d[0] -str q19, [x0, #432] -mul z24.d, z24.d,z15.d[0] -mla z16.d, P0/M, z23.d, z31.d -sub z23.d, z20.d, z26.d -add z20.d, z20.d, z26.d -ldr q10, [x17, #+400] -sqrdmulh z26.d, z27.d, z14.d[1] -mul z27.d, z27.d,z15.d[1] -mla z24.d, P0/M, z22.d, z31.d -sub z22.d, z28.d, z16.d -add z28.d, z28.d, z16.d -ldr q9, [x17, #+416] -ldr q8, [x17, #+432] -ldr q7, [x17, #+448] -ldr q6, [x17, #+464] -ldr q5, [x17, #+480] -ldr q4, [x17, #+496] -sqrdmulh z16.d, z23.d, z12.d[1] -mul z23.d, z23.d,z13.d[1] -ldr q19, [x0, #752] -mla z27.d, P0/M, z26.d, z31.d -sub z26.d, z29.d, z24.d -add z29.d, z29.d, z24.d -sqrdmulh z24.d, z20.d, z12.d[0] -mul z20.d, z20.d,z13.d[0] -ldr q18, [x0, #720] -mla z23.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z27.d -add z17.d, z17.d, z27.d -sqrdmulh z27.d, z19.d, z10.d[0] -mul z19.d, z19.d,z11.d[0] -ldr q25, [x0, #656] -mla z20.d, P0/M, z24.d, z31.d -sub z24.d, z22.d, z23.d -add z22.d, z22.d, z23.d -sqrdmulh z23.d, z18.d, z10.d[0] -str q29, [x0, #256] -mul z18.d, z18.d,z11.d[0] -ldr q29, [x0, #688] -mla z19.d, P0/M, z27.d, z31.d -sub z27.d, z28.d, z20.d -add z28.d, z28.d, z20.d -sqrdmulh z20.d, z25.d, z10.d[0] -str q26, [x0, #288] -mul z25.d, z25.d,z11.d[0] -ldr q26, [x0, #624] -mla z18.d, P0/M, z23.d, z31.d -sub z23.d, z26.d, z19.d -add z26.d, z26.d, z19.d -sqrdmulh z19.d, z29.d, z10.d[0] -str q17, [x0, #320] -mul z29.d, z29.d,z11.d[0] -ldr q17, [x0, #592] -mla z25.d, P0/M, z20.d, z31.d -sub z20.d, z17.d, z18.d -add z17.d, z17.d, z18.d -sqrdmulh z18.d, z26.d, z8.d[0] -str q16, [x0, #352] -mul z26.d, z26.d,z9.d[0] -ldr q16, [x0, #528] -mla z29.d, P0/M, z19.d, z31.d -sub z19.d, z16.d, z25.d -add z16.d, z16.d, z25.d -sqrdmulh z25.d, z17.d, z8.d[0] -str q22, [x0, #448] -mul z17.d, z17.d,z9.d[0] -ldr q22, [x0, #560] -mla z26.d, P0/M, z18.d, z31.d -sub z18.d, z22.d, z29.d -add z22.d, z22.d, z29.d -sqrdmulh z29.d, z23.d, z8.d[1] -str q24, [x0, #480] -mul z23.d, z23.d,z9.d[1] -mla z17.d, P0/M, z25.d, z31.d -sub z25.d, z22.d, z26.d -add z22.d, z22.d, z26.d -sqrdmulh z26.d, z20.d, z8.d[1] -str q28, [x0, #384] -mul z20.d, z20.d,z9.d[1] -mla z23.d, P0/M, z29.d, z31.d -sub z29.d, z16.d, z17.d -add z16.d, z16.d, z17.d -sqrdmulh z17.d, z22.d, z6.d[0] -str q27, [x0, #416] -mul z22.d, z22.d,z7.d[0] -mla z20.d, P0/M, z26.d, z31.d -sub z26.d, z18.d, z23.d -add z18.d, z18.d, z23.d -sqrdmulh z23.d, z25.d, z6.d[1] -mul z25.d, z25.d,z7.d[1] -mla z22.d, P0/M, z17.d, z31.d -sub z17.d, z19.d, z20.d -add z19.d, z19.d, z20.d -sqrdmulh z20.d, z26.d, z4.d[1] -mul z26.d, z26.d,z5.d[1] -ldr q27, [x0, #736] -mla z25.d, P0/M, z23.d, z31.d -sub z23.d, z16.d, z22.d -add z16.d, z16.d, z22.d -sqrdmulh z22.d, z18.d, z4.d[0] -mul z18.d, z18.d,z5.d[0] -ldr q28, [x0, #704] -mla z26.d, P0/M, z20.d, z31.d -sub z20.d, z29.d, z25.d -add z29.d, z29.d, z25.d -sqrdmulh z25.d, z27.d, z10.d[0] -mul z27.d, z27.d,z11.d[0] -ldr q24, [x0, #640] -mla z18.d, P0/M, z22.d, z31.d -sub z22.d, z17.d, z26.d -add z17.d, z17.d, z26.d -sqrdmulh z26.d, z28.d, z10.d[0] -str q16, [x0, #528] -mul z28.d, z28.d,z11.d[0] -ldr q16, [x0, #672] -mla z27.d, P0/M, z25.d, z31.d -sub z25.d, z19.d, z18.d -add z19.d, z19.d, z18.d -sqrdmulh z18.d, z24.d, z10.d[0] -str q23, [x0, #560] -mul z24.d, z24.d,z11.d[0] -ldr q23, [x0, #608] -mla z28.d, P0/M, z26.d, z31.d -sub z26.d, z23.d, z27.d -add z23.d, z23.d, z27.d -sqrdmulh z27.d, z16.d, z10.d[0] -str q29, [x0, #592] -mul z16.d, z16.d,z11.d[0] -ldr q29, [x0, #576] -mla z24.d, P0/M, z18.d, z31.d -sub z18.d, z29.d, z28.d -add z29.d, z29.d, z28.d -sqrdmulh z28.d, z23.d, z8.d[0] -str q20, [x0, #624] -mul z23.d, z23.d,z9.d[0] -ldr q20, [x0, #512] -mla z16.d, P0/M, z27.d, z31.d -sub z27.d, z20.d, z24.d -add z20.d, z20.d, z24.d -sqrdmulh z24.d, z29.d, z8.d[0] -str q17, [x0, #720] -mul z29.d, z29.d,z9.d[0] -ldr q17, [x0, #544] -mla z23.d, P0/M, z28.d, z31.d -sub z28.d, z17.d, z16.d -add z17.d, z17.d, z16.d -sqrdmulh z16.d, z26.d, z8.d[1] -str q22, [x0, #752] -mul z26.d, z26.d,z9.d[1] -mla z29.d, P0/M, z24.d, z31.d -sub z24.d, z17.d, z23.d -add z17.d, z17.d, z23.d -sqrdmulh z23.d, z18.d, z8.d[1] -str q19, [x0, #656] -mul z18.d, z18.d,z9.d[1] -mla z26.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z29.d -add z20.d, z20.d, z29.d -ldr q12, [x17, #+512] -sqrdmulh z29.d, z17.d, z6.d[0] -str q25, [x0, #688] -mul z17.d, z17.d,z7.d[0] -mla z18.d, P0/M, z23.d, z31.d -sub z23.d, z28.d, z26.d -add z28.d, z28.d, z26.d -ldr q13, [x17, #+528] -sqrdmulh z26.d, z24.d, z6.d[1] -mul z24.d, z24.d,z7.d[1] -mla z17.d, P0/M, z29.d, z31.d -sub z29.d, z27.d, z18.d -add z27.d, z27.d, z18.d -ldr q14, [x17, #+544] -ldr q15, [x17, #+560] -ldr q0, [x17, #+576] -ldr q1, [x17, #+592] -ldr q2, [x17, #+608] -ldr q3, [x17, #+624] -sqrdmulh z18.d, z23.d, z4.d[1] -mul z23.d, z23.d,z5.d[1] -ldr q25, [x0, #1008] -mla z24.d, P0/M, z26.d, z31.d -sub z26.d, z20.d, z17.d -add z20.d, z20.d, z17.d -sqrdmulh z17.d, z28.d, z4.d[0] -mul z28.d, z28.d,z5.d[0] -ldr q19, [x0, #976] -mla z23.d, P0/M, z18.d, z31.d -sub z18.d, z16.d, z24.d -add z16.d, z16.d, z24.d -sqrdmulh z24.d, z25.d, z13.d[0] -mul z25.d, z25.d,z12.d[0] -ldr q22, [x0, #912] -mla z28.d, P0/M, z17.d, z31.d -sub z17.d, z29.d, z23.d -add z29.d, z29.d, z23.d -sqrdmulh z23.d, z19.d, z13.d[0] -str q20, [x0, #512] -mul z19.d, z19.d,z12.d[0] -ldr q20, [x0, #944] -mla z25.d, P0/M, z24.d, z31.d -sub z24.d, z27.d, z28.d -add z27.d, z27.d, z28.d -sqrdmulh z28.d, z22.d, z13.d[0] -str q26, [x0, #544] -mul z22.d, z22.d,z12.d[0] -ldr q26, [x0, #880] -mla z19.d, P0/M, z23.d, z31.d -sub z23.d, z26.d, z25.d -add z26.d, z26.d, z25.d -sqrdmulh z25.d, z20.d, z13.d[0] -str q16, [x0, #576] -mul z20.d, z20.d,z12.d[0] -ldr q16, [x0, #848] -mla z22.d, P0/M, z28.d, z31.d -sub z28.d, z16.d, z19.d -add z16.d, z16.d, z19.d -sqrdmulh z19.d, z26.d, z15.d[0] -str q18, [x0, #608] -mul z26.d, z26.d,z14.d[0] -ldr q18, [x0, #784] -mla z20.d, P0/M, z25.d, z31.d -sub z25.d, z18.d, z22.d -add z18.d, z18.d, z22.d -sqrdmulh z22.d, z16.d, z15.d[0] -str q29, [x0, #704] -mul z16.d, z16.d,z14.d[0] -ldr q29, [x0, #816] -mla z26.d, P0/M, z19.d, z31.d -sub z19.d, z29.d, z20.d -add z29.d, z29.d, z20.d -sqrdmulh z20.d, z23.d, z15.d[1] -str q17, [x0, #736] -mul z23.d, z23.d,z14.d[1] -mla z16.d, P0/M, z22.d, z31.d -sub z22.d, z29.d, z26.d -add z29.d, z29.d, z26.d -sqrdmulh z26.d, z28.d, z15.d[1] -str q27, [x0, #640] -mul z28.d, z28.d,z14.d[1] -mla z23.d, P0/M, z20.d, z31.d -sub z20.d, z18.d, z16.d -add z18.d, z18.d, z16.d -sqrdmulh z16.d, z29.d, z1.d[0] -str q24, [x0, #672] -mul z29.d, z29.d,z0.d[0] -mla z28.d, P0/M, z26.d, z31.d -sub z26.d, z19.d, z23.d -add z19.d, z19.d, z23.d -sqrdmulh z23.d, z22.d, z1.d[1] -mul z22.d, z22.d,z0.d[1] -mla z29.d, P0/M, z16.d, z31.d -sub z16.d, z25.d, z28.d -add z25.d, z25.d, z28.d -sqrdmulh z28.d, z26.d, z3.d[1] -mul z26.d, z26.d,z2.d[1] -ldr q24, [x0, #992] -mla z22.d, P0/M, z23.d, z31.d -sub z23.d, z18.d, z29.d -add z18.d, z18.d, z29.d -sqrdmulh z29.d, z19.d, z3.d[0] -mul z19.d, z19.d,z2.d[0] -ldr q27, [x0, #960] -mla z26.d, P0/M, z28.d, z31.d -sub z28.d, z20.d, z22.d -add z20.d, z20.d, z22.d -sqrdmulh z22.d, z24.d, z13.d[0] -mul z24.d, z24.d,z12.d[0] -ldr q17, [x0, #896] -mla z19.d, P0/M, z29.d, z31.d -sub z29.d, z16.d, z26.d -add z16.d, z16.d, z26.d -sqrdmulh z26.d, z27.d, z13.d[0] -str q18, [x0, #784] -mul z27.d, z27.d,z12.d[0] -ldr q18, [x0, #928] -mla z24.d, P0/M, z22.d, z31.d -sub z22.d, z25.d, z19.d -add z25.d, z25.d, z19.d -sqrdmulh z19.d, z17.d, z13.d[0] -str q23, [x0, #816] -mul z17.d, z17.d,z12.d[0] -ldr q23, [x0, #864] -mla z27.d, P0/M, z26.d, z31.d -sub z26.d, z23.d, z24.d -add z23.d, z23.d, z24.d -sqrdmulh z24.d, z18.d, z13.d[0] -str q20, [x0, #848] -mul z18.d, z18.d,z12.d[0] -ldr q20, [x0, #832] -mla z17.d, P0/M, z19.d, z31.d -sub z19.d, z20.d, z27.d -add z20.d, z20.d, z27.d -sqrdmulh z27.d, z23.d, z15.d[0] -str q28, [x0, #880] -mul z23.d, z23.d,z14.d[0] -ldr q28, [x0, #768] -mla z18.d, P0/M, z24.d, z31.d -sub z24.d, z28.d, z17.d -add z28.d, z28.d, z17.d -sqrdmulh z17.d, z20.d, z15.d[0] -str q16, [x0, #976] -mul z20.d, z20.d,z14.d[0] -ldr q16, [x0, #800] -mla z23.d, P0/M, z27.d, z31.d -sub z27.d, z16.d, z18.d -add z16.d, z16.d, z18.d -sqrdmulh z18.d, z26.d, z15.d[1] -str q29, [x0, #1008] -mul z26.d, z26.d,z14.d[1] -mla z20.d, P0/M, z17.d, z31.d -sub z17.d, z16.d, z23.d -add z16.d, z16.d, z23.d -sqrdmulh z23.d, z19.d, z15.d[1] -str q25, [x0, #912] -mul z19.d, z19.d,z14.d[1] -mla z26.d, P0/M, z18.d, z31.d -sub z18.d, z28.d, z20.d -add z28.d, z28.d, z20.d -ldr q4, [x17, #+640] -sqrdmulh z20.d, z16.d, z1.d[0] -str q22, [x0, #944] -mul z16.d, z16.d,z0.d[0] -mla z19.d, P0/M, z23.d, z31.d -sub z23.d, z27.d, z26.d -add z27.d, z27.d, z26.d -ldr q5, [x17, #+656] -sqrdmulh z26.d, z17.d, z1.d[1] -mul z17.d, z17.d,z0.d[1] -mla z16.d, P0/M, z20.d, z31.d -sub z20.d, z24.d, z19.d -add z24.d, z24.d, z19.d -ldr q6, [x17, #+672] -ldr q7, [x17, #+688] -ldr q8, [x17, #+704] -ldr q9, [x17, #+720] -ldr q10, [x17, #+736] -ldr q11, [x17, #+752] -sqrdmulh z19.d, z23.d, z3.d[1] -mul z23.d, z23.d,z2.d[1] -ldr q22, [x0, #1264] -mla z17.d, P0/M, z26.d, z31.d -sub z26.d, z28.d, z16.d -add z28.d, z28.d, z16.d -sqrdmulh z16.d, z27.d, z3.d[0] -mul z27.d, z27.d,z2.d[0] -ldr q25, [x0, #1232] -mla z23.d, P0/M, z19.d, z31.d -sub z19.d, z18.d, z17.d -add z18.d, z18.d, z17.d -sqrdmulh z17.d, z22.d, z5.d[0] -mul z22.d, z22.d,z4.d[0] -ldr q29, [x0, #1168] -mla z27.d, P0/M, z16.d, z31.d -sub z16.d, z20.d, z23.d -add z20.d, z20.d, z23.d -sqrdmulh z23.d, z25.d, z5.d[0] -str q28, [x0, #768] -mul z25.d, z25.d,z4.d[0] -ldr q28, [x0, #1200] -mla z22.d, P0/M, z17.d, z31.d -sub z17.d, z24.d, z27.d -add z24.d, z24.d, z27.d -sqrdmulh z27.d, z29.d, z5.d[0] -str q26, [x0, #800] -mul z29.d, z29.d,z4.d[0] -ldr q26, [x0, #1136] -mla z25.d, P0/M, z23.d, z31.d -sub z23.d, z26.d, z22.d -add z26.d, z26.d, z22.d -sqrdmulh z22.d, z28.d, z5.d[0] -str q18, [x0, #832] -mul z28.d, z28.d,z4.d[0] -ldr q18, [x0, #1104] -mla z29.d, P0/M, z27.d, z31.d -sub z27.d, z18.d, z25.d -add z18.d, z18.d, z25.d -sqrdmulh z25.d, z26.d, z7.d[0] -str q19, [x0, #864] -mul z26.d, z26.d,z6.d[0] -ldr q19, [x0, #1040] -mla z28.d, P0/M, z22.d, z31.d -sub z22.d, z19.d, z29.d -add z19.d, z19.d, z29.d -sqrdmulh z29.d, z18.d, z7.d[0] -str q20, [x0, #960] -mul z18.d, z18.d,z6.d[0] -ldr q20, [x0, #1072] -mla z26.d, P0/M, z25.d, z31.d -sub z25.d, z20.d, z28.d -add z20.d, z20.d, z28.d -sqrdmulh z28.d, z23.d, z7.d[1] -str q16, [x0, #992] -mul z23.d, z23.d,z6.d[1] -mla z18.d, P0/M, z29.d, z31.d -sub z29.d, z20.d, z26.d -add z20.d, z20.d, z26.d -sqrdmulh z26.d, z27.d, z7.d[1] -str q24, [x0, #896] -mul z27.d, z27.d,z6.d[1] -mla z23.d, P0/M, z28.d, z31.d -sub z28.d, z19.d, z18.d -add z19.d, z19.d, z18.d -sqrdmulh z18.d, z20.d, z9.d[0] -str q17, [x0, #928] -mul z20.d, z20.d,z8.d[0] -mla z27.d, P0/M, z26.d, z31.d -sub z26.d, z25.d, z23.d -add z25.d, z25.d, z23.d -sqrdmulh z23.d, z29.d, z9.d[1] -mul z29.d, z29.d,z8.d[1] -mla z20.d, P0/M, z18.d, z31.d -sub z18.d, z22.d, z27.d -add z22.d, z22.d, z27.d -sqrdmulh z27.d, z26.d, z11.d[1] -mul z26.d, z26.d,z10.d[1] -ldr q17, [x0, #1248] -mla z29.d, P0/M, z23.d, z31.d -sub z23.d, z19.d, z20.d -add z19.d, z19.d, z20.d -sqrdmulh z20.d, z25.d, z11.d[0] -mul z25.d, z25.d,z10.d[0] -ldr q24, [x0, #1216] -mla z26.d, P0/M, z27.d, z31.d -sub z27.d, z28.d, z29.d -add z28.d, z28.d, z29.d -sqrdmulh z29.d, z17.d, z5.d[0] -mul z17.d, z17.d,z4.d[0] -ldr q16, [x0, #1152] -mla z25.d, P0/M, z20.d, z31.d -sub z20.d, z18.d, z26.d -add z18.d, z18.d, z26.d -sqrdmulh z26.d, z24.d, z5.d[0] -str q19, [x0, #1040] -mul z24.d, z24.d,z4.d[0] -ldr q19, [x0, #1184] -mla z17.d, P0/M, z29.d, z31.d -sub z29.d, z22.d, z25.d -add z22.d, z22.d, z25.d -sqrdmulh z25.d, z16.d, z5.d[0] -str q23, [x0, #1072] -mul z16.d, z16.d,z4.d[0] -ldr q23, [x0, #1120] -mla z24.d, P0/M, z26.d, z31.d -sub z26.d, z23.d, z17.d -add z23.d, z23.d, z17.d -sqrdmulh z17.d, z19.d, z5.d[0] -str q28, [x0, #1104] -mul z19.d, z19.d,z4.d[0] -ldr q28, [x0, #1088] -mla z16.d, P0/M, z25.d, z31.d -sub z25.d, z28.d, z24.d -add z28.d, z28.d, z24.d -sqrdmulh z24.d, z23.d, z7.d[0] -str q27, [x0, #1136] -mul z23.d, z23.d,z6.d[0] -ldr q27, [x0, #1024] -mla z19.d, P0/M, z17.d, z31.d -sub z17.d, z27.d, z16.d -add z27.d, z27.d, z16.d -sqrdmulh z16.d, z28.d, z7.d[0] -str q18, [x0, #1232] -mul z28.d, z28.d,z6.d[0] -ldr q18, [x0, #1056] -mla z23.d, P0/M, z24.d, z31.d -sub z24.d, z18.d, z19.d -add z18.d, z18.d, z19.d -sqrdmulh z19.d, z26.d, z7.d[1] -str q20, [x0, #1264] -mul z26.d, z26.d,z6.d[1] -mla z28.d, P0/M, z16.d, z31.d -sub z16.d, z18.d, z23.d -add z18.d, z18.d, z23.d -sqrdmulh z23.d, z25.d, z7.d[1] -str q22, [x0, #1168] -mul z25.d, z25.d,z6.d[1] -mla z26.d, P0/M, z19.d, z31.d -sub z19.d, z27.d, z28.d -add z27.d, z27.d, z28.d -ldr q3, [x17, #+768] -sqrdmulh z28.d, z18.d, z9.d[0] -str q29, [x0, #1200] -mul z18.d, z18.d,z8.d[0] -mla z25.d, P0/M, z23.d, z31.d -sub z23.d, z24.d, z26.d -add z24.d, z24.d, z26.d -ldr q2, [x17, #+784] -sqrdmulh z26.d, z16.d, z9.d[1] -mul z16.d, z16.d,z8.d[1] -mla z18.d, P0/M, z28.d, z31.d -sub z28.d, z17.d, z25.d -add z17.d, z17.d, z25.d -ldr q1, [x17, #+800] -ldr q0, [x17, #+816] -ldr q15, [x17, #+832] -ldr q14, [x17, #+848] -ldr q13, [x17, #+864] -ldr q12, [x17, #+880] -sqrdmulh z25.d, z23.d, z11.d[1] -mul z23.d, z23.d,z10.d[1] -ldr q29, [x0, #1520] -mla z16.d, P0/M, z26.d, z31.d -sub z26.d, z27.d, z18.d -add z27.d, z27.d, z18.d -sqrdmulh z18.d, z24.d, z11.d[0] -mul z24.d, z24.d,z10.d[0] -ldr q22, [x0, #1488] -mla z23.d, P0/M, z25.d, z31.d -sub z25.d, z19.d, z16.d -add z19.d, z19.d, z16.d -sqrdmulh z16.d, z29.d, z2.d[0] -mul z29.d, z29.d,z3.d[0] -ldr q20, [x0, #1424] -mla z24.d, P0/M, z18.d, z31.d -sub z18.d, z28.d, z23.d -add z28.d, z28.d, z23.d -sqrdmulh z23.d, z22.d, z2.d[0] -str q27, [x0, #1024] -mul z22.d, z22.d,z3.d[0] -ldr q27, [x0, #1456] -mla z29.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z24.d -add z17.d, z17.d, z24.d -sqrdmulh z24.d, z20.d, z2.d[0] -str q26, [x0, #1056] -mul z20.d, z20.d,z3.d[0] -ldr q26, [x0, #1392] -mla z22.d, P0/M, z23.d, z31.d -sub z23.d, z26.d, z29.d -add z26.d, z26.d, z29.d -sqrdmulh z29.d, z27.d, z2.d[0] -str q19, [x0, #1088] -mul z27.d, z27.d,z3.d[0] -ldr q19, [x0, #1360] -mla z20.d, P0/M, z24.d, z31.d -sub z24.d, z19.d, z22.d -add z19.d, z19.d, z22.d -sqrdmulh z22.d, z26.d, z0.d[0] -str q25, [x0, #1120] -mul z26.d, z26.d,z1.d[0] -ldr q25, [x0, #1296] -mla z27.d, P0/M, z29.d, z31.d -sub z29.d, z25.d, z20.d -add z25.d, z25.d, z20.d -sqrdmulh z20.d, z19.d, z0.d[0] -str q28, [x0, #1216] -mul z19.d, z19.d,z1.d[0] -ldr q28, [x0, #1328] -mla z26.d, P0/M, z22.d, z31.d -sub z22.d, z28.d, z27.d -add z28.d, z28.d, z27.d -sqrdmulh z27.d, z23.d, z0.d[1] -str q18, [x0, #1248] -mul z23.d, z23.d,z1.d[1] -mla z19.d, P0/M, z20.d, z31.d -sub z20.d, z28.d, z26.d -add z28.d, z28.d, z26.d -sqrdmulh z26.d, z24.d, z0.d[1] -str q17, [x0, #1152] -mul z24.d, z24.d,z1.d[1] -mla z23.d, P0/M, z27.d, z31.d -sub z27.d, z25.d, z19.d -add z25.d, z25.d, z19.d -sqrdmulh z19.d, z28.d, z14.d[0] -str q16, [x0, #1184] -mul z28.d, z28.d,z15.d[0] -mla z24.d, P0/M, z26.d, z31.d -sub z26.d, z22.d, z23.d -add z22.d, z22.d, z23.d -sqrdmulh z23.d, z20.d, z14.d[1] -mul z20.d, z20.d,z15.d[1] -mla z28.d, P0/M, z19.d, z31.d -sub z19.d, z29.d, z24.d -add z29.d, z29.d, z24.d -sqrdmulh z24.d, z26.d, z12.d[1] -mul z26.d, z26.d,z13.d[1] -ldr q16, [x0, #1504] -mla z20.d, P0/M, z23.d, z31.d -sub z23.d, z25.d, z28.d -add z25.d, z25.d, z28.d -sqrdmulh z28.d, z22.d, z12.d[0] -mul z22.d, z22.d,z13.d[0] -ldr q17, [x0, #1472] -mla z26.d, P0/M, z24.d, z31.d -sub z24.d, z27.d, z20.d -add z27.d, z27.d, z20.d -sqrdmulh z20.d, z16.d, z2.d[0] -mul z16.d, z16.d,z3.d[0] -ldr q18, [x0, #1408] -mla z22.d, P0/M, z28.d, z31.d -sub z28.d, z19.d, z26.d -add z19.d, z19.d, z26.d -sqrdmulh z26.d, z17.d, z2.d[0] -str q25, [x0, #1296] -mul z17.d, z17.d,z3.d[0] -ldr q25, [x0, #1440] -mla z16.d, P0/M, z20.d, z31.d -sub z20.d, z29.d, z22.d -add z29.d, z29.d, z22.d -sqrdmulh z22.d, z18.d, z2.d[0] -str q23, [x0, #1328] -mul z18.d, z18.d,z3.d[0] -ldr q23, [x0, #1376] -mla z17.d, P0/M, z26.d, z31.d -sub z26.d, z23.d, z16.d -add z23.d, z23.d, z16.d -sqrdmulh z16.d, z25.d, z2.d[0] -str q27, [x0, #1360] -mul z25.d, z25.d,z3.d[0] -ldr q27, [x0, #1344] -mla z18.d, P0/M, z22.d, z31.d -sub z22.d, z27.d, z17.d -add z27.d, z27.d, z17.d -sqrdmulh z17.d, z23.d, z0.d[0] -str q24, [x0, #1392] -mul z23.d, z23.d,z1.d[0] -ldr q24, [x0, #1280] -mla z25.d, P0/M, z16.d, z31.d -sub z16.d, z24.d, z18.d -add z24.d, z24.d, z18.d -sqrdmulh z18.d, z27.d, z0.d[0] -str q19, [x0, #1488] -mul z27.d, z27.d,z1.d[0] -ldr q19, [x0, #1312] -mla z23.d, P0/M, z17.d, z31.d -sub z17.d, z19.d, z25.d -add z19.d, z19.d, z25.d -sqrdmulh z25.d, z26.d, z0.d[1] -str q28, [x0, #1520] -mul z26.d, z26.d,z1.d[1] -mla z27.d, P0/M, z18.d, z31.d -sub z18.d, z19.d, z23.d -add z19.d, z19.d, z23.d -sqrdmulh z23.d, z22.d, z0.d[1] -str q29, [x0, #1424] -mul z22.d, z22.d,z1.d[1] -mla z26.d, P0/M, z25.d, z31.d -sub z25.d, z24.d, z27.d -add z24.d, z24.d, z27.d -ldr q11, [x17, #+896] -sqrdmulh z27.d, z19.d, z14.d[0] -str q20, [x0, #1456] -mul z19.d, z19.d,z15.d[0] -mla z22.d, P0/M, z23.d, z31.d -sub z23.d, z17.d, z26.d -add z17.d, z17.d, z26.d -ldr q10, [x17, #+912] -sqrdmulh z26.d, z18.d, z14.d[1] -mul z18.d, z18.d,z15.d[1] -mla z19.d, P0/M, z27.d, z31.d -sub z27.d, z16.d, z22.d -add z16.d, z16.d, z22.d -ldr q9, [x17, #+928] -ldr q8, [x17, #+944] -ldr q7, [x17, #+960] -ldr q6, [x17, #+976] -ldr q5, [x17, #+992] -ldr q4, [x17, #+1008] -sqrdmulh z22.d, z23.d, z12.d[1] -mul z23.d, z23.d,z13.d[1] -ldr q20, [x0, #1776] -mla z18.d, P0/M, z26.d, z31.d -sub z26.d, z24.d, z19.d -add z24.d, z24.d, z19.d -sqrdmulh z19.d, z17.d, z12.d[0] -mul z17.d, z17.d,z13.d[0] -ldr q29, [x0, #1744] -mla z23.d, P0/M, z22.d, z31.d -sub z22.d, z25.d, z18.d -add z25.d, z25.d, z18.d -sqrdmulh z18.d, z20.d, z10.d[0] -mul z20.d, z20.d,z11.d[0] -ldr q28, [x0, #1680] -mla z17.d, P0/M, z19.d, z31.d -sub z19.d, z27.d, z23.d -add z27.d, z27.d, z23.d -sqrdmulh z23.d, z29.d, z10.d[0] -str q24, [x0, #1280] -mul z29.d, z29.d,z11.d[0] -ldr q24, [x0, #1712] -mla z20.d, P0/M, z18.d, z31.d -sub z18.d, z16.d, z17.d -add z16.d, z16.d, z17.d -sqrdmulh z17.d, z28.d, z10.d[0] -str q26, [x0, #1312] -mul z28.d, z28.d,z11.d[0] -ldr q26, [x0, #1648] -mla z29.d, P0/M, z23.d, z31.d -sub z23.d, z26.d, z20.d -add z26.d, z26.d, z20.d -sqrdmulh z20.d, z24.d, z10.d[0] -str q25, [x0, #1344] -mul z24.d, z24.d,z11.d[0] -ldr q25, [x0, #1616] -mla z28.d, P0/M, z17.d, z31.d -sub z17.d, z25.d, z29.d -add z25.d, z25.d, z29.d -sqrdmulh z29.d, z26.d, z8.d[0] -str q22, [x0, #1376] -mul z26.d, z26.d,z9.d[0] -ldr q22, [x0, #1552] -mla z24.d, P0/M, z20.d, z31.d -sub z20.d, z22.d, z28.d -add z22.d, z22.d, z28.d -sqrdmulh z28.d, z25.d, z8.d[0] -str q27, [x0, #1472] -mul z25.d, z25.d,z9.d[0] -ldr q27, [x0, #1584] -mla z26.d, P0/M, z29.d, z31.d -sub z29.d, z27.d, z24.d -add z27.d, z27.d, z24.d -sqrdmulh z24.d, z23.d, z8.d[1] -str q19, [x0, #1504] -mul z23.d, z23.d,z9.d[1] -mla z25.d, P0/M, z28.d, z31.d -sub z28.d, z27.d, z26.d -add z27.d, z27.d, z26.d -sqrdmulh z26.d, z17.d, z8.d[1] -str q16, [x0, #1408] -mul z17.d, z17.d,z9.d[1] -mla z23.d, P0/M, z24.d, z31.d -sub z24.d, z22.d, z25.d -add z22.d, z22.d, z25.d -sqrdmulh z25.d, z27.d, z6.d[0] -str q18, [x0, #1440] -mul z27.d, z27.d,z7.d[0] -mla z17.d, P0/M, z26.d, z31.d -sub z26.d, z29.d, z23.d -add z29.d, z29.d, z23.d -sqrdmulh z23.d, z28.d, z6.d[1] -mul z28.d, z28.d,z7.d[1] -mla z27.d, P0/M, z25.d, z31.d -sub z25.d, z20.d, z17.d -add z20.d, z20.d, z17.d -sqrdmulh z17.d, z26.d, z4.d[1] -mul z26.d, z26.d,z5.d[1] -ldr q18, [x0, #1760] -mla z28.d, P0/M, z23.d, z31.d -sub z23.d, z22.d, z27.d -add z22.d, z22.d, z27.d -sqrdmulh z27.d, z29.d, z4.d[0] -mul z29.d, z29.d,z5.d[0] -ldr q16, [x0, #1728] -mla z26.d, P0/M, z17.d, z31.d -sub z17.d, z24.d, z28.d -add z24.d, z24.d, z28.d -sqrdmulh z28.d, z18.d, z10.d[0] -mul z18.d, z18.d,z11.d[0] -ldr q19, [x0, #1664] -mla z29.d, P0/M, z27.d, z31.d -sub z27.d, z25.d, z26.d -add z25.d, z25.d, z26.d -sqrdmulh z26.d, z16.d, z10.d[0] -str q22, [x0, #1552] -mul z16.d, z16.d,z11.d[0] -ldr q22, [x0, #1696] -mla z18.d, P0/M, z28.d, z31.d -sub z28.d, z20.d, z29.d -add z20.d, z20.d, z29.d -sqrdmulh z29.d, z19.d, z10.d[0] -str q23, [x0, #1584] -mul z19.d, z19.d,z11.d[0] -ldr q23, [x0, #1632] -mla z16.d, P0/M, z26.d, z31.d -sub z26.d, z23.d, z18.d -add z23.d, z23.d, z18.d -sqrdmulh z18.d, z22.d, z10.d[0] -str q24, [x0, #1616] -mul z22.d, z22.d,z11.d[0] -ldr q24, [x0, #1600] -mla z19.d, P0/M, z29.d, z31.d -sub z29.d, z24.d, z16.d -add z24.d, z24.d, z16.d -sqrdmulh z16.d, z23.d, z8.d[0] -str q17, [x0, #1648] -mul z23.d, z23.d,z9.d[0] -ldr q17, [x0, #1536] -mla z22.d, P0/M, z18.d, z31.d -sub z18.d, z17.d, z19.d -add z17.d, z17.d, z19.d -sqrdmulh z19.d, z24.d, z8.d[0] -str q25, [x0, #1744] -mul z24.d, z24.d,z9.d[0] -ldr q25, [x0, #1568] -mla z23.d, P0/M, z16.d, z31.d -sub z16.d, z25.d, z22.d -add z25.d, z25.d, z22.d -sqrdmulh z22.d, z26.d, z8.d[1] -str q27, [x0, #1776] -mul z26.d, z26.d,z9.d[1] -mla z24.d, P0/M, z19.d, z31.d -sub z19.d, z25.d, z23.d -add z25.d, z25.d, z23.d -sqrdmulh z23.d, z29.d, z8.d[1] -str q20, [x0, #1680] -mul z29.d, z29.d,z9.d[1] -mla z26.d, P0/M, z22.d, z31.d -sub z22.d, z17.d, z24.d -add z17.d, z17.d, z24.d -ldr q12, [x17, #+1024] -sqrdmulh z24.d, z25.d, z6.d[0] -str q28, [x0, #1712] -mul z25.d, z25.d,z7.d[0] -mla z29.d, P0/M, z23.d, z31.d -sub z23.d, z16.d, z26.d -add z16.d, z16.d, z26.d -ldr q13, [x17, #+1040] -sqrdmulh z26.d, z19.d, z6.d[1] -mul z19.d, z19.d,z7.d[1] -mla z25.d, P0/M, z24.d, z31.d -sub z24.d, z18.d, z29.d -add z18.d, z18.d, z29.d -ldr q14, [x17, #+1056] -ldr q15, [x17, #+1072] -ldr q0, [x17, #+1088] -ldr q1, [x17, #+1104] -ldr q2, [x17, #+1120] -ldr q3, [x17, #+1136] -sqrdmulh z29.d, z23.d, z4.d[1] -mul z23.d, z23.d,z5.d[1] -ldr q28, [x0, #2032] -mla z19.d, P0/M, z26.d, z31.d -sub z26.d, z17.d, z25.d -add z17.d, z17.d, z25.d -sqrdmulh z25.d, z16.d, z4.d[0] -mul z16.d, z16.d,z5.d[0] -ldr q20, [x0, #2000] -mla z23.d, P0/M, z29.d, z31.d -sub z29.d, z22.d, z19.d -add z22.d, z22.d, z19.d -sqrdmulh z19.d, z28.d, z13.d[0] -mul z28.d, z28.d,z12.d[0] -ldr q27, [x0, #1936] -mla z16.d, P0/M, z25.d, z31.d -sub z25.d, z24.d, z23.d -add z24.d, z24.d, z23.d -sqrdmulh z23.d, z20.d, z13.d[0] -str q17, [x0, #1536] -mul z20.d, z20.d,z12.d[0] -ldr q17, [x0, #1968] -mla z28.d, P0/M, z19.d, z31.d -sub z19.d, z18.d, z16.d -add z18.d, z18.d, z16.d -sqrdmulh z16.d, z27.d, z13.d[0] -str q26, [x0, #1568] -mul z27.d, z27.d,z12.d[0] -ldr q26, [x0, #1904] -mla z20.d, P0/M, z23.d, z31.d -sub z23.d, z26.d, z28.d -add z26.d, z26.d, z28.d -sqrdmulh z28.d, z17.d, z13.d[0] -str q22, [x0, #1600] -mul z17.d, z17.d,z12.d[0] -ldr q22, [x0, #1872] -mla z27.d, P0/M, z16.d, z31.d -sub z16.d, z22.d, z20.d -add z22.d, z22.d, z20.d -sqrdmulh z20.d, z26.d, z15.d[0] -str q29, [x0, #1632] -mul z26.d, z26.d,z14.d[0] -ldr q29, [x0, #1808] -mla z17.d, P0/M, z28.d, z31.d -sub z28.d, z29.d, z27.d -add z29.d, z29.d, z27.d -sqrdmulh z27.d, z22.d, z15.d[0] -str q24, [x0, #1728] -mul z22.d, z22.d,z14.d[0] -ldr q24, [x0, #1840] -mla z26.d, P0/M, z20.d, z31.d -sub z20.d, z24.d, z17.d -add z24.d, z24.d, z17.d -sqrdmulh z17.d, z23.d, z15.d[1] -str q25, [x0, #1760] -mul z23.d, z23.d,z14.d[1] -mla z22.d, P0/M, z27.d, z31.d -sub z27.d, z24.d, z26.d -add z24.d, z24.d, z26.d -sqrdmulh z26.d, z16.d, z15.d[1] -str q18, [x0, #1664] -mul z16.d, z16.d,z14.d[1] -mla z23.d, P0/M, z17.d, z31.d -sub z17.d, z29.d, z22.d -add z29.d, z29.d, z22.d -sqrdmulh z22.d, z24.d, z1.d[0] -str q19, [x0, #1696] -mul z24.d, z24.d,z0.d[0] -mla z16.d, P0/M, z26.d, z31.d -sub z26.d, z20.d, z23.d -add z20.d, z20.d, z23.d -sqrdmulh z23.d, z27.d, z1.d[1] -mul z27.d, z27.d,z0.d[1] -mla z24.d, P0/M, z22.d, z31.d -sub z22.d, z28.d, z16.d -add z28.d, z28.d, z16.d -sqrdmulh z16.d, z26.d, z3.d[1] -mul z26.d, z26.d,z2.d[1] -ldr q19, [x0, #2016] -mla z27.d, P0/M, z23.d, z31.d -sub z23.d, z29.d, z24.d -add z29.d, z29.d, z24.d -sqrdmulh z24.d, z20.d, z3.d[0] -mul z20.d, z20.d,z2.d[0] -ldr q18, [x0, #1984] -mla z26.d, P0/M, z16.d, z31.d -sub z16.d, z17.d, z27.d -add z17.d, z17.d, z27.d -sqrdmulh z27.d, z19.d, z13.d[0] -mul z19.d, z19.d,z12.d[0] -ldr q25, [x0, #1920] -mla z20.d, P0/M, z24.d, z31.d -sub z24.d, z22.d, z26.d -add z22.d, z22.d, z26.d -sqrdmulh z26.d, z18.d, z13.d[0] -str q29, [x0, #1808] -mul z18.d, z18.d,z12.d[0] -ldr q29, [x0, #1952] -mla z19.d, P0/M, z27.d, z31.d -sub z27.d, z28.d, z20.d -add z28.d, z28.d, z20.d -sqrdmulh z20.d, z25.d, z13.d[0] -str q23, [x0, #1840] -mul z25.d, z25.d,z12.d[0] -ldr q23, [x0, #1888] -mla z18.d, P0/M, z26.d, z31.d -sub z26.d, z23.d, z19.d -add z23.d, z23.d, z19.d -sqrdmulh z19.d, z29.d, z13.d[0] -str q17, [x0, #1872] -mul z29.d, z29.d,z12.d[0] -ldr q17, [x0, #1856] -mla z25.d, P0/M, z20.d, z31.d -sub z20.d, z17.d, z18.d -add z17.d, z17.d, z18.d -sqrdmulh z18.d, z23.d, z15.d[0] -str q16, [x0, #1904] -mul z23.d, z23.d,z14.d[0] -ldr q16, [x0, #1792] -mla z29.d, P0/M, z19.d, z31.d -sub z19.d, z16.d, z25.d -add z16.d, z16.d, z25.d -sqrdmulh z25.d, z17.d, z15.d[0] -str q22, [x0, #2000] -mul z17.d, z17.d,z14.d[0] -ldr q22, [x0, #1824] -mla z23.d, P0/M, z18.d, z31.d -sub z18.d, z22.d, z29.d -add z22.d, z22.d, z29.d -sqrdmulh z29.d, z26.d, z15.d[1] -str q24, [x0, #2032] -mul z26.d, z26.d,z14.d[1] -mla z17.d, P0/M, z25.d, z31.d -sub z25.d, z22.d, z23.d -add z22.d, z22.d, z23.d -sqrdmulh z23.d, z20.d, z15.d[1] -str q28, [x0, #1936] -mul z20.d, z20.d,z14.d[1] -mla z26.d, P0/M, z29.d, z31.d -sub z29.d, z16.d, z17.d -add z16.d, z16.d, z17.d -sqrdmulh z17.d, z22.d, z1.d[0] -str q27, [x0, #1968] -mul z22.d, z22.d,z0.d[0] -mla z20.d, P0/M, z23.d, z31.d -sub z23.d, z18.d, z26.d -add z18.d, z18.d, z26.d -sqrdmulh z26.d, z25.d, z1.d[1] -mul z25.d, z25.d,z0.d[1] -mla z22.d, P0/M, z17.d, z31.d -sub z17.d, z19.d, z20.d -add z19.d, z19.d, z20.d -sqrdmulh z20.d, z23.d, z3.d[1] -mul z23.d, z23.d,z2.d[1] -mla z25.d, P0/M, z26.d, z31.d -sub z26.d, z16.d, z22.d -add z16.d, z16.d, z22.d -sqrdmulh z22.d, z18.d, z3.d[0] -mul z18.d, z18.d,z2.d[0] -mla z23.d, P0/M, z20.d, z31.d -sub z20.d, z29.d, z25.d -add z29.d, z29.d, z25.d -mla z18.d, P0/M, z22.d, z31.d -sub z22.d, z17.d, z23.d -add z17.d, z17.d, z23.d -str q16, [x0, #1792] -sub z16.d, z19.d, z18.d -add z19.d, z19.d, z18.d -str q26, [x0, #1824] -str q29, [x0, #1856] -str q20, [x0, #1888] -str q17, [x0, #1984] -str q22, [x0, #2016] -str q19, [x0, #1920] -str q16, [x0, #1952] -// Restore SVE2 vector registers -ldp d8, d9, [sp, #16*0] -ldp d10, d11, [sp, #16*1] -ldp d12, d13, [sp, #16*2] -ldp d14, d15, [sp, #16*3] -add sp, sp, #(16*4) -// Restore GPRs -ldp x19, x20, [sp, #16*0] -ldp x21, x22, [sp, #16*1] -ldp x23, x24, [sp, #16*2] -ldp x25, x26, [sp, #16*3] -ldp x27, x28, [sp, #16*4] -ldr x29, [sp, #16*5] -add sp, sp, #(16*5+16) -ret - -// Line count: 2697 -// Instruction count: 2693 \ No newline at end of file diff --git a/tests/ntt_sve2/manual/basemul_64_72057594067788289.s b/tests/ntt_sve2/manual/basemul_64_72057594067788289.s deleted file mode 100644 index d82d6d2..0000000 --- a/tests/ntt_sve2/manual/basemul_64_72057594067788289.s +++ /dev/null @@ -1,105 +0,0 @@ - -.macro save_regs - sub sp, sp, #(16*6) - stp x19, x20, [sp, #16*0] - stp x19, x20, [sp, #16*0] - stp x21, x22, [sp, #16*1] - stp x23, x24, [sp, #16*2] - stp x25, x26, [sp, #16*3] - stp x27, x28, [sp, #16*4] - stp x29, x30, [sp, #16*5] - sub sp, sp, #(16*4) - stp d8, d9, [sp, #16*0] - stp d10, d11, [sp, #16*1] - stp d12, d13, [sp, #16*2] - stp d14, d15, [sp, #16*3] -.endm - -.macro restore_regs - ldp d8, d9, [sp, #16*0] - ldp d10, d11, [sp, #16*1] - ldp d12, d13, [sp, #16*2] - ldp d14, d15, [sp, #16*3] - add sp, sp, #(16*4) - ldp x19, x20, [sp, #16*0] - ldp x21, x22, [sp, #16*1] - ldp x23, x24, [sp, #16*2] - ldp x25, x26, [sp, #16*3] - ldp x27, x28, [sp, #16*4] - ldp x29, x30, [sp, #16*5] - add sp, sp, #(16*5+16) -.endm - -.data -modulus: - .dword 72057594067788289 - .dword 249802778572774913 - - .text - .type basemul_u64, %function - .global basemul_u64 - -modulus_addr: - .dword modulus -basemul_u64: - dst .req x0 - src_a .req x1 - src_b .req x2 - count .req x3 - - addr .req x4 - - in_a0 .req z0 - in_a1 .req z1 - in_b0 .req z2 - in_b1 .req z3 - dst_0 .req z4 - dst_1 .req z5 - - in_a0q .req q0 - in_a1q .req q1 - in_b0q .req q2 - in_b1q .req q3 - dst_0q .req q4 - dst_1q .req q5 - - modulus .req z6 - twist .req z7 - - tmp .req z8 - - save_regs - - ptrue P0.d - - ldr addr, modulus_addr - ld1rd {modulus.d}, P0/z, [addr, #0] - ld1rd {twist.d}, P0/z, [addr, #8] - - // # of elements must be divisible by 4 - mov count, count, LSR #2 - cmp count, #0 - b.eq 2f -1: - ldp in_a0q, in_a1q, [src_a], #32 - ldp in_b0q, in_b1q, [src_b], #32 - - sqdmulh dst_0.d, in_a0.d, in_b0.d - mul tmp.d, in_a0.d, in_b0.d - mul tmp.d, tmp.d, twist.d - sqdmulh tmp.d, tmp.d, modulus.d - shsub dst_0.d, P0/M, dst_0.d, tmp.d - - sqdmulh dst_1.d, in_a1.d, in_b1.d - mul tmp.d, in_a1.d, in_b1.d - mul tmp.d, tmp.d, twist.d - sqdmulh tmp.d, tmp.d, modulus.d - shsub dst_1.d, P0/M, dst_1.d, tmp.d - - stp dst_0q, dst_1q, [dst], #32 - - subs count, count, 1 - bne 1b -2: - restore_regs - ret diff --git a/tests/ntt_sve2/misc.c b/tests/ntt_sve2/misc.c deleted file mode 100755 index bb7f87d..0000000 --- a/tests/ntt_sve2/misc.c +++ /dev/null @@ -1,143 +0,0 @@ -/* - * Copyright (c) 2021 Arm Limited - * SPDX-License-Identifier: MIT - * - * Permission is hereby granted, free of charge, to any person obtaining a copy - * of this software and associated documentation files (the "Software"), to deal - * in the Software without restriction, including without limitation the rights - * to use, copy, modify, merge, publish, distribute, sublicense, and/or sell - * copies of the Software, and to permit persons to whom the Software is - * furnished to do so, subject to the following conditions: - * - * The above copyright notice and this permission notice shall be included in all - * copies or substantial portions of the Software. - * - * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR - * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, - * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE - * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER - * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, - * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE - * SOFTWARE. - * - */ - -#include "misc.h" -#include - -#include -#include - -#define GEN_FILL_RANDOM( bits ) \ -void fill_random_u ## bits ( uint(bits) *buf, unsigned int len ) \ -{ \ - unsigned byte_len = len * sizeof(*buf); \ - uint8_t *byte_buf = (uint8_t*) buf; \ - for( ; byte_len; byte_buf++, byte_len-- ) \ - { \ - uint8_t cur_byte; \ - cur_byte = get_random_byte(); \ - *byte_buf = cur_byte; \ - } \ -} -GEN_FILL_RANDOM(8) -GEN_FILL_RANDOM(16) -GEN_FILL_RANDOM(32) -GEN_FILL_RANDOM(64) -#undef GEN_FILL_RANDOM - -#define GEN_COPY( bits ) \ -void copy_buf_u ## bits ( uint(bits) *dst, \ - uint(bits) const *src, unsigned int len ) \ -{ \ - for( ; len; dst++, src++, len-- ) \ - *dst = *src; \ -} -GEN_COPY(8) -GEN_COPY(16) -GEN_COPY(32) -GEN_COPY(64) -#undef GEN_COPY - -#define GEN_COMPARE_BUF( bits ) \ -int compare_buf_u ## bits ( uint(bits) const *src_a, \ - uint(bits) const *src_b, \ - unsigned len ) \ -{ \ - uint(bits) res = 0; \ - for( ; len; src_a++, src_b++, len-- ) \ - res |= ( (*src_a) ^ (*src_b) ); \ - return( res ); \ -} -GEN_COMPARE_BUF(8) -GEN_COMPARE_BUF(16) -GEN_COMPARE_BUF(32) -GEN_COMPARE_BUF(64) -#undef GEN_COMPARE_BUF - -#define GEN_PRINT_BUF( bits ) \ -void debug_print_buf_u ## bits ( uint(bits) const *buf, \ - unsigned entries, \ - const char *prefix ) \ -{ \ - unsigned idx; \ - for( idx = 0; idx < entries; idx += 8 ) \ - { \ - debug_printf( "%s [%u-%u]: %u %llu %llu %llu %llu %llu %llu %llu\n", \ - prefix, idx, idx+8, \ - buf[idx+0], buf[idx+1], buf[idx+2], buf[idx+3], \ - buf[idx+4], buf[idx+5], buf[idx+6], buf[idx+7] ); \ - } \ -} -GEN_PRINT_BUF(8) -GEN_PRINT_BUF(16) -GEN_PRINT_BUF(32) -GEN_PRINT_BUF(64) -#undef GEN_PRINT_BUF - -#define GEN_PRINT_BUF_S( bits ) \ -void debug_print_buf_s ## bits ( sint(bits) const *buf, \ - unsigned entries, \ - const char *prefix ) \ -{ \ - unsigned idx; \ - for( idx = 0; idx < entries; idx += 8 ) \ - { \ - debug_printf( "%s [%u-%u]: %lld %lld %lld %lld %lld %lld %lld %lld\n", \ - prefix, idx, idx+8, \ - buf[idx+0], buf[idx+1], buf[idx+2], buf[idx+3], \ - buf[idx+4], buf[idx+5], buf[idx+6], buf[idx+7] ); \ - } \ -} -GEN_PRINT_BUF_S(8) -GEN_PRINT_BUF_S(16) -GEN_PRINT_BUF_S(32) -GEN_PRINT_BUF_S(64) -#undef GEN_PRINT_BUF_S - -/* Helper to transpose buffers in case this is needed for input preparation. */ -#define GEN_BUFFER_TRANSPOSE(bitwidth) \ -void CONCAT3(buffer_transpose_, u, bitwidth) \ - ( uint(bitwidth) *dst, uint(bitwidth) const *src, \ - unsigned block_length, unsigned dim_x, unsigned dim_y ) \ -{ \ - unsigned i,j,k,idx_load,idx_store; \ - \ - for( i=0; i -#include -#include -#include - -#define CONCAT2_(A,B) A ## B -#define CONCAT2(A,B) CONCAT2_(A,B) - -#define CONCAT3_(A,B,C) A ## B ## C -#define CONCAT3(A,B,C) CONCAT3_(A,B,C) - -#define CONCAT4_(A,B,C,D) A ## B ## C ## D -#define CONCAT4(A,B,C,D) CONCAT4_(A,B,C,