vec__int512__ppc_8h_source.html

/*

 Copyright (c) [2019] Steven Munroe


 Licensed under the Apache License, Version 2.0 (the "License");

 you may not use this file except in compliance with the License.

 You may obtain a copy of the License at


    http://www.apache.org/licenses/LICENSE-2.0


 Unless required by applicable law or agreed to in writing, software

 distributed under the License is distributed on an "AS IS" BASIS,

 WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

 See the License for the specific language governing permissions and

 limitations under the License.


 vec_int128_ppc.h


 Contributors:

      Steven Munroe

      Created on: Aug 24, 2019

      Steven Munroe, additional contributions for POWER9.

 */


#ifndef SRC_PVECLIB_VEC_INT512_PPC_H_

#define SRC_PVECLIB_VEC_INT512_PPC_H_


#include <pveclib/vec_int128_ppc.h>


#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

#define CONST_VINT512_Q(__q0, __q1, __q2, __q3) {__q3, __q2, __q1, __q0}

#else

#define CONST_VINT512_Q(__q0, __q1, __q2, __q3) {__q0, __q1, __q2, __q3}

#endif


typedef struct

{

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

  vui128_t vx0;

  vui128_t vx1;

#else

  vui128_t vx1;

  vui128_t vx0;

#endif

} __VEC_U_256;


typedef struct

{

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

  vui128_t vx0;

  vui128_t vx1;

  vui128_t vx2;

  vui128_t vx3;

#else

  vui128_t vx3;

  vui128_t vx2;

  vui128_t vx1;

  vui128_t vx0;

#endif

} __VEC_U_512;


typedef struct

{

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

  vui128_t vx0;

  vui128_t vx1;

  vui128_t vx2;

  vui128_t vx3;

  vui128_t vx4;

#else

  vui128_t vx4;

  vui128_t vx3;

  vui128_t vx2;

  vui128_t vx1;

  vui128_t vx0;

#endif

} __VEC_U_640;


typedef union

{

  __VEC_U_640 x640;

  struct

  {

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

    __VEC_U_512 v0x512;

    vui128_t v1x128;

#else

    vui128_t v1x128;

    __VEC_U_512 v0x512;

#endif

  } x2;

  struct

  {

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

    vui128_t v1x128;

    __VEC_U_512 v0x512;

#else

    __VEC_U_512 v0x512;

    vui128_t v1x128;

#endif

  } x3;

} __VEC_U_512x1;


typedef struct

{

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

  vui128_t vx0;

  vui128_t vx1;

  vui128_t vx2;

  vui128_t vx3;

  vui128_t vx4;

  vui128_t vx5;

  vui128_t vx6;

  vui128_t vx7;

#else

  vui128_t vx7;

  vui128_t vx6;

  vui128_t vx5;

  vui128_t vx4;

  vui128_t vx3;

  vui128_t vx2;

  vui128_t vx1;

  vui128_t vx0;

#endif

} __VEC_U_1024;


typedef struct

{

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

  vui128_t vx0;

  vui128_t vx1;

  vui128_t vx2;

  vui128_t vx3;

  vui128_t vx4;

  vui128_t vx5;

  vui128_t vx6;

  vui128_t vx7;

  vui128_t vx8;

#else

  vui128_t vx8;

  vui128_t vx7;

  vui128_t vx6;

  vui128_t vx5;

  vui128_t vx4;

  vui128_t vx3;

  vui128_t vx2;

  vui128_t vx1;

  vui128_t vx0;

#endif

} __VEC_U_1152;


typedef struct

{

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

  vui128_t vx0;

  vui128_t vx1;

  vui128_t vx2;

  vui128_t vx3;

  vui128_t vx4;

  vui128_t vx5;

  vui128_t vx6;

  vui128_t vx7;

  vui128_t vx8;

  vui128_t vx9;

  vui128_t vx10;

  vui128_t vx11;

  vui128_t vx12;

  vui128_t vx13;

  vui128_t vx14;

  vui128_t vx15;

#else

  vui128_t vx15;

  vui128_t vx14;

  vui128_t vx13;

  vui128_t vx12;

  vui128_t vx11;

  vui128_t vx10;

  vui128_t vx9;

  vui128_t vx8;

  vui128_t vx7;

  vui128_t vx6;

  vui128_t vx5;

  vui128_t vx4;

  vui128_t vx3;

  vui128_t vx2;

  vui128_t vx1;

  vui128_t vx0;

#endif

} __VEC_U_2048;


typedef union

{

  __VEC_U_1024 x1024;

  struct

  {

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

    __VEC_U_512 v0x512;

    __VEC_U_512 v1x512;

#else

    __VEC_U_512 v1x512;

    __VEC_U_512 v0x512;

#endif

  } x2;

} __VEC_U_1024x512;


typedef union

{

  __VEC_U_2048 x2048;

  struct

  {

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

    __VEC_U_1024 v0x1024;

    __VEC_U_1024 v1x1024;

#else

    __VEC_U_1024 v1x1024;

    __VEC_U_1024 v0x1024;

#endif

  } x2;

  struct

  {

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

    __VEC_U_512 v0x512;

    __VEC_U_512 v1x512;

    __VEC_U_512 v2x512;

    __VEC_U_512 v3x512;

#else

    __VEC_U_512 v3x512;

    __VEC_U_512 v2x512;

    __VEC_U_512 v1x512;

    __VEC_U_512 v0x512;

#endif

  } x4;

} __VEC_U_2048x512;


typedef struct

{

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

  vui128_t vx0;

  vui128_t vx1;

  vui128_t vx2;

  vui128_t vx3;

  vui128_t vx4;

  vui128_t vx5;

  vui128_t vx6;

  vui128_t vx7;

  vui128_t vx8;

  vui128_t vx9;

  vui128_t vx10;

  vui128_t vx11;

  vui128_t vx12;

  vui128_t vx13;

  vui128_t vx14;

  vui128_t vx15;

  vui128_t vx16;

#else

  vui128_t vx16;

  vui128_t vx15;

  vui128_t vx14;

  vui128_t vx13;

  vui128_t vx12;

  vui128_t vx11;

  vui128_t vx10;

  vui128_t vx9;

  vui128_t vx8;

  vui128_t vx7;

  vui128_t vx6;

  vui128_t vx5;

  vui128_t vx4;

  vui128_t vx3;

  vui128_t vx2;

  vui128_t vx1;

  vui128_t vx0;

#endif

} __VEC_U_2176;


typedef struct

{

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

  vui128_t vx0;

  vui128_t vx1;

  vui128_t vx2;

  vui128_t vx3;

  vui128_t vx4;

  vui128_t vx5;

  vui128_t vx6;

  vui128_t vx7;

  vui128_t vx8;

  vui128_t vx9;

  vui128_t vx10;

  vui128_t vx11;

  vui128_t vx12;

  vui128_t vx13;

  vui128_t vx14;

  vui128_t vx15;

  vui128_t vx16;

  vui128_t vx17;

  vui128_t vx18;

  vui128_t vx19;

  vui128_t vx20;

  vui128_t vx21;

  vui128_t vx22;

  vui128_t vx23;

  vui128_t vx24;

  vui128_t vx25;

  vui128_t vx26;

  vui128_t vx27;

  vui128_t vx28;

  vui128_t vx29;

  vui128_t vx30;

  vui128_t vx31;

#else

  vui128_t vx31;

  vui128_t vx30;

  vui128_t vx29;

  vui128_t vx28;

  vui128_t vx27;

  vui128_t vx26;

  vui128_t vx25;

  vui128_t vx24;

  vui128_t vx23;

  vui128_t vx22;

  vui128_t vx21;

  vui128_t vx20;

  vui128_t vx19;

  vui128_t vx18;

  vui128_t vx17;

  vui128_t vx16;

  vui128_t vx15;

  vui128_t vx14;

  vui128_t vx13;

  vui128_t vx12;

  vui128_t vx11;

  vui128_t vx10;

  vui128_t vx9;

  vui128_t vx8;

  vui128_t vx7;

  vui128_t vx6;

  vui128_t vx5;

  vui128_t vx4;

  vui128_t vx3;

  vui128_t vx2;

  vui128_t vx1;

  vui128_t vx0;

#endif

} __VEC_U_4096;


typedef union

{

  __VEC_U_4096 x4096;

  struct

  {

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

    __VEC_U_2048 v0x2048;

    __VEC_U_2048 v1x2048;

#else

    __VEC_U_2048 v1x2048;

    __VEC_U_2048 v0x2048;

#endif

  } x2;

  struct

  {

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

    __VEC_U_1024 v0x1024;

    __VEC_U_1024 v1x1024;

    __VEC_U_1024 v2x1024;

    __VEC_U_1024 v3x1024;

#else

    __VEC_U_1024 v3x1024;

    __VEC_U_1024 v2x1024;

    __VEC_U_1024 v1x1024;

    __VEC_U_1024 v0x1024;

#endif

  } x4;

  struct

  {

#if __BYTE_ORDER__ == __ORDER_LITTLE_ENDIAN__

    __VEC_U_512 v0x512;

    __VEC_U_512 v1x512;

    __VEC_U_512 v2x512;

    __VEC_U_512 v3x512;

    __VEC_U_512 v4x512;

    __VEC_U_512 v5x512;

    __VEC_U_512 v6x512;

    __VEC_U_512 v7x512;

#else

    __VEC_U_512 v7x512;

    __VEC_U_512 v6x512;

    __VEC_U_512 v5x512;

    __VEC_U_512 v4x512;

    __VEC_U_512 v3x512;

    __VEC_U_512 v2x512;

    __VEC_U_512 v1x512;

    __VEC_U_512 v0x512;

#endif

  } x8;

} __VEC_U_4096x512;


#ifdef __VEC_EXPLICIT_FENCE_NOPS__

// Generate NOPS inline to make compiler fences visible in obj code.

#define COMPILE_FENCE __asm ("nop":::)

#else

#define COMPILE_FENCE __asm (";":::)

#endif


#ifdef _ARCH_PWR10

#define __VEC_PWR_IMP(FNAME) FNAME ## _PWR10

#else

#ifdef _ARCH_PWR9

#define __VEC_PWR_IMP(FNAME) FNAME ## _PWR9

#else

#ifdef _ARCH_PWR8

#define __VEC_PWR_IMP(FNAME) FNAME ## _PWR8

#else

#define __VEC_PWR_IMP(FNAME) FNAME ## _PWR7

#endif

#endif

#endif


static inline __VEC_U_640

vec_add512cu (__VEC_U_512 a, __VEC_U_512 b)

{

  __VEC_U_640 result;

  vui128_t mc, mp;


  result.vx0 = vec_addcq (&mc, a.vx0, b.vx0);

  result.vx1 = vec_addeq (&mp, a.vx1, b.vx1, mc);

  result.vx2 = vec_addeq (&mc, a.vx2, b.vx2, mp);

  result.vx3 = vec_addeq (&result.vx4, a.vx3, b.vx3, mc);

  return result;

}


static inline __VEC_U_640

vec_add512ecu (__VEC_U_512 a, __VEC_U_512 b, vui128_t c)

{

  __VEC_U_640 result;

  vui128_t mp, mq;


  result.vx0 = vec_addeq (&mq, a.vx0, b.vx0, c);

  result.vx1 = vec_addeq (&mp, a.vx1, b.vx1, mq);

  result.vx2 = vec_addeq (&mq, a.vx2, b.vx2, mp);

  result.vx3 = vec_addeq (&result.vx4, a.vx3, b.vx3, mq);

  return result;

}


static inline __VEC_U_512

vec_add512eum (__VEC_U_512 a, __VEC_U_512 b, vui128_t c)

{

  __VEC_U_512 result;

  vui128_t mp, mq;


  result.vx0 = vec_addeq (&mq, a.vx0, b.vx0, c);

  result.vx1 = vec_addeq (&mp, a.vx1, b.vx1, mq);

  result.vx2 = vec_addeq (&mq, a.vx2, b.vx2, mp);

  result.vx3 = vec_addeuqm (a.vx3, b.vx3, mq);

  return result;

}


static inline __VEC_U_512

vec_add512um (__VEC_U_512 a, __VEC_U_512 b)

{

  __VEC_U_512 result;

  vui128_t mc, mp;


  result.vx0 = vec_addcq (&mc, a.vx0, b.vx0);

  result.vx1 = vec_addeq (&mp, a.vx1, b.vx1, mc);

  result.vx2 = vec_addeq (&mc, a.vx2, b.vx2, mp);

  result.vx3 = vec_addeuqm ( a.vx3, b.vx3, mc);

  return result;

}


__VEC_U_512

static inline vec_add512ze (__VEC_U_512 a, vui128_t c)

{

  __VEC_U_512 result;

  vui128_t mp, mq;


  result.vx0 = vec_adduqm (a.vx0, c);

  mq = vec_addcuq (a.vx0, c);

  result.vx1 = vec_adduqm (a.vx1, mq);

  mp = vec_addcuq (a.vx1, mq);

  result.vx2 = vec_adduqm (a.vx2, mp);

  mq = vec_addcuq (a.vx2, mp);

  result.vx3 = vec_adduqm (a.vx3, mq);

  return result;

}


__VEC_U_512

static inline vec_add512ze2 (__VEC_U_512 a, vui128_t c1, vui128_t c2)

{

  __VEC_U_512 result;

  vui128_t mp, mq;


  result.vx0 = vec_addeuqm (a.vx0, c1, c2);

  mq = vec_addecuq (a.vx0, c1, c2);

  result.vx1 = vec_adduqm (a.vx1, mq);

  mp = vec_addcuq (a.vx1, mq);

  result.vx2 = vec_adduqm (a.vx2, mp);

  mq = vec_addcuq (a.vx2, mp);

  result.vx3 = vec_adduqm (a.vx3, mq);

  return result;

}


static inline __VEC_U_256

vec_mul128x128_inline (vui128_t a, vui128_t b)

{

  __VEC_U_256 result;

  result.vx0 = vec_muludq (&result.vx1, a, b);

  return result;

}


static inline __VEC_U_512

vec_mul256x256_inline (__VEC_U_256 m1, __VEC_U_256 m2)

{

  __VEC_U_512 result;

  vui128_t mp, mq;

  vui128_t mphh, mphl, mplh, mpll;

  mpll = vec_muludq (&mplh, m1.vx0, m2.vx0);


  mp = vec_madduq (&mphl, m1.vx1, m2.vx0, mplh);

  mplh = mp;

  COMPILE_FENCE;


  mp = vec_madduq (&mq, m1.vx0, m2.vx1, mplh);

  mplh = mp;

  mp = vec_madd2uq (&mphh, m1.vx1, m2.vx1, mphl, mq);

  mphl = mp;


  result.vx0 = mpll;

  result.vx1 = mplh;

  result.vx2 = mphl;

  result.vx3 = mphh;

  return result;

}


static inline __VEC_U_640

vec_mul512x128_inline (__VEC_U_512 m1, vui128_t m2)

{

  __VEC_U_640 result;

  vui128_t mq3, mq2, mq1, mq0;

  vui128_t mpx0, mpx1, mpx2, mpx3;


  mpx0 = vec_muludq (&mq0, m1.vx0, m2);

  mpx1 = vec_madduq (&mq1, m1.vx1, m2, mq0);

  COMPILE_FENCE;

  mpx2 = vec_madduq (&mq2, m1.vx2, m2, mq1);

  mpx3 = vec_madduq (&mq3, m1.vx3, m2, mq2);


  result.vx0 = mpx0;

  result.vx1 = mpx1;

  result.vx2 = mpx2;

  result.vx3 = mpx3;

  result.vx4 = mq3;

  return result;

}


static inline __VEC_U_640

vec_madd512x128a128_inline (__VEC_U_512 m1, vui128_t m2, vui128_t a1)

{

  __VEC_U_640 result;

  vui128_t mq3, mq2, mq1, mq0;

  vui128_t mpx0, mpx1, mpx2, mpx3;


  mpx0 = vec_madduq (&mq0, m1.vx0, m2, a1);

  mpx1 = vec_madduq (&mq1, m1.vx1, m2, mq0);

  COMPILE_FENCE;

  mpx2 = vec_madduq (&mq2, m1.vx2, m2, mq1);

  mpx3 = vec_madduq (&mq3, m1.vx3, m2, mq2);


  result.vx0 = mpx0;

  result.vx1 = mpx1;

  result.vx2 = mpx2;

  result.vx3 = mpx3;

  result.vx4 = mq3;

  return result;

}


static inline __VEC_U_640

vec_madd512x128a512_inline (__VEC_U_512 m1, vui128_t m2, __VEC_U_512 a2)

{

  __VEC_U_640 result;

  vui128_t mq3, mq2, mq1, mq0;

  vui128_t mpx0, mpx1, mpx2, mpx3;


  mpx0 = vec_madduq (&mq0, m1.vx0, m2, a2.vx0);

  mpx1 = vec_madd2uq (&mq1, m1.vx1, m2, mq0, a2.vx1);

  COMPILE_FENCE;

  mpx2 = vec_madd2uq (&mq2, m1.vx2, m2, mq1, a2.vx2);

  mpx3 = vec_madd2uq (&mq3, m1.vx3, m2, mq2, a2.vx3);


  result.vx0 = mpx0;

  result.vx1 = mpx1;

  result.vx2 = mpx2;

  result.vx3 = mpx3;

  result.vx4 = mq3;

  return result;

}


static inline __VEC_U_640

vec_madd512x128a128a512_inline (__VEC_U_512 m1, vui128_t m2, vui128_t a1, __VEC_U_512 a2)

{

  __VEC_U_640 result;

  vui128_t mq3, mq2, mq1, mq0;

  vui128_t mpx0, mpx1, mpx2, mpx3;


  mpx0 = vec_madd2uq (&mq0, m1.vx0, m2, a1, a2.vx0);

  mpx1 = vec_madd2uq (&mq1, m1.vx1, m2, mq0, a2.vx1);

  COMPILE_FENCE;

  mpx2 = vec_madd2uq (&mq2, m1.vx2, m2, mq1, a2.vx2);

  mpx3 = vec_madd2uq (&mq3, m1.vx3, m2, mq2, a2.vx3);


  result.vx0 = mpx0;

  result.vx1 = mpx1;

  result.vx2 = mpx2;

  result.vx3 = mpx3;

  result.vx4 = mq3;

  return result;

}


static inline __VEC_U_1024

vec_mul512x512_inline (__VEC_U_512 m1, __VEC_U_512 m2)

{

  __VEC_U_1024 result;

  __VEC_U_512x1 mp3, mp2, mp1, mp0;


  mp0.x640 = vec_mul512x128_inline (m1, m2.vx0);

  result.vx0 = mp0.x3.v1x128;

  COMPILE_FENCE;

  mp1.x640 = vec_madd512x128a512_inline (m1, m2.vx1, mp0.x3.v0x512);

  result.vx1 = mp1.x3.v1x128;

  COMPILE_FENCE;

  mp2.x640 = vec_madd512x128a512_inline (m1, m2.vx2, mp1.x3.v0x512);

  result.vx2 = mp2.x3.v1x128;

  COMPILE_FENCE;

  mp3.x640 = vec_madd512x128a512_inline (m1, m2.vx3, mp2.x3.v0x512);


  result.vx3 = mp3.x3.v1x128;

  result.vx4 = mp3.x3.v0x512.vx0;

  result.vx5 = mp3.x3.v0x512.vx1;

  result.vx6 = mp3.x3.v0x512.vx2;

  result.vx7 = mp3.x3.v0x512.vx3;

  return result;

}


static inline __VEC_U_1024

vec_madd512x512a512_inline (__VEC_U_512 m1, __VEC_U_512 m2, __VEC_U_512 a1)

{

  __VEC_U_1024 result;

  __VEC_U_512x1 mp3, mp2, mp1, mp0;


  mp0.x640 = vec_madd512x128a512_inline (m1, m2.vx0, a1);

  result.vx0 = mp0.x3.v1x128;

  COMPILE_FENCE;

  mp1.x640 = vec_madd512x128a512_inline (m1, m2.vx1, mp0.x3.v0x512);

  result.vx1 = mp1.x3.v1x128;

  COMPILE_FENCE;

  mp2.x640 = vec_madd512x128a512_inline (m1, m2.vx2, mp1.x3.v0x512);

  result.vx2 = mp2.x3.v1x128;

  COMPILE_FENCE;

  mp3.x640 = vec_madd512x128a512_inline (m1, m2.vx3, mp2.x3.v0x512);


  result.vx3 = mp3.x3.v1x128;

  result.vx4 = mp3.x3.v0x512.vx0;

  result.vx5 = mp3.x3.v0x512.vx1;

  result.vx6 = mp3.x3.v0x512.vx2;

  result.vx7 = mp3.x3.v0x512.vx3;

  return result;

}


extern __VEC_U_256

vec_mul128x128 (vui128_t m1, vui128_t m2);


extern __VEC_U_512

vec_mul256x256 (__VEC_U_256 m1, __VEC_U_256 m2);


extern __VEC_U_640

vec_mul512x128 (__VEC_U_512 m1, vui128_t m2);


extern __VEC_U_640

vec_madd512x128a512 (__VEC_U_512 m1, vui128_t m2, __VEC_U_512 a2);


extern __VEC_U_1024

vec_mul512x512 (__VEC_U_512 m1, __VEC_U_512 m2);


extern void

vec_mul1024x1024 (__VEC_U_2048 *p2048, __VEC_U_1024 *m1, __VEC_U_1024 *m2);


extern void

vec_mul2048x2048 (__VEC_U_4096 *p4096,

                  __VEC_U_2048 *m1, __VEC_U_2048 *m2);


extern void

vec_mul128_byMN  (vui128_t *p,

                  vui128_t *m1, vui128_t *m2,

                  unsigned long M, unsigned long N);


extern void

vec_mul512_byMN  (__VEC_U_512 *p,

                  __VEC_U_512 *m1, __VEC_U_512 *m2,

                  unsigned long M, unsigned long N);


/* Doxygen can not handle macros or attributes */

extern __VEC_U_256

__VEC_PWR_IMP (vec_mul128x128) (vui128_t m1l, vui128_t m2l);


extern __VEC_U_512

__VEC_PWR_IMP (vec_mul256x256) (__VEC_U_256 m1, __VEC_U_256 m2);


extern __VEC_U_640

__VEC_PWR_IMP (vec_mul512x128) (__VEC_U_512 m1, vui128_t m2);


extern __VEC_U_640

 __VEC_PWR_IMP (vec_madd512x128a128) (__VEC_U_512 m1, vui128_t m2,

                                      vui128_t a1);


extern __VEC_U_640

 __VEC_PWR_IMP (vec_madd512x128a512) (__VEC_U_512 m1, vui128_t m2,

                                      __VEC_U_512 a2);


extern __VEC_U_640

 __VEC_PWR_IMP (vec_madd512x128a128a512) (__VEC_U_512 m1, vui128_t m2,

                                          vui128_t a1, __VEC_U_512 a2);


extern __VEC_U_1024

__VEC_PWR_IMP (vec_mul512x512) (__VEC_U_512 m1, __VEC_U_512 m2);


extern __VEC_U_1024

__VEC_PWR_IMP (vec_madd512x512a512) (__VEC_U_512 m1, __VEC_U_512 m2,

                                     __VEC_U_512 a1);


extern void

__VEC_PWR_IMP (vec_mul1024x1024) (__VEC_U_2048 *r2048,

                                  __VEC_U_1024 *m1_1024, __VEC_U_1024 *m2_1024);


extern void

__VEC_PWR_IMP (vec_mul2048x2048) (__VEC_U_4096 *r4096,

                                  __VEC_U_2048 *m1_2048, __VEC_U_2048 *m2_2048);


extern void

__VEC_PWR_IMP (vec_mul128_byMN) (vui128_t *p,

                  vui128_t *m1, vui128_t *m2,

                  unsigned long M, unsigned long N);


extern void

__VEC_PWR_IMP (vec_mul512_byMN) (__VEC_U_512 *p,

                  __VEC_U_512 *m1, __VEC_U_512 *m2,

                  unsigned long M, unsigned long N);


#endif /* SRC_PVECLIB_VEC_INT512_PPC_H_ */