Issue 211206.1: Add lane support for SIMD/SIMT machines

Markus Metzger

__kernel void vec_add (__global char *dst, __global char *src)
{
  int i = get_global_id(0);
  dst[i] += src[i];
}

size_t global_offset[1] = { 0 };
size_t global_size[1] = { NITEMS };
size_t group_size[1] = { NLANES };
clEnqueueNDRangeKernel(queue, vec_add_kernel, 1, global_offset,
                       global_size, group_size, 0, NULL, NULL);

void vec_add (char dst[], char src[], int len) {
  #pragma omp simd
  for (int i = 0; i < len; ++i)
    dst[i] += src[i];
}

DW_OP_push_lane

DW_AT_num_lanes

DW_AT_num_lanes  |  Number of implicitly vectorized lanes

DW_AT_num_lanes  |  TBD  | constant, exprval, vallist

DW_OP_push_lane  |  TBD  |  0  |

void vec_add (int dst[], int src[], int len) {
  #pragma omp simd
  for (int i = 0; i < len; ++i)
      dst[i] += src[i];
}

.l0:
    move.64b    r3, 0              ; i = 0
.l1:            ; implicitly 8-wide vectorized loop body
    add.64b     r4, r3, 8          ; inext = i + 8
    cmp.64b     r4, r2             ; compare inext to len
    jmp.ge      .l2                ; jump to .l2 if inext >= len
    load.256b   v0, [r0+4*r3]      ; v0[n] = dst[i+n] for n in [0..7]
.l1.1:
    load.256b   v1, [r1+4*r3]      ; v1[n] = src[i+n] for n in [0..7]
.l1.2:          ; add 8 elements
    add.simd-8  v0, v0, v1         ; v0[n] = v0[n] + v1[n] for n in [0..7]
    store.256b  [r0+4*r3], v0      ; dst[i+n] = v0[n] for i in [0..7]
.l1.3:
    mov.64b     r3, r4             ; i = inext
    jmp         .l1                ; loop back for more
.l2:            ; scalar loop body
    add.64b     r4, r3, 1          ; inext = i + 1
    cmp.64b     r4, r2             ; compare inext to len
    jmp.ge      .l3                ; jump to .l3 if inext >= len
    load.32b    r5, [r0+4*r3]      ; r5 = dst[i]
.l2.1:
    load.32b    r6, [r1+4*r3]      ; r6 = src[i]
.l2.2:          ; add a single element
    add.32b     r5, r5, r6         ; r5 = r5 + r6
    store.32b   [r0+4*r3], r5      ; dst[i] = r5
.l2.3:
    mov.64b     r3, r4             ; i = inext
    jmp .l2                        ; loop back for more
.l3:
    return
.l4:

DW_TAG_subprogram
    DW_AT_name "vec_add"
    DW_AT_num_lanes .vallist.0
    ...
    DW_TAG_variable
        DW_AT_name "i"
        DW_AT_type int
        DW_AT_location .loclist.1
        ...

.vallist.0:
    range [.l1, .l2)
        DW_OP_lit8
    end-of-list

.loclist.1:
    range [.l0, .l1)
        DW_OP_regx r3
    range [.l1, .l2)
        DW_OP_bregx r3, 0
        DW_OP_push_lane
        DW_OP_plus
        DW_OP_stack_value
    range [.l2, .l4)
        DW_OP_regx r3
    end-of-list

Author:	Markus Metzger
Champion:	Markus Metzger
Date submitted:	2021-12-06
Date revised:	2024-05-13
Date closed:	2024-05-13
Type:	Enhancement
Status:	Accepted
DWARF Version:	6