Unrolled build for #152020

rust-timer · web-flow · commit 11c9795cf553 · 2026-02-05T11:55:45.000+01:00
Rollup merge of #152020 - Sa4dUs:offload-remove-dummy-loads, r=ZuseZ4 Remove dummy loads on offload codegen The current logic generates two dummy loads to prevent some globals from being optimized away. This blocks memtransfer loop hoisting optimizations, so it's time to remove them. r? @ZuseZ4
diff --git a/compiler/rustc_codegen_llvm/src/builder/gpu_offload.rs b/compiler/rustc_codegen_llvm/src/builder/gpu_offload.rs
@@ -347,7 +347,6 @@ pub(crate) struct OffloadKernelGlobals<'ll> {
     pub offload_sizes: &'ll llvm::Value,
     pub memtransfer_types: &'ll llvm::Value,
     pub region_id: &'ll llvm::Value,
-    pub offload_entry: &'ll llvm::Value,
 }
 
 fn gen_tgt_data_mappers<'ll>(
@@ -468,8 +467,12 @@ pub(crate) fn gen_define_handling<'ll>(
     let c_section_name = CString::new("llvm_offload_entries").unwrap();
     llvm::set_section(offload_entry, &c_section_name);
 
-    let result =
-        OffloadKernelGlobals { offload_sizes, memtransfer_types, region_id, offload_entry };
+    cx.add_compiler_used_global(offload_entry);
+
+    let result = OffloadKernelGlobals { offload_sizes, memtransfer_types, region_id };
+
+    // FIXME(Sa4dUs): use this global for constant offload sizes
+    cx.add_compiler_used_global(result.offload_sizes);
 
     cx.offload_kernel_cache.borrow_mut().insert(symbol, result);
 
@@ -532,8 +535,7 @@ pub(crate) fn gen_call_handling<'ll, 'tcx>(
     offload_dims: &OffloadKernelDims<'ll>,
 ) {
     let cx = builder.cx;
-    let OffloadKernelGlobals { offload_sizes, offload_entry, memtransfer_types, region_id } =
-        offload_data;
+    let OffloadKernelGlobals { memtransfer_types, region_id, .. } = offload_data;
     let OffloadKernelDims { num_workgroups, threads_per_block, workgroup_dims, thread_dims } =
         offload_dims;
 
@@ -548,20 +550,6 @@ pub(crate) fn gen_call_handling<'ll, 'tcx>(
     let num_args = types.len() as u64;
     let bb = builder.llbb();
 
-    // FIXME(Sa4dUs): dummy loads are a temp workaround, we should find a proper way to prevent these
-    // variables from being optimized away
-    for val in [offload_sizes, offload_entry] {
-        unsafe {
-            let dummy = llvm::LLVMBuildLoad2(
-                &builder.llbuilder,
-                llvm::LLVMTypeOf(val),
-                val,
-                b"dummy\0".as_ptr() as *const _,
-            );
-            llvm::LLVMSetVolatile(dummy, llvm::TRUE);
-        }
-    }
-
     // Step 0)
     unsafe {
         llvm::LLVMRustPositionBuilderPastAllocas(&builder.llbuilder, builder.llfn());
diff --git a/tests/codegen-llvm/gpu_offload/gpu_host.rs b/tests/codegen-llvm/gpu_offload/gpu_host.rs
@@ -55,9 +55,7 @@ pub fn _kernel_1(x: &mut [f32; 256]) {
 // CHECK-NEXT:   %.offload_ptrs = alloca [1 x ptr], align 8
 // CHECK-NEXT:   %.offload_sizes = alloca [1 x i64], align 8
 // CHECK-NEXT:   %kernel_args = alloca %struct.__tgt_kernel_arguments, align 8
-// CHECK:   %dummy = load volatile ptr, ptr @.offload_sizes.[[K]], align 8
-// CHECK-NEXT:   %dummy1 = load volatile ptr, ptr @.offloading.entry.[[K]], align 8
-// CHECK-NEXT:   call void @__tgt_init_all_rtls()
+// CHECK:        call void @__tgt_init_all_rtls()
 // CHECK-NEXT:   store ptr %x, ptr %.offload_baseptrs, align 8
 // CHECK-NEXT:   store ptr %x, ptr %.offload_ptrs, align 8
 // CHECK-NEXT:   store i64 1024, ptr %.offload_sizes, align 8