64 bits OP, impl V_ADDC_U32 & V_MAD_U64_U32 (#310)

* impl V_ADDC_U32 & V_MAD_U64_U32 * shader recompiler: add 64 bits version to get register / GetSrc * fix V_ADDC_U32 carry * shader recompiler: removed automatic conversion to force_flt in GetSRc * shader recompiler: auto cast between u32 and u64 during ssa pass * shader recompiler: fix SetVectorReg64 & standardize switches-case * shader translate: fix overflow detection in V_ADD_I32 use vcc lo instead of vcc thread bit * shader recompiler: more 64-bit work - removed bit_size parameter from Get[Scalar/Vector]Register - add BitwiseOr64 - add SetDst64 as a replacement for SetScalarReg64 & SetVectorReg64 - add GetSrc64 for 64-bit value * shader recompiler: add V_MAD_U64_U32 vcc output - add V_MAD_U64_U32 vcc output - ILessThan for 64-bits * shader recompiler: removed unnecessary changes & missing consts * shader_recompiler: Add s64 type in constant propagation
2025-07-08 01:56:21 +00:00 · 2024-07-27 11:23:59 -03:00 · 2024-07-27 11:23:59 -03:00 · 680192a0c4
commit 680192a0c4
parent d84b4adc83
12 changed files with 361 additions and 40 deletions
--- a/src/shader_recompiler/frontend/opcodes.h
+++ b/src/shader_recompiler/frontend/opcodes.h
@ -2392,10 +2392,10 @@ enum class OperandField : u32 {
    ConstFloatPos_4_0,
    ConstFloatNeg_4_0,
    VccZ = 251,
-    ExecZ,
-    Scc,
-    LdsDirect,
-    LiteralConst,
+    ExecZ = 252,
+    Scc = 253,
+    LdsDirect = 254,
+    LiteralConst = 255,
    VectorGPR,

    Undefined = 0xFFFFFFFF,
--- a/src/shader_recompiler/frontend/translate/translate.cpp
+++ b/src/shader_recompiler/frontend/translate/translate.cpp
@ -76,21 +76,21 @@ void Translator::EmitPrologue() {
    }
 }

+template <>
 IR::U32F32 Translator::GetSrc(const InstOperand& operand, bool force_flt) {
-    // Input modifiers work on float values.
-    force_flt |= operand.input_modifier.abs | operand.input_modifier.neg;
-
    IR::U32F32 value{};
+
+    const bool is_float = operand.type == ScalarType::Float32 || force_flt;
    switch (operand.field) {
    case OperandField::ScalarGPR:
-        if (operand.type == ScalarType::Float32 || force_flt) {
+        if (is_float) {
            value = ir.GetScalarReg<IR::F32>(IR::ScalarReg(operand.code));
        } else {
            value = ir.GetScalarReg<IR::U32>(IR::ScalarReg(operand.code));
        }
        break;
    case OperandField::VectorGPR:
-        if (operand.type == ScalarType::Float32 || force_flt) {
+        if (is_float) {
            value = ir.GetVectorReg<IR::F32>(IR::VectorReg(operand.code));
        } else {
            value = ir.GetVectorReg<IR::U32>(IR::VectorReg(operand.code));
@ -164,15 +164,160 @@ IR::U32F32 Translator::GetSrc(const InstOperand& operand, bool force_flt) {
        UNREACHABLE();
    }

-    if (operand.input_modifier.abs) {
-        value = ir.FPAbs(value);
-    }
-    if (operand.input_modifier.neg) {
-        value = ir.FPNeg(value);
+    if (is_float) {
+        if (operand.input_modifier.abs) {
+            value = ir.FPAbs(value);
+        }
+        if (operand.input_modifier.neg) {
+            value = ir.FPNeg(value);
+        }
    }
    return value;
 }

+template <>
+IR::U32 Translator::GetSrc(const InstOperand& operand, bool force_flt) {
+    return GetSrc<IR::U32F32>(operand, force_flt);
+}
+
+template <>
+IR::F32 Translator::GetSrc(const InstOperand& operand, bool) {
+    return GetSrc<IR::U32F32>(operand, true);
+}
+
+template <>
+IR::U64F64 Translator::GetSrc64(const InstOperand& operand, bool force_flt) {
+    IR::Value value_hi{};
+    IR::Value value_lo{};
+
+    bool immediate = false;
+    const bool is_float = operand.type == ScalarType::Float64 || force_flt;
+    switch (operand.field) {
+    case OperandField::ScalarGPR:
+        if (is_float) {
+            value_lo = ir.GetScalarReg<IR::F32>(IR::ScalarReg(operand.code));
+            value_hi = ir.GetScalarReg<IR::F32>(IR::ScalarReg(operand.code + 1));
+        } else if (operand.type == ScalarType::Uint64 || operand.type == ScalarType::Sint64) {
+            value_lo = ir.GetScalarReg<IR::U32>(IR::ScalarReg(operand.code));
+            value_hi = ir.GetScalarReg<IR::U32>(IR::ScalarReg(operand.code + 1));
+        } else {
+            UNREACHABLE();
+        }
+        break;
+    case OperandField::VectorGPR:
+        if (is_float) {
+            value_lo = ir.GetVectorReg<IR::F32>(IR::VectorReg(operand.code));
+            value_hi = ir.GetVectorReg<IR::F32>(IR::VectorReg(operand.code + 1));
+        } else if (operand.type == ScalarType::Uint64 || operand.type == ScalarType::Sint64) {
+            value_lo = ir.GetVectorReg<IR::U32>(IR::VectorReg(operand.code));
+            value_hi = ir.GetVectorReg<IR::U32>(IR::VectorReg(operand.code + 1));
+        } else {
+            UNREACHABLE();
+        }
+        break;
+    case OperandField::ConstZero:
+        immediate = true;
+        if (force_flt) {
+            value_lo = ir.Imm64(0.0);
+        } else {
+            value_lo = ir.Imm64(u64(0U));
+        }
+        break;
+    case OperandField::SignedConstIntPos:
+        ASSERT(!force_flt);
+        immediate = true;
+        value_lo = ir.Imm64(s64(operand.code) - SignedConstIntPosMin + 1);
+        break;
+    case OperandField::SignedConstIntNeg:
+        ASSERT(!force_flt);
+        immediate = true;
+        value_lo = ir.Imm64(-s64(operand.code) + SignedConstIntNegMin - 1);
+        break;
+    case OperandField::LiteralConst:
+        immediate = true;
+        if (force_flt) {
+            UNREACHABLE(); // There is a literal double?
+        } else {
+            value_lo = ir.Imm64(u64(operand.code));
+        }
+        break;
+    case OperandField::ConstFloatPos_1_0:
+        immediate = true;
+        if (force_flt) {
+            value_lo = ir.Imm64(1.0);
+        } else {
+            value_lo = ir.Imm64(std::bit_cast<u64>(f64(1.0)));
+        }
+        break;
+    case OperandField::ConstFloatPos_0_5:
+        immediate = true;
+        value_lo = ir.Imm64(0.5);
+        break;
+    case OperandField::ConstFloatPos_2_0:
+        immediate = true;
+        value_lo = ir.Imm64(2.0);
+        break;
+    case OperandField::ConstFloatPos_4_0:
+        immediate = true;
+        value_lo = ir.Imm64(4.0);
+        break;
+    case OperandField::ConstFloatNeg_0_5:
+        immediate = true;
+        value_lo = ir.Imm64(-0.5);
+        break;
+    case OperandField::ConstFloatNeg_1_0:
+        immediate = true;
+        value_lo = ir.Imm64(-1.0);
+        break;
+    case OperandField::ConstFloatNeg_2_0:
+        immediate = true;
+        value_lo = ir.Imm64(-2.0);
+        break;
+    case OperandField::ConstFloatNeg_4_0:
+        immediate = true;
+        value_lo = ir.Imm64(-4.0);
+        break;
+    case OperandField::VccLo: {
+        value_lo = ir.GetVccLo();
+        value_hi = ir.GetVccHi();
+    } break;
+    case OperandField::VccHi:
+        UNREACHABLE();
+    default:
+        UNREACHABLE();
+    }
+
+    IR::Value value;
+
+    if (immediate) {
+        value = value_lo;
+    } else if (is_float) {
+        throw NotImplementedException("required OpPackDouble2x32 implementation");
+    } else {
+        IR::Value packed = ir.CompositeConstruct(value_lo, value_hi);
+        value = ir.PackUint2x32(packed);
+    }
+
+    if (is_float) {
+        if (operand.input_modifier.abs) {
+            value = ir.FPAbs(IR::F32F64(value));
+        }
+        if (operand.input_modifier.neg) {
+            value = ir.FPNeg(IR::F32F64(value));
+        }
+    }
+    return IR::U64F64(value);
+}
+
+template <>
+IR::U64 Translator::GetSrc64(const InstOperand& operand, bool force_flt) {
+    return GetSrc64<IR::U64F64>(operand, force_flt);
+}
+template <>
+IR::F64 Translator::GetSrc64(const InstOperand& operand, bool) {
+    return GetSrc64<IR::U64F64>(operand, true);
+}
+
 void Translator::SetDst(const InstOperand& operand, const IR::U32F32& value) {
    IR::U32F32 result = value;
    if (operand.output_modifier.multiplier != 0.f) {
@ -197,6 +342,43 @@ void Translator::SetDst(const InstOperand& operand, const IR::U32F32& value) {
    }
 }

+void Translator::SetDst64(const InstOperand& operand, const IR::U64F64& value_raw) {
+    IR::U64F64 value_untyped = value_raw;
+
+    const bool is_float = value_raw.Type() == IR::Type::F64 || value_raw.Type() == IR::Type::F32;
+    if (is_float) {
+        if (operand.output_modifier.multiplier != 0.f) {
+            value_untyped =
+                ir.FPMul(value_untyped, ir.Imm64(f64(operand.output_modifier.multiplier)));
+        }
+        if (operand.output_modifier.clamp) {
+            value_untyped = ir.FPSaturate(value_raw);
+        }
+    }
+    const IR::U64 value =
+        is_float ? ir.BitCast<IR::U64>(IR::F64{value_untyped}) : IR::U64{value_untyped};
+
+    const IR::Value unpacked{ir.UnpackUint2x32(value)};
+    const IR::U32 lo{ir.CompositeExtract(unpacked, 0U)};
+    const IR::U32 hi{ir.CompositeExtract(unpacked, 1U)};
+    switch (operand.field) {
+    case OperandField::ScalarGPR:
+        ir.SetScalarReg(IR::ScalarReg(operand.code + 1), hi);
+        return ir.SetScalarReg(IR::ScalarReg(operand.code), lo);
+    case OperandField::VectorGPR:
+        ir.SetVectorReg(IR::VectorReg(operand.code + 1), hi);
+        return ir.SetVectorReg(IR::VectorReg(operand.code), lo);
+    case OperandField::VccLo:
+        UNREACHABLE();
+    case OperandField::VccHi:
+        UNREACHABLE();
+    case OperandField::M0:
+        break;
+    default:
+        UNREACHABLE();
+    }
+}
+
 void Translator::EmitFetch(const GcnInst& inst) {
    // Read the pointer to the fetch shader assembly.
    const u32 sgpr_base = inst.src[0].code;
@ -320,6 +502,9 @@ void Translate(IR::Block* block, u32 block_base, std::span<const GcnInst> inst_l
        case Opcode::V_ADD_I32:
            translator.V_ADD_I32(inst);
            break;
+        case Opcode::V_ADDC_U32:
+            translator.V_ADDC_U32(inst);
+            break;
        case Opcode::V_CVT_F32_I32:
            translator.V_CVT_F32_I32(inst);
            break;
@ -470,6 +655,9 @@ void Translate(IR::Block* block, u32 block_base, std::span<const GcnInst> inst_l
        case Opcode::IMAGE_LOAD:
            translator.IMAGE_LOAD(false, inst);
            break;
+        case Opcode::V_MAD_U64_U32:
+            translator.V_MAD_U64_U32(inst);
+            break;
        case Opcode::V_CMP_GE_I32:
            translator.V_CMP_U32(ConditionOp::GE, true, false, inst);
            break;
--- a/src/shader_recompiler/frontend/translate/translate.h
+++ b/src/shader_recompiler/frontend/translate/translate.h
@ -100,6 +100,7 @@ public:
    void V_AND_B32(const GcnInst& inst);
    void V_LSHLREV_B32(const GcnInst& inst);
    void V_ADD_I32(const GcnInst& inst);
+    void V_ADDC_U32(const GcnInst& inst);
    void V_CVT_F32_I32(const GcnInst& inst);
    void V_CVT_F32_U32(const GcnInst& inst);
    void V_MAD_F32(const GcnInst& inst);
@ -129,6 +130,7 @@ public:
    void V_CVT_U32_F32(const GcnInst& inst);
    void V_SUBREV_F32(const GcnInst& inst);
    void V_SUBREV_I32(const GcnInst& inst);
+    void V_MAD_U64_U32(const GcnInst& inst);
    void V_CMP_U32(ConditionOp op, bool is_signed, bool set_exec, const GcnInst& inst);
    void V_LSHRREV_B32(const GcnInst& inst);
    void V_MUL_HI_U32(bool is_signed, const GcnInst& inst);
@ -186,8 +188,12 @@ public:
    void EXP(const GcnInst& inst);

 private:
-    IR::U32F32 GetSrc(const InstOperand& operand, bool flt_zero = false);
+    template <typename T = IR::U32F32>
+    [[nodiscard]] T GetSrc(const InstOperand& operand, bool flt_zero = false);
+    template <typename T = IR::U64F64>
+    [[nodiscard]] T GetSrc64(const InstOperand& operand, bool flt_zero = false);
    void SetDst(const InstOperand& operand, const IR::U32F32& value);
+    void SetDst64(const InstOperand& operand, const IR::U64F64& value_raw);

 private:
    IR::IREmitter ir;
--- a/src/shader_recompiler/frontend/translate/vector_alu.cpp
+++ b/src/shader_recompiler/frontend/translate/vector_alu.cpp
@ -67,7 +67,8 @@ void Translator::V_OR_B32(bool is_xor, const GcnInst& inst) {
    const IR::U32 src0{GetSrc(inst.src[0])};
    const IR::U32 src1{ir.GetVectorReg(IR::VectorReg(inst.src[1].code))};
    const IR::VectorReg dst_reg{inst.dst[0].code};
-    ir.SetVectorReg(dst_reg, is_xor ? ir.BitwiseXor(src0, src1) : ir.BitwiseOr(src0, src1));
+    ir.SetVectorReg(dst_reg,
+                    is_xor ? ir.BitwiseXor(src0, src1) : IR::U32(ir.BitwiseOr(src0, src1)));
 }

 void Translator::V_AND_B32(const GcnInst& inst) {
@ -92,6 +93,30 @@ void Translator::V_ADD_I32(const GcnInst& inst) {
    // TODO: Carry
 }

+void Translator::V_ADDC_U32(const GcnInst& inst) {
+
+    const auto src0 = GetSrc<IR::U32>(inst.src[0]);
+    const auto src1 = GetSrc<IR::U32>(inst.src[1]);
+
+    IR::U32 scarry;
+    if (inst.src_count == 3) { // VOP3
+        IR::U1 thread_bit{ir.GetThreadBitScalarReg(IR::ScalarReg(inst.src[2].code))};
+        scarry = IR::U32{ir.Select(thread_bit, ir.Imm32(1), ir.Imm32(0))};
+    } else { // VOP2
+        scarry = ir.GetVccLo();
+    }
+
+    const IR::U32 result = ir.IAdd(ir.IAdd(src0, src1), scarry);
+
+    const IR::VectorReg dst_reg{inst.dst[0].code};
+    ir.SetVectorReg(dst_reg, result);
+
+    const IR::U1 less_src0 = ir.ILessThan(result, src0, false);
+    const IR::U1 less_src1 = ir.ILessThan(result, src1, false);
+    const IR::U1 did_overflow = ir.LogicalOr(less_src0, less_src1);
+    ir.SetVcc(did_overflow);
+}
+
 void Translator::V_CVT_F32_I32(const GcnInst& inst) {
    const IR::U32 src0{GetSrc(inst.src[0])};
    const IR::VectorReg dst_reg{inst.dst[0].code};
@ -294,6 +319,23 @@ void Translator::V_SUBREV_I32(const GcnInst& inst) {
    // TODO: Carry-out
 }

+void Translator::V_MAD_U64_U32(const GcnInst& inst) {
+
+    const auto src0 = GetSrc<IR::U32>(inst.src[0]);
+    const auto src1 = GetSrc<IR::U32>(inst.src[1]);
+    const auto src2 = GetSrc64<IR::U64>(inst.src[2]);
+
+    const IR::U64 mul_result = ir.UConvert(64, ir.IMul(src0, src1));
+    const IR::U64 sum_result = ir.IAdd(mul_result, src2);
+
+    SetDst64(inst.dst[0], sum_result);
+
+    const IR::U1 less_src0 = ir.ILessThan(sum_result, mul_result, false);
+    const IR::U1 less_src1 = ir.ILessThan(sum_result, src2, false);
+    const IR::U1 did_overflow = ir.LogicalOr(less_src0, less_src1);
+    ir.SetVcc(did_overflow);
+}
+
 void Translator::V_CMP_U32(ConditionOp op, bool is_signed, bool set_exec, const GcnInst& inst) {
    const IR::U32 src0{GetSrc(inst.src[0])};
    const IR::U32 src1{GetSrc(inst.src[1])};