Đánh Giá Khả Năng Lập Trình: CRUXEval
CRUXEval (Code Reasoning, Understanding, and eXecution Evaluation) là một chuẩn đánh giá cải tiến dựa trên HumanEval, bao gồm 800 hàm Python.
paper: CRUXEval: Một Chuẩn Đánh Giá Cho Lập Trình, Hiểu Biết và Thực Thi
GitHub: cruxeval
Quy Trình Đánh Giá
Mỗi hàm đều có các cặp đầu vào-đầu ra tương ứng với hai nhiệm vụ: dự đoán đầu vào và dự đoán đầ ...
Đăng vào ngày 6 tháng 6 lúc 23:40