37.2° Blog

ArXiv Domain 2026-05-31

Created2019-06-18|AI

数据来源：ArXiv Domain LLM Domain Papers1. Lightweight Multimodal LLM-Enabled Cost-Effective Defect Grading of Power Transmission EquipmentAbstract:Defect grading of power transmission equipment (DGPTE) is crucial to the stability of electric energy transmission. Although existing machine learning methods exhibit strong capabilities in defect detection, they are plagued by difficulties in integrating expert experience and facing class imbalance in more refined defect grading field. To address this ...

ArXiv Domain 2026-06-14

Created2019-06-18|AI

数据来源：ArXiv Domain LLM Domain Papers1. EDEN: A Large-Scale Corpus of Clinical Notes for ItalianAbstract:We present EDEN (Emergency Department Electronic Notes), a new and unique large-scale corpus of clinical notes produced in Emergency Departments of Italian hospitals. The corpus, in its current version, is composed of approximately 4 million clinical notes fully anonymized, covering diverse phases of patient care during the stay in the emergency department. In addition, a subset of about six ...

ArXiv Domain 2026-06-16

Created2019-06-18|AI

数据来源：ArXiv Domain LLM Domain Papers1. The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge EvaluationAbstract:LLM-as-a-Judge is now widely used to rank model outputs, train reward models, and populate public leaderboards, but its run-to-run reliability remains under-characterized. We study repeated identical evaluations on 29 tasks spanning 10 categories using two OpenAI judge models (GPT-4o-mini and GPT-4.1-mini), with 50 pairwise trials and 50 pointwise trials per question, supplement ...