2024/03/12 썸네일형 리스트형 LLM 평가 개요 자연어 처리 영역에서 LLM의 성능을 평가하는 것은 중요한 측면입니다. 이 평가를 위한 주요 도구 중 하나는 ROUGE(Recall-Oriented Understudy for Gisting Evaluation) 측정항목입니다. ROUGE는 주로 LLM의 텍스트 생성 품질을 평가하는 데 사용됩니다. GPT-2와 같은 LLM은 종종 텍스트 완성이나 요약과 같은 작업에 참여합니다. 생성된 텍스트의 효율성은 확장성 및 일관성 문제로 인해 사람의 판단만으로는 효과적으로 측정할 수 없습니다. 예를 들어, 아래 코드를 실행하여 다음 프롬프트에 따라 텍스트를 생성하세요. 여기에 어떤 점수를 할당할 수 있는지 생각해 보고 다양한 텍스트에 점수를 매기는 표준화된 측정 기준을 생각해 보세요. # Generate tex.. 더보기 이전 1 다음