AI 연구자들이 AI 언어 모델의 상대적 능력을 측정하기 위해 사용하는 인기 있는 크라우드소싱 순위표인 챗봇 아레나(Chatbot Arena)에서 Anthropic의 대형 언어 모델(LLM)인 Claude 3 Opus의 Elo 레이팅이 OpenAI의 GPT-4 를 최초로 능가했습니다
아래 사이트에서 직접 챗봇을 테스트하고 투표할 수 있습니다.
AI 연구자들이 AI 언어 모델의 상대적 능력을 측정하기 위해 사용하는 인기 있는 크라우드소싱 순위표인 챗봇 아레나(Chatbot Arena)에서 Anthropic의 대형 언어 모델(LLM)인 Claude 3 Opus의 Elo 레이팅이 OpenAI의 GPT-4 를 최초로 능가했습니다
아래 사이트에서 직접 챗봇을 테스트하고 투표할 수 있습니다.
ChatGPT 4.5가 빨리 출시될수도 있겠네요
chatpgt 4.5를 제치다니...
요
만약 claude 쪽도 자체 개발능력이 안되면, 구글 라이브러리를 붙이든 뭐든 기능적으로 확장할 필요가 있습니다.
아직 리얼수준까진 아니고 90년대 드라마나 그 국민연예시뮬게임 자동생성정도의 느낌이지만요
과제에 막히는 상황이오면 gpt3.5는 울먹이며 떼쓰는 초딩영재소년, 클로드3소넷은 요령있게
둘러대거나 떠넘기기 능숙한 경력직 상담여직원같은 인격이 나오는것도 흥미로웠네요
근데 추론 같은 사용자의 의도 파악이나 새로운 정보를 적절하게 조합하는거나.. 그런건 gpt가 더 낫습니다.
개인적인 평가를 내리자면, 말하기 능력 자체는 클로드가 낫지만 일반지능 자체는 gpt가 더 뛰어난듯 합니다.
gpt가 작년초에 나왔다는걸 감안하지 않다고 하더라도 기술적으로는 더 뛰어난 모델이라고 생각합니다.
전 가끔 제 질문을 이해 못하고 동문서답하는 경우가 많아서 고민중입니다.
제대로 이해만하면 GPT보다 답이 좋기는 한데요.
문장 자체의 순수 이해력에서 앞서기 때문에 클로드가 높은 점수와 평가를 받습니다.
그런데, 이해력이라는 것도 분야 별로 달라
아마 크앙사자님이 이용하신 부분에선 조금 모자란 모습을 보였나 봅니다.
대개 전반적인 이해도 자체가 클로드가 높기 때문에 더 나은 평가를 한다고 보셔야 됩니다.
비교 테스트시 GPT 모델을 사용자가 지정을 할수 없나요?
클로드3-sonnet의 경우 평균 5~6회의 간결한문장으로 핵심만 이해쉬운 단어로 요약하다
임계점을 넘으면 그냥 다른대안을 제시합니다. 그 덕에 요즘 피코 pio를 연구하게 됐지요 ㅎ
클로드도 중요한 앞뒤는 빼먹어서 결국 웹의 레퍼예제를 스스로 공부해야하지만 잘될진 몰라도
방향성을 보다 잘 제시해주는것 만으로도 AI가 제 몫은 하는거 같습니다.
순수 모델 성능비교를 서비스 전체로 오인하면 안됩니다