소모임 소모임전체 임시소모임 ·굴러간당 ·방탄소년당 ·아이포니앙 ·주식한당 ·MaClien ·일본산당 ·자전거당 ·가상화폐당 ·안드로메당 ·개발한당 ·달린당 ·나스당 ·땀흘린당 ·키보드당 ·골프당 ·이륜차당 ·노젓는당 ·위스키당 ·리눅서당 ·캠핑간당 ·AI그림당 ·소셜게임한당 ·소시당 ·바다건너당 ·냐옹이당 ·사과시계당 ·육아당 ·방송한당 ·패스오브엑자일당 ·와인마신당 ·갖고다닌당 ·덕질한당 ·PC튜닝한당 ·클래시앙 ·어학당 ·전기자전거당 ·요리한당 ·스팀한당 ·포뮬러당 ·젬워한당 ·퐁당퐁당 ·찰칵찍당 ·AI당 ·대구당 ·디아블로당 ·클다방 ·소리당 ·테니스친당 ·IoT당 ·꼬들한당 ·레고당 ·뚝딱뚝당 ·3D메이킹 ·X세대당 ·ADHD당 ·날아간당 ·배드민턴당 ·야구당 ·농구당 ·블랙베리당 ·곰돌이당 ·비어있당 ·FM당구당 ·블록체인당 ·보드게임당 ·활자중독당 ·볼링친당 ·문명하셨당 ·콘솔한당 ·쿠키런당 ·DANGER당 ·개판이당 ·동숲한당 ·날아올랑 ·e북본당 ·이브한당 ·패셔니앙 ·물고기당 ·도시어부당 ·FM한당 ·맛있겠당 ·걸그룹당 ·안경쓴당 ·차턴당 ·총쏜당 ·내집마련당 ·하스스톤한당 ·히어로즈한당 ·인스타한당 ·KARA당 ·가죽당 ·LOLien ·Mabinogien ·임시소모임 ·미드당 ·밀리터리당 ·땅판당 ·헌팅한당 ·오른당 ·영화본당 ·MTG한당 ·노키앙 ·적는당 ·그림그린당 ·소풍간당 ·심는당 ·라즈베리파이당 ·품앱이당 ·리듬탄당 ·Sea마당 ·SimSim하당 ·심야식당 ·윈태블릿당 ·미끄러진당 ·축구당 ·나혼자산당 ·스타한당 ·파도탄당 ·테스트당 ·빨콩이당 ·공대시계당 ·여행을떠난당 ·터치패드당 ·트윗당 ·창업한당 ·VR당 ·시계찬당 ·WebOs당 ·WOW당 ·윈폰이당

공지[점검] 잠시후 23시30분부터 30분 가량 서버 점검작업이 실시됩니다. 더보기

새로운소식

왕의 죽음 - Claude 3 가 GPT-4를 처음으로 제침 26

DLBIA

58,166

2024-03-28 04:50:58 수정일 : 2024-03-28 05:05:32 121.♡.247.123

1 2.png

AI 연구자들이 AI 언어 모델의 상대적 능력을 측정하기 위해 사용하는 인기 있는 크라우드소싱 순위표인 챗봇 아레나(Chatbot Arena)에서 Anthropic의 대형 언어 모델(LLM)인 Claude 3 Opus의 Elo 레이팅이 OpenAI의 GPT-4 를 최초로 능가했습니다

아래 사이트에서 직접 챗봇을 테스트하고 투표할 수 있습니다.

https://chat.lmsys.org/

출처 : https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

DLBIA 님의 게시글 댓글

주소복사
Facebook
Twitter

댓글 • [26]

1 2 3 4 5

IP 132.♡.73.225

03-28 2024-03-28 05:40:56

학실히 써보면 체감이 될정도로 좋아요
ChatGPT 4.5가 빨리 출시될수도 있겠네요

카프리썬

1 2 3 4 5

IP 118.♡.118.83

03-28 2024-03-28 06:14:53

저도 둘 다 쓰는데 오푸스 한표입니다 ㅎㅎ

부산우익

1 2 3 4 5

IP 223.♡.212.86

03-28 2024-03-28 08:24:00

저도 클로드로 갈아탔습니다!

잠시잊자.

1 2 3 4 5

IP 106.♡.69.56

03-28 2024-03-28 19:09:53

@부산우익님 갈아타면 기존의 gpt 데이타가 지워지고 그런건 아니겠죠?

삭제 되었습니다.

1 2 3 4 5

IP 172.♡.95.21

03-28 2024-03-28 08:31:30

와 정말 이 바닥은 아직 모르는거네요.
chatpgt 4.5를 제치다니...

팀던컨

1 2 3 4 5

IP 121.♡.171.219

03-28 2024-03-28 10:10:26

@님 4.5는 아직 나오지도 않았...

1 2 3 4 5

IP 172.♡.94.1

03-28 2024-03-28 12:35:57 / 수정일: 2024-03-28 12:36:19

@팀던컨님 아앗 댓글 읽으면서 스크롤 내리다 4.5 언급한 댓글을 본문과 착각했네요 ;;;

고르게썰어주마

1 2 3 4 5

IP 24.♡.62.31

03-28 2024-03-28 09:07:04

오호.. 확실히 클로드가 더 좋게 느껴지네요.

매일한가한

1 2 3 4 5

IP 119.♡.16.116

03-28 2024-03-28 09:17:59 / 수정일: 2024-03-28 09:18:28

클로드 수학은 못해요. 여러번 비교해봤는데 수학문제풀이는 chatgpt가 좋았어요..

폭풍의눈

1 2 3 4 5

IP 117.♡.14.105

03-28 2024-03-28 09:22:30

매일한가한님// 맞는거 같네요. 둘 다 못하지만 그래도 gpt가 낫더군요
요

skepticism

1 2 3 4 5

IP 147.♡.87.111

03-28 2024-03-28 11:41:38

@매일한가한님 GPT는 이과, 클로드는 문과입니다.

1 2 3 4 5

IP 211.♡.125.5

03-28 2024-03-28 09:25:56 / 수정일: 2024-03-28 09:37:44

써보니 장단이 있습니다. 저도 순수 언어생성으로는 claude3 쪽이 더 낫다고 생각은 했는데, 이외에 그림의 해석과 생성, 플러그인까지 결합된 chat gpt4는 사용성 측면에서 우월한 측면이 있습니다.

만약 claude 쪽도 자체 개발능력이 안되면, 구글 라이브러리를 붙이든 뭐든 기능적으로 확장할 필요가 있습니다.

연근술사

1 2 3 4 5

IP 175.♡.249.73

03-28 2024-03-28 18:57:15 / 수정일: 2024-03-28 18:59:59

@님 클로드의 언어능력을 활용해 가상여친 상황극을 해보니 꽤 달달하더란 ㅎ
아직 리얼수준까진 아니고 90년대 드라마나 그 국민연예시뮬게임 자동생성정도의 느낌이지만요
과제에 막히는 상황이오면 gpt3.5는 울먹이며 떼쓰는 초딩영재소년, 클로드3소넷은 요령있게
둘러대거나 떠넘기기 능숙한 경력직 상담여직원같은 인격이 나오는것도 흥미로웠네요

STD-DIVTAG

1 2 3 4 5

IP 116.♡.88.20

03-28 2024-03-28 09:42:59

좀 써보니 자연스러운건 claude인것같은데 정보제공은 GPT가 좀 더 잘하는것 같습니다

fiat

1 2 3 4 5

IP 220.♡.52.116

03-28 2024-03-28 09:55:12 / 수정일: 2024-03-28 09:55:51

써보니까 작문이나 언어생성쪽은 클로드3가 정말 뛰어납니다. 소설쓸때 정말 대박입니다..

근데 추론 같은 사용자의 의도 파악이나 새로운 정보를 적절하게 조합하는거나.. 그런건 gpt가 더 낫습니다.

개인적인 평가를 내리자면, 말하기 능력 자체는 클로드가 낫지만 일반지능 자체는 gpt가 더 뛰어난듯 합니다.

gpt가 작년초에 나왔다는걸 감안하지 않다고 하더라도 기술적으로는 더 뛰어난 모델이라고 생각합니다.

nariyada

1 2 3 4 5

IP 1.♡.209.117

03-28 2024-03-28 10:23:23

곧 4.5 나온다고는 하는데 주변에서도 클루드로 넘어간 분들 꽤 있네요.

전 가끔 제 질문을 이해 못하고 동문서답하는 경우가 많아서 고민중입니다.
제대로 이해만하면 GPT보다 답이 좋기는 한데요.

크앙사자

1 2 3 4 5

IP 45.♡.210.49

03-28 2024-03-28 11:27:25

이게 나온지 한참이나 지난 4 터보를 이제야 앞섰다는 점에서 오히려 격차가 얼마나 큰지 알 수 있죠 게다가 순수 이해력만 놓고 보자면 오푸스가 아직도 4 터보보다 딸린다는 느낌을 받을 때가 꽤 있습니다. 4.5나오면 차이는 다시 안드로메다로 갈듯 하네요

천문공

1 2 3 4 5

IP 122.♡.56.205

03-28 2024-03-28 14:52:47

@크앙사자님
문장 자체의 순수 이해력에서 앞서기 때문에 클로드가 높은 점수와 평가를 받습니다.
그런데, 이해력이라는 것도 분야 별로 달라
아마 크앙사자님이 이용하신 부분에선 조금 모자란 모습을 보였나 봅니다.

대개 전반적인 이해도 자체가 클로드가 높기 때문에 더 나은 평가를 한다고 보셔야 됩니다.

Xorn

1 2 3 4 5

IP 220.♡.215.38

03-28 2024-03-28 11:33:06

오 저는 연속으로 몇번이나 command-r을 더 좋다고 선택했네요. 이건 또 처음 보는 모델인데 말이죠.

크리스탈블루

1 2 3 4 5

IP 112.♡.114.187

03-28 2024-03-28 13:31:09

블라인드 테스트라 안된것 같기는 하지만
비교 테스트시 GPT 모델을 사용자가 지정을 할수 없나요?

DLBIA

1 2 3 4 5

IP 172.♡.94.32

03-28 2024-03-28 16:46:34

@크리스탈블루님 arena(side-by-side) 탭 클릭하시면 지정 가능합니다

연근술사

1 2 3 4 5

IP 175.♡.249.73

03-28 2024-03-28 16:29:35 / 수정일: 2024-03-28 18:41:00

무료끼리 비교했을 때의 예로 제 경우 mcu의 한계 스트리밍성능을 병렬화로 최대로 끌어내야하는 과제가 있다면 GPT-3.5는 보고서형식으로 1번부터 8번까지 쭉 나열, 집요하게 요구하면 항목이 더 늘며 안되는건 안된다고 내용이 더 분명해지다 어느순간 거짓 허언증으로 안돼는걸 된다고 우겨버리더군요 ( 인간이 미안해 :_; )
클로드3-sonnet의 경우 평균 5~6회의 간결한문장으로 핵심만 이해쉬운 단어로 요약하다
임계점을 넘으면 그냥 다른대안을 제시합니다. 그 덕에 요즘 피코 pio를 연구하게 됐지요 ㅎ
클로드도 중요한 앞뒤는 빼먹어서 결국 웹의 레퍼예제를 스스로 공부해야하지만 잘될진 몰라도
방향성을 보다 잘 제시해주는것 만으로도 AI가 제 몫은 하는거 같습니다.