보스톤코리아

로그인

뉴 스
커뮤니티
한인업소록
유 학
보스톤정보
- 보스톤정보메인
- 의료
- 교육
- 생활
- 교통
- 관광
- 레저
- 주택
- 기타
지면보기
보스톤여행

뉴 스
뉴스메인 전체기사 핫이슈 미국 뉴잉글랜드 한인 칼럼 교육/유학 사회/문화 비즈니스 연예/스포츠 인터뷰 ENGLISH
포토뉴스 동영상뉴스 칼럼니스트
커뮤니티
커뮤니티메인 부동산/렌트/민박 룸메이트/서블릿 구인 구직 학원/튜터링 알림마당 미국생활Q&A 사고팔고 생활서비스
한인업소록
유 학
보스톤정보
보스톤정보메인 의료 교육 생활 교통 관공 레저 주택 기타
지면보기
보스톤여행

로그인

전체기사

AI 발전 속도 너무 빨라…빅테크들, '성능평가' 서둘러 재설계

사람이 만든 테스트 충분하지 않은 시기로 진입

?????? 2024-11-10, 22:11:22

인공지능(AI) 관련 이미지

(서울=연합뉴스) 차병섭 기자 = 인공지능(AI) 기술이 급속히 발전하면서 미국 기술 기업들이 AI 모델을 테스트·평가하는 방식을 서둘러 재설계하고 있다.

9일(현지시간) 파이낸셜타임스(FT)에 따르면 기업들은 '벤치마크'로 불리는 테스트를 통해 AI 모델의 능력을 평가하는데, 최근 기존 테스트로 신모델을 평가할 경우 정확도가 90%대로 지나치게 높아 새로운 테스트의 필요성이 부각되고 있다.

메타플랫폼(페이스북 모회사) 관계자는 "업계의 발전 속도가 극히 빠르다"면서 "측정 능력이 포화하기 시작했으며 (AI 신모델을) 평가하기가 점점 어려워지고 있다"고 말했다.

일례로 오픈AI·마이크로소프트·메타·앤스로픽 등은 최근 인간을 대신해 자동으로 업무를 수행할 수 있는 'AI 에이전트' 구축 계획을 발표한 바 있는데, 이를 위해서는 평가가 필요한 상황이다.

이에 따라 기술기업 다수는 자체적인 벤치마크를 만들고 있는데, 업계 일각에서는 공개적인 테스트가 없는 만큼 기술을 어떻게 비교할 수 있을지에 대한 우려를 내놓고 있다.

오픈AI 관계자는 "사람이 만든 테스트 다수가 더는 AI 모델 능력의 바로미터로 충분하지 않은 시기로 들어서고 있다"고 평가했다.

현재 공개된 벤치마크들은 다지선다형 질문을 통해 다양한 주제에 대한 지식을 평가하는데, 이제 이러한 방식은 불필요하며 더 복잡한 테스트가 필요하다는 것이다.

이러한 흐름 하에 기존 벤치마크 중 하나인 'SWE-bench Verified'는 지난 8월 오픈AI 등의 의견을 수렴해 업데이트를 진행했으며, 개발자 플랫폼 '깃허브' 등에서 가져온 실제 문제를 테스트에 이용하고 있다.

오픈AI의 최신 AI 모델인 GPT-4o은 이 테스트 결과 41.4%의 문제를 풀었고, 앤스로픽 '클로드 3.5 소넷'은 49%를 해결했다.

한 스타트업은 다양한 전문가들로부터 추상적 추론이 필요한 복잡한 질문을 클라우드 소스 형태로 모은 '인류 최후의 시험' 프로젝트를 지난 9월 발표하기도 했다.

다만 AI 모델 평가에 대한 명시적 합의가 없는 만큼 기업들이 경쟁사 모델을 평가하거나 사용자들이 이해하기 어려울 수 있다는 전문가 우려도 나온다.

AI 세이프티의 댄 헨드릭스는 "테스트가 공개되지 않으면 재계나 사회 전반에서 (비교에 대해) 말하기 어렵다"고 말했다.

[email protected]

의견목록 [의견수 : 0]


등록된 의견이 없습니다.

이메일

비밀번호

뉴욕증시 3대 지수 사상 최고치 마감…거침없는 '트럼프 랠리'	2024.11.11
(멕시코시티=연합뉴스) 이재림 특파원 = 미국 뉴욕 증시는 11일(현지시간) 도널드 트럼프 전 대통령의 대선 승리 이후 랠리를 계속 이어가 3대 주요지수가 모두..

트럼프가 해고하면…"파월 연준 의장, 소송전도 불사할 듯"	2024.11.11
도널드 트럼프 미국 대통령 당선인이 취임 후 제롬 파월 연방준비제도(Fed·연준) 의장을 해고하려 할 경우 파월 의장은 소송을 통해서라도 대응하려 할..

AI 발전 속도 너무 빨라…빅테크들, '성능평가' 서둘러 재설계	2024.11.10
인공지능(AI) 기술이 급속히 발전하면서 미국 기술 기업들이 AI 모델을 테스트·평가하는 방식을 서둘러 재설계하고 있다.9일(현지시간) 파이낸셜타임스..

가상화폐 르네상스 오나…트럼프 효과에 날개 달았다	2024.11.10
도널드 트럼프 전 미국 대통령의 재집권에 이어 미 의회 지형도 가상화폐에 우호적으로 바뀌면서 업계에서는 '가상화폐 르네상스', '가상화폐 황..

독일 자동차산업 휘청…"팬데믹 이후 최악의 판매 부진"	2024.11.10
독일 자동차 업계가 코로나19 팬데믹 이후 최악의 판매 부진으로 독일 경제와 올라프 숄츠 독일 총리에게 타격을 입혔다고 영국 일간 텔레그래프가 8일(현지시간) 보..

프리미엄 광고

많이 본 뉴스
핫이슈

1. 미국 자동차 시장 찬바람…미국인들 이제 가격표에 화들짝

2. 마이애미 헤럴드 "트럼프, 마두로에 '즉각 사임 후 망명하라' 최후통첩"

3. 머스크 "AI시대에 장기적으로 돈 개념 사라질것…에너지가 통화역할"

4. 노이스터 눈비 후 이제는 북극한파…기록적 추위

5. 국토안보장관 "주방위군 총격 용의자, 美 건너온 뒤 급진화"

6. 트럼프, 뉴욕 이민판사 8명 해고…"월요일의 대량학살"

1. 피아노 문외한도 눈을 떼지 못하게 한 임윤찬의 보스톤 데뷔연주

2. 노스쇼어몰 한국식품업체 노동법 위반으로 5만여불 범칙금

3. 잘나가던 하버드 출신 월가 애널리스트, 글짓기 교사가 된 사연

4. NIH 기금 감축시 MA주 5억5천만 달러 손실, 한인사회도 타격

5. 대학 학위,가치있나? 투자수익율로 본 가치 논쟁 뜨거워

6. 하버드 한국 학생 및 교수진 36명, 윤석열 대통령 퇴진 공동성명

사고팔고

(뉴튼) 삼성스마트TV 40인치 30불, Dreo 히터..

커피머신 (Keurig) 팔아요 $60, Pickup..

[무빙세일] ~12/14 Pick up at 221 M..

무빙 세일 - Fenway (4인용 table, 책상,..

[네고가능] 88 미디 키보드 + 스탠드

무빙세일합니다_행콕빌리지1

회사소개 광고안내 이용약관 개인정보 보호정책 결제방법안내

161 Harvard Avenue, Suite 4D, Allston, MA 02134
Tel. 617-254-4654 | Fax. 617-254-4210 | Email. [email protected]
Copyright(C) 2006-2018 by BostonKorea.com All Rights Reserved.
Designed and Managed by Loopivot.com