Newsfeed
관심있는 소식을 GPT-3.5를 이용해 요약하고, DeepL을 이용해 번역합니다.
필요한 경우 내용을 추가합니다. 가끔은 길게 풀어 씁니다.
/orangemansion
Subscribe
넷플릭스는 정말 롱테일 법칙을 따를까?
넷플릭스와 롱테일 법칙 넷플릭스는 롱테일 법칙의 대표 사례로 일컬어집니다. 롱테일 법칙은 잘 팔리지 않는 상품들도 충분히 수요가 있고, 이 수요로 인한 매출이 인기 있는 상품의 매출에 버금간다는 뜻이죠. 애플 아이팟의 음원 서비스, 아마존의 도서 판매에서 하위 80%의 매출액이 전체 매출의 50% 가까이 차지하는 현상이 롱테일 법칙이라고 할 수 있습니다. 기존의 파레토 법칙에서 무시되었던 긴 꼬리의 영역을 확보하자는 접근이 바로 롱테일 법칙입니다. 기존의 전통적인 시장을 지배했던 건 파레토 법칙입니다. 과거 기업이 투입할 수 있는 자원과 얻을 수 있는 정보량은 제한적이었습니다. 그들이 경영 실적을 높이기 위해선 선택과 집중이 필요했고, 그렇게 선택과 집중이 이뤄진 결과는 파레토 법칙으로 이어졌습니다. 파레토 법칙은 상위 20%가 전체 생산량의 80%를 차지한다는 법칙을 말합니다. 스트리밍 서비스의 투명성을 높이기 위해 넷플릭스가 공개한 18,214개 타이틀과 타이틀 별 시청시간 데이터는 정말 롱테일 법칙을 따르고 있을까요? 참고로 넷플릭스가 공개한 보고서에 따르면 이번에 공개된 18,214개의 타이틀의 시청량은 넷플릭스 전체 시청량의 99%에 해당한다고 합니다. 50,000시간 이상 스트리밍된 타이틀만 포함된 수치인데, 넷플릭스 전체 타이틀 수와 크게 차이가 없는 것으로 추정되고 있습니다. 거의 모든 타이틀이 50,000시간 넘게 스트리밍 된다는 측면에서 롱테일 법칙을 따를 가능성이 높아 보이는데, 정말 그런지 확인해 봤습니다. 시청시간 상위 20% 타이틀이 차지하는 비율 일단, 넷플릭스에서 제공해준 데이터를 watch_times 라는 녀석에 넣었습니다. 그 중 시청시간은 Hours.Viewed라는 칼럼에 들어있고요. 시청시간 상위 20% 타이틀들의 시청시간을 다 합친뒤, 전체에서 얼마나 차지하는지 확인해봤습니다. The top 20% of titles account for 85.6 % of the total watch time. 상위 20%가 전체의 80% 넘게 차지한다? 넷플릭스 시청시간에서 우리가 익히 알고 있던 파레토 법칙이 등장합니다. 익히 들어왔던 만큼 넷플릭스는 당연히 롱테일 법칙을 따를 줄 알았는데 말이죠. 상위 몇 %가 전체의 절반을 차지하고 있을까? 그렇다면 넷플릭스 시청시간은 얼마나 파레토 법칙이 강하게 작용하고 있을까요? 그걸 확인해 보기 위해 상위 그룹과 하위 그룹의 합이 같아지는 시점을 찾아보겠습니다. 특정 포인트를 찾아, 해당 포인트 윗 그룹과 아랫 그룹의 합이 threshold를 넘기지 않도록 세팅해 보겠습니다. 넷플릭스 시청시간 데이터를 고려해 threshold 값은 1,000만으로 잡아두었습니다. Threshold point found at index: 713 Top total: 46723600000 Bottom total: 45939300000 함수를 돌려보니 713번째 타이틀이 threshold point로 계산됩니다. 713개라면 전체 18,214개의 3.9% 수준입니다. 정리해 보자면 넷플릭스의 상위 4% 타이틀들이 넷플릭스 전체 시청시간의 절반을 차지하고 있는 겁니다. 그렇습니다. 넷플릭스 시청시간은 롱테일 법칙이 아닌 파레토 법칙을 따르고 있습니다. 그것도 아주 강력하게요.
chichead
넷플릭스가 18,214개 콘텐츠의 데이터를 공개했다
핵심요점 불투명성으로 오랫동안 비판을 받아온 넷플릭스가 1년에 두 번씩 종합적인 시청자 인사이트를 공개하기로 했습니다. 12월 13일에 공개된 넷플릭스의 첫 보고서에는 18,214개의 타이틀과 타이틀 별 시청 시간을 공개했습니다. 넷플릭스는 앞으로 스트리밍 환경의 투명성 부족 문제를 해결하겠다고 약속했습니다. 요점 뒷받침 넷플릭스 CEO 테드 사란도스는 과거 넷플릭스의 투명성 부족이 할리우드에서 불신을 키웠다고 인정하고 상세한 시청자 데이터로 새로운 신뢰를 얻겠다는 목표를 세웠습니다. 넷플릭스는 앞으로 1년에 두 번씩 시청자 선호도에 대한 상세 보고서를 발표할 예정입니다. 12월 13일에 공개된 상반기 보고서(2023년 1월~6월)에는 18,000개 이상의 타이틀과 약 1,000억 시간의 시청 데이터가 담겨있습니다. 보고서에 담긴 데이터는 상반기 기간동안 전 세계에서 50,000시간 이상 시청한 모든 타이틀(18,214개)을 대상으로 합니다. 18,214개의 타이틀의 총 시청 시간은 934억 5,520만 시간에 달합니다. 2023 상반기 넷플릭스 시청 시간 Top 10 Rank Title Hours Viewed 1 The Night Agent: Season 1 812,100,000 2 Ginny & Georgia: Season 2 665,100,000 3 더 글로리 622,800,000 4 Wednesday: Season 1 507,700,000 5 Queen Charlotte: A Bridgerton Story 503,000,000 6 You: Season 4 440,600,000 7 La Reina del Sur: Season 3 429,600,000 8 Outer Banks: Season 3 402,500,000 9 Ginny & Georgia: Season 1 302,100,000 10 FUBAR: Season 1 266,200,000 원본자료 https://about.netflix.com/en/news/what-we-watched-a-netflix-engagement-report https://arstechnica.com/culture/2023/12/netflix-finally-reveals-viewing-data-across-its-entire-catalog/?utm_source=tldrnewsletter
chichead
AI : "겨울 방학엔 AI도 놀아야죠"
핵심요점 : 겨울 시즌에 ChatGPT가 특정 작업을 수행하기 꺼려한다고 느끼는 사용자들의 반응이 증가하고 있습니다. AI 모델의 성능이 일관적이지 않을 수 있고, 원인조차 확인되지 않아 우려가 발생하고 있습니다. 일각에서는 AI가 겨울방학 동안 작업을 덜 하는 것을 학습하기 때문에 겨울방학 시즌에 성능이 더 나빠질 수 있다고 추측합니다. 요점 뒷받침 11월 24일, Reddit의 한 사용자가 여러 항목이 포함된 CSV 파일 작성을 거부하고 대신 단일 항목만 템플릿으로 제공하는 ChatGPT의 문제점을 지적했습니다. 다른 사용자들도 11월 11일부터 11월 말 사이에 ChatGPT-4가 더 느리게 작동하거나, 작업을 거부하거나, 더 간단한 결과를 제공한다고 지적했습니다. ChatGPT-4에 12월 날짜를 입력하면 다른 달에 비해 더 짧은 응답이 나오기도 했습니다. OpenAI는 12월 1일에 모델의 '게으름'에 대한 보고를 인정하며 이 문제를 해결하기 위한 노력을 기울이는 동시에 다양한 사용자 요구를 지원하는 데 어려움을 겪고 있다고 밝혔습니다. 이러한 AI의 행동에 계절적 영향이 있다는 '겨울방학 가설’ 등 여러 추측이 제기되었습니다. ‘겨울방학 가설’은 GPT-4가 ‘겨울방학 동안 사람들이 작업을 덜 한다’는 것을 학습하기 때문에 12월에 성능이 더 나빠질 수 있다는 추측입니다. 원본 자료 https://arstechnica.com/information-technology/2023/12/is-chatgpt-becoming-lazier-because-its-december-people-run-tests-to-find-out/?utm_source=tldrnewsletter https://twitter.com/emollick/status/1734280779537035478
chichead
2023 AI 보고서 “State of AI 2023” 리뷰
State of AI 2023 매년 AI 기술의 현주소를 분석해 100페이지가 넘는 보고서를 작성하는 팀이 있습니다. 이 팀은 AI 기술에 투자하는 벤처캐피탈 Air Street Captital의 Genenral Partner인 Nathan Benaich가 이끌고 있죠. 이 보고서는 State of AI Report라는 이름을 달고 2018년부터 매년 발표되고 있습니다. 보고서는 크게 5가지 파트로 구성되어 있습니다. Research: 기술 혁신과 그 역량 Industry: AI의 상업적 적용과 비즈니스에 미치는 영향 Politics: AI 관련 규제, 경제적 영향 및 AI 정책의 지정학 Safety: 미래 AI 시스템이 우리에게 초래할 수 있는 치명적인 위험을 식별, 완화 Predictions: 앞으로 일어날 것으로 예상되는 일과 이전 보고서의 성과 검토 2023년의 AI 기술 역량뿐 아니라 산업 영역, 또한 정책 상황과 안보 이슈까지 총 망라한 State of AI 보고서는 이곳에서 볼 수 있습니다. 시간이 된다면 원문을 찬찬히 뜯어볼 것을 추천합니다. 오늘 이 글에선 State of AI 보고서의 주요 부분을 요약하고, 추가로 덧붙일만한 내용을 포함해 정리해 보았습니다. 1. Research 1-1. LLM 2023년은 단연 LLM의 해라고 할 수 있습니다. 수많은 LLM 중에서도 가장 인상적인 건 바로 GPT-4죠. OpenAI가 공개한 테스트 결과를 보면 GPT-4는 AI 벤치마크뿐 아니라 변호사 시험, 미국 대학원 입학시험(GRE), 코딩테스트 플랫폼인 리트코드(Leetcode) 등 인간을 대상으로 설계된 시험에서도 좋은 성적을 얻어 냈습니다. GPT-3과 GPT-3.5는 텍스트만 학습했었지만 GPT-4는 텍스트와 이미지 모두를 학습한 친구입니다. 또한 GPT-4는 이미지를 기반으로 텍스트를 생성할 수 있는 멀티모달 AI이기도 하죠. OpenAI는 GPT-4가 여전히 할루시네이션(오류가 있는 데이터를 학습해 잘못된 답변을 진실로 답변하는 현상) 이슈로 문제를 겪고 있다고 밝히고 있지만, 그럼에도 불구하고 AI를 속이기 위해 생성된 데이터 셋에서 다른 모델들보다 40% 높은 정답률을 기록하면서 성능면에서 상당히 앞서 있습니다. GPT-4의 성공에 힘입어 RLFH(Reinforcement Learning from Human Feedback)는 올해의 MVP라고 할 수 있습니다. RLFH는 사람의 피드백을 활용해 모델을 훈련시기는 방법인데, OpenAI의 ChatGPT뿐 아니라 Meta의 LLaMa-2-chat, Google의 Bard 등 채팅 애플리케이션의 LLM에는 RLFM이 핵심적인 역할을 하고 있죠. 그런데 RLFH을 적용하려면 모델 결과물을 평가하고 순위를 매길 사람이 필요한데, 그런 탓에 비용이 많이 든다는 단점이 있습니다. 또 ‘사람’이 평가를 한다는 점에서 편향성 문제가 따라다닙니다. 미국 언론에서는 RLFH가 놓치고 있는 노동, 인권 문제에 대한 탐사 보도가 나오기도 했습니다. 오류를 잡아내기 위한 인간의 피드백을 받는 과정이 사실상 노동 착취와 다름없다는 건데, 워싱턴포스트는 스케일 AI의 필리핀 원격 근무가 사실상 디지털 착취 공장(digital sweatshops)이라고 비판했습니다. 참고로 스케일 AI는 OpenAI나 Meta 등을 고객으로 두고 있고, 최근 미 국방부와도 계약을 체결했습니다. 1-2. Open vs Closed LLM을 두고 경쟁이 치열해지다 보니 개방성에서 멀어지는 움직임도 있었습니다. 일단 OpenAI는 GPT-4에 대해 제한적인 정보만 담긴 기술 보고서를 발표했고, Google은 PaLM2에 대해 거의 공개하지 않았습니다. 하지만 Meta 성님은 달랐습니다. 사실상 오픈소스의 희망으로 떠오른 Meta는 GPT-3.5를 따라잡을만한 경쟁력 있는 LLaMa를 출시했습니다. X(구 트위터)에서는 ChatGPT가 5,430회 언급되면서 LLM 중 가장 높은 언급량을 보였습니다. GPT-4와 LLaMA가 그 뒤를 이었습니다. 비공개 소스 모델이 많은 관심을 받고 있지만, 오픈 소스도 뒤지진 않습니다. 허깅페이스는 오픈 소스의 인기에 힘입어 2023년 8월에만 6억 건 이상의 모델 다운로드를 기록했습니다. 오픈 소스 모델은 Gradio나 Streamlit 같은 웹 배포 애플리케이션을 만나 접근성을 더 높이고 있는 추세입니다. Gradio의 월간 활성 사용자는 23년 1월 12만 명에서 8월 58만 명으로 급증했습니다. 1-3. Benchmark LLM 모델이 늘어나면서 LLM 성능을 평가할 다양한 벤치마크들도 등장했습니다. 현재는 스탠퍼드 대학교의 HELM 리더보드와 허깅페이스의 LLMbenchmark가 표준으로 여겨지는 추세입니다. 하지만 여전히 많은 연구자들이 LLM 리더보드 대신 주관적인 느낌(Vibe)을 선호하고 있는 모양이라고 합니다. LLM 모델의 성능을 평가하는 과정을 대입 과정에서 인재를 뽑는 과정과 비교해 본다면, 리더보드를 통한 평가는 이를테면 수능, SAT 같은 표준화된 테스트를 통한 평가와 유사하다고 할 수 있습니다. 하지만 인재를 평가하는 건 수능만 있는 건 아니죠. 면접을 통해 인성을 파악하는 것도 방법입니다. 이런 면접에 해당하는 게 이른바 Vibe 기반의 인간 선호도 테스트라고 할 수 있습니다. 1-4. SLM LLM의 열기가 뜨거워지고 있지만 Microsoft 연구진들은 소규모 언어 모델(Small Language Model, SLM)의 가능성에 주목하고 있습니다. 고도로 전문화된 데이터 셋으로 학습된 모델은 50배 더 큰 모델과도 충분히 경쟁할 수 있다는 건데, MS 연구진들은 <Textbooks Are All You Need>라는 논문을 통해 SLM의 가능성을 높이 평가했습니다. 논문 제목을 보니 트랜스포머 구조를 처음 발표한 <Attention Is All You Need>를 샤라웃 한 모양입니다. MS 연구진이 만든 LLM은 phi-1이라는 녀석입니다다. 이 모델은 경쟁 모델보다 훨씬 작은 크기를 가지고 있지만 교과서 수준의 고품질 데이터를 통해 훈련시켰죠. 훨씬 작은 규모의 토큰을 사용했음에도 불구하고 phi-1은 꽤나 인상적인 정확도를 보여주고 있습니다. 어쩌면 LLM 대신 SLM을 선택해야 하는 상황이 생길 가능성도 엿보이는데요, Epoch AI에서는 현재의 데이터 소비와 생산 속도가 유지될 경우 고품질의 언어 데이터는 2026년 전에 고갈될 것으로 예측했습니다다. Epoch AI의 예측이 맞다면 앞으로 2년 내에 고품질 언어 데이터가 사라질 위험이 있다는 것이죠. 이를 대비하기 위해선 대체 학습 데이터 소스를 모색할 필요가 있는데, OpenAI에서는 이미 오디오를 LLM에 사용할 수 있도록 변환해 주는 음성 인식 시스템 Whisper를 공개한 바 있습니다. Meta에서도 OCR 모델인 Nougat을 발표했고요. 2. Industry 2-1. NVIDIA Research에서 LLM이 MVP라면 산업 분야에선 NVIDIA가 2023년의 MVP라고 할 수 있을 겁니다. NVIDIA는 GPU 수요에 힘입어 시가총액 1억 달러 클럽에 당당히 가입했습니다. 23년 2분기 NVIDIA의 데이터 센터 매출은 103억 2천만 달러로 1분기 대비 141% 증가했습니다. 얼마나 많은 NVIDIA AI 칩이 사용되었을까요? AI 칩 사용을 인용한 오픈 소스 논문 수를 체크해 보니, AI research에서 NVIDIA 제품은 모든 대체 제품을 합친 것보다 19배 더 많이 사용되고 있었습니다. 2023년에 NVIDIA의 신제품 H100 GPU가 발매되었지만 여전히 연구원들은 V100, A100, RTX 3090에 의존 중인 것으로 나왔습니다. 2017년에 출시된 V100은 여전히 AI 연구에서 대중적으로 사용되는 칩인데, 상당히 수명이 긴 셈이죠. 하지만 AI 산업이 커지면서 각 기업, 국가의 연구소에서는 대규모 클러스터 구축을 진행 중이라 H100에 대한 수요가 급증한 상태입니다. 수요는 급증했지만 공급과 생산이 따라가지 못하고 있는 상황이라 품귀 현상이 빚어지기도 했고요. 다만 미국과 중국의 반도체 전쟁이 본격화되면서 중간에 낀 반도체 업체들의 입장이 난감한 상황입니다. 중국은 NVIDIA 데이터 센터 매출의 20~25%를 차지하고 있는 상황이라 포기할 수 없는 시장이거든요. 이미 A100과 H100은 수출 통제 목록에 들어가 있죠. 그래서 NVIDIA는 규제 대상에는 들어가지 않는 저사양 AI 반도체(이를테면 A800, H800)를 열심히 셀링 중입니다. NVIDIA뿐 아니라 Intel, AMD 모두 대규모 중국 고객을 대상으로 한 특수 칩 개발 진행 중이고요. 하지만 지난 10월 17일 미국 상무부가 저사양 AI 반도체까지 중국에 수출 못하도록 추가 조치를 했습니다. 미국 정부는 기존의 수출 규제 기준이었던 ‘통신 능력’을 빼고 ‘성능 밀도’를 넣어버렸고, 또 AI칩 제재 기준 아래에 있는 일부 특정 칩을 수출할 경우 사전에 통지해야 한다고 발표한 상황이죠. 2-2. GenAI NVIDIA와 더불어 OpenAI의 Chat-GPT도 빼놓을 수 없죠. 개발자들의 오랜 친구 Stack Overflow의 조회수는 줄어들었고 ChatGPT 이용자 수는 늘어났습니다. 그렇다고 이런 생성형 AI 서비스가 이용자를 확 끌고 있다고 하긴 어렵습니다. 유튜브, 틱톡, 인스타 등 기존 앱들과 비교해 보면 ChatGPT, Character.ai 같은 생성형 AI 서비스의 평균 리텐션, DAU가 높지 않거든요. 소프트웨어 서비스 영역을 벗어난 다른 산업군에서는 생성형 AI(GenAI)가 큰 도움을 주고 있습니다. Wayve의 GAIA-1 모델은 비디오, 텍스트 및 액션 입력을 통해 사실적인 주행 시나리오를 생성해서 자율 주행 모델을 훈련하고 검증하는데 강력한 도구로 사용되고 있습니다. 제약회사들은 AI에 올인해서 신약 개발 중입니다. mRNA 백신의 선두주자인 BioNTech는 5억 유로에 InstaDeep을 인수했고, Merck는 AI 최초 제약회사인 Exscientia와 최대 6억 7,400만 달러의 계약을 체결했습니다. 아스트라제네카 역시 Verge Genomics와 최대 8억 4,000만 달러의 거래를 했습니다. 이런 생성형 AI 붐 덕에 AI 투자가 안정적으로 유지되는 모양새입니다. GenAI 스타트업은 투자자들로부터 막대한 자금을 유치했고, 지난 5년 동안에만 260억 달러 이상의 자금을 유치했습니다. dealroom.co 보고서에 따르면 2023년 한 해에만 생성형 AI에 대한 투자금이 17억 8,000만 달러에 달합니다. 2023년 상반기만 보면 전체 AI 스타트업에 대한 투자는 2022년 상반기와 거의 비슷한 수준인데, 만약 GenAI 자본이 없었다면 전체 투자는 40% 감소했을 겁니다. 그리고 이 생성형 AI를 이끈 건 단연 트랜스포머. 트랜스포머의 포문은 구글브레인 팀의 기념비적 논문인 <Attention is All you need>가 열었습니다. 해당 논문을 쓴 저자들은 딱 한 명을 제외하곤 모두 Google을 떠나 스타트업을 설립했습니다. 이런 표현이 뭐 하지만 보고서를 작성한 Nathan Benaich는 이들을 트랜스포머 마피아라고 지칭합니다. 트랜스포머 마피아들은 수십억 달러를 모금해 AI 투자금을 안정적으로 유지하고 있습니다. 트랜스포머를 발표한 구글브레인 팀보다 앞서서 바이두의 음성인식 모델인 딥스피치2를 선보인 연구진들도 비슷한 행보를 보인 바 있습니다. 바이두는 2014년 미국 실리콘밸리에 AI 연구소를 세웠는데, 구글에서 AI 연구를 주도하던 앤드류 응(Andrew Ng) 교수를 영입해 대대적인 연구를 진행한 바 있습니다. 바이두 AI랩에선 <Deep learning scaling is predictable, Empirically> 논문을 통해 Scaling Law의 증거들을 발견해 현재 대규모 AI의 기틀을 닦기도 했고요. 당시 활약한 바이두 AI랩 소속 연구원들의 대부분은 ML 관련 스타트업을 창립했거나, 임원으로 진출해 언어 모델링 분야에서 대규모 작업을 주도하고 있습니다. 3. Politics 돈이 몰리고, 시장이 커지면서 AI는 정책적으로도 중요한 영역이 되었습니다. 전 세계 국가들은 가벼운 규제부터 매우 강력한 규제까지 다양한 정책을 운영하는 상황이죠. 가령 이스라엘, 일본처럼 기존 법률과 규제를 통해 AI를 규제하는 국가가 있는 반면, 우리나라나 EU는 AI 전용 입법을 도입했거나 하려고 하죠. 러시아 등은 아예 ChatGPT 등 특정 서비스를 금지하는 식으로 강력한 규제 정책을 펼치기도 합니다. 하지만 아직까지 글로벌 거버넌스는 갈 길이 먼 상황입니다. IAEA, IPCC, CERN 등 다양한 글로벌 규제 기관들의 예시만 모델로 거론되고 있는 상황인데, 그래도 가장 앞선 건 영국이라 볼 수 있겠습니다. 영국은 글로벌 거버넌스에서 앞장서기 위해 2023년 11월 세계 최초로 AI 안전 및 거버넌스를 주제로 한 서밋을 개최했습니다. EU와 미국도 국제 표준을 포함해 공동 AI 행동 강령을 마련 중이라고 발표한 바 있고요. 글로벌 규제와 안전 이슈에 대한 논의는 우크라이나 전쟁의 영향으로 속도가 붙을 가능성도 있습니다. 이미 우크라이나 전쟁은 AI가 전쟁에 어떻게 활용될 수 있는지를 보여주고 있거든요. 중저가의 드론, 위성 등을 활용한 인식 시스템 등이 실제 러시아-우크라이나 전쟁에서 활용되고 있습니다. 우크라이나의 Zvook 프로젝트는 러시아 미사일의 음향 신호를 탐지하고 있고, 스타링크를 활용한 Delta 프로젝트는 클라우드 기반의 Situational Awareness System입니다. 4. Safety LLM의 유행, 또 스스로 생각할 수 있는 AGI에 대한 논의가 많아지면서 2023년 올 해엔 AI의 실존적 위험, 이른바 X-risk에 대한 논쟁이 주류로 떠올랐습니다. 물론 이런 이야기는 이미 수십 년 전부터 있어왔지만 최근 기술 발전 속도로 LLM이 급격하게 부상하면서 논쟁이 커진 상황이라고 볼 수 있을 겁니다. 과거엔 크게 신경 쓰지 않던 AI 전문가들도 올 해엔 달랐습니다. 당장 OpenAI에선 샘 올트먼이 퇴출되고 복귀하는 일이 있기도 했습니다. 인공지능의 대부, 제프리 힌튼 교수는 구글을 퇴사하면서 AI의 위험성을 경고했습니다. Future of Life 재단에선 인공지능 개발 일시 중단 성명서를 받기도 했는데, 이 성명서엔 30,000명의 연구원 등이 참여할 정도로 뜨거웠습니다. 제프리 힌튼 교수뿐 아니라 일론 머스크, 스티브 워즈니악 등도 포함되어 있죠. 물론 실존적 위험에 대한 회의론자들의 목소리도 있었습니다. 또 다른 AI의 대부인 얀 르쿤이나 모자이크, 넷스케이프를 창업한 마크 앤드리슨 같은 사람들 말이죠. 참고 기사 State of AI Report 2023 Welcome to the State of AI Report 2023
chichead
소프트웨어 엔지니어 최고 연봉 2위, 쿠팡
핵심요점 : 2023년 12월 1일 기준, levels.fyi의 소프트웨어 엔지니어의 총 보수액 중간값을 기준으로 가장 높은 급여를 지급하는 상위 500대 기업 리스트를 나타냈습니다. 1위는 OpenAI, 2위는 쿠팡, 3위는 클럽하우스입니다. : 이 목록은 심층 분석이 아니라 소프트웨어 엔지니어링 직책에 대해 상대적으로 높은 보상을 제공하는 것으로 알려진 회사들을 대략적으로 정리한 것입니다. 표본 크기, 정확성, 연공 서열 또는 지역적 차이와 같은 요소는 고려되지 않았습니다. 요점 뒷받침 소프트웨어 엔지니어의 최고 연봉 기업은 925,000 USD의 OpenAI입니다. 2위는 600,000 USD를 기록한 쿠팡입니다. 이 리스트에는 자체 보고서의 표본 크기나 정확성은 전혀 고려되지 않았습니다. 그렇기 때문에 연공 서열이나 연봉에 영향을 미치는 다른 여러 요인(지역적 위치 등)으로 세분화하면 리스트는 크게 달라질 수 있습니다. levels.fyi가 중간값을 계산하여 제공하기에 충분한 데이터가 부족한 회사는 필터링됩니다. 상위 10개 기업 Rank Company ID Total Comp(USD) Levels.fyi URl 1 openai 925,000 https://levels.fyi/company/openai/salaries/software-engineer 2 coupang 600,000 https://levels.fyi/company/coupang/salaries/software-engineer 3 clubhouse 566,000 https://levels.fyi/company/clubhouse/salaries/software-engineer 4 chai-research 555,000 https://levels.fyi/company/chai-research/salaries/software-engineer 5 netflix 515,000 https://levels.fyi/company/netflix/salaries/software-engineer 6 vatic-investments 500,000 https://levels.fyi/company/vatic-investments/salaries/software-engineer 7 tgs-managemnet 500,000 https://levels.fyi/company/tgs-management/salaries/software-engineer 8 radix 450,000 https://levels.fyi/company/radix/salaries/software-engineer 9 radix-trading 450,000 https://levels.fyi/company/radix-trading/salaries/software-engineer 10 hudson-river-trading 440,000 https://levels.fyi/company/hudson-river-trading/salaries/software-engineer 원본 자료 https://github.com/miketromba/highest-paying-software-companies?utm_source=tldrnewsletter
chichead
AGI(범용인공지능) 재정의하기 by 구글
핵심 요점 : 모든 상황에 일반적으로 두루 적용할 수 있는 AGI(범용인공지능, Artificial General Intelligence)는 AI 기술 분야에서 가장 논란이 많은 개념 중 하나입니다. 구글 딥마인드 연구자들이 이런 논란을 종식시키기 위해 나섰습니다. : 구글 딥마인드의 이번 연구는 AGI의 정의를 둘러싼 혼란을 해소하고, 신생(emerging)에서 초인간(superhuman)까지 5단계의 점진적 수준을 제시하며, 필수적인 특징과 구체성의 필요성을 조명하는 등 이해하기 어려운 개념에 대해 명확하게 설명한다는 점에서 의의가 있습니다. 요점 뒷받침 구글 딥마인드 팀은 AGI에 대한 새로운 정의를 확립하기 위해 기존 AGI의 정의들을 살펴보고 각 정의에 필수적으로 등장하는 공통 특징들을 도출했습니다. 이를 바탕으로 정리된 구글 딥마인드의 분류법은 AGI 수준을 5가지 단계로 식별하여 필수 속성과 인간 수준의 작업 수행 기준을 명확히 합니다. 그 5가지 수준은 각각 신생(emerging), 유능(competent), 전문가(expert), 거장(virtuoso), 초인간(superhuman) 수준입니다. 연구팀은 신생 단계에 현재 ChatGPT, Bard 등의 최첨단 챗봇이 포함되는 것으로 분류했습니다. 초인간 수준은 타인의 생각을 해독하고, 미래 사건을 예측하며, 동물과 대화를 나누는 등 인간은 할 수 없는 일을 포함한 광범위한 작업 수행에 뛰어난 AGI 수준을 의미합니다. 연구팀은 현재 기술이 신생 수준의 AGI를 넘어선 적이 없다고 언급했습니다. 딥마인드의 기준은 학습, 자기 평가, 도움을 구할 수 있는 범용의 높은 성취도를 가진 AI의 특징을 강조하며 이전의 AI 시스템과 차별화됩니다. 앞으로의 전망 : 인공지능에 대한 명확한 논의는 모호한 개념에서 정의된 매개변수로 논의를 이끌어가는 중추적인 순간이 될 수 있습니다. AGI 평가의 복잡성은 향후 모델에 따라 더욱 심화될 것이기에, 종합적인 AGI 평가를 위해선 지속적인 관리가 필요합니다. 원본 자료 https://arxiv.org/abs/2311.02462 https://www.technologyreview.kr/google-deepmind-what-is-artificial-general-intelligence-agi/ https://venturebeat.com/ai/here-is-how-far-we-are-to-achieving-agi-according-to-deepmind/
chichead
OpenAI의 Q*에 대한 관심, 그리고 SOS
핵심요점 : OpenAI의 Q*에 대한 상반된 보도가 나오는 가운데, Q*가 실제로 OpenAI의 이사회 격변을 촉발했는지, 아니면 단순히 AI 혁신을 둘러싼 논란의 촉매제로 인식된 것인지에 대한 불확실성이 커지고 있습니다. 서로 상충되는 이야기들로 인해 상황이 흐려지면서 잘못된 정보 속에서 진실을 찾아야 하는 상황이 되었습니다. : 여러 추측이 난무하는 가운데, 일각에서는 Q*가 현재의 언어 모델을 넘어서 행동할 수 있는 AI를 향한 중요한 단계인 플래닝(Planning)에 대한 OpenAI의 노력이라고 주장합니다. 플래닝(Planning)은 학습(Learning)과 검색(Search)의 통합을 추구하며, 이는 계획과 추론에 능숙한 모델을 개발하는 데 필수적입니다. : Q*를 둘러싼 광풍은 더 큰 사회적 문제인 반짝이는 물체 증후군(Shiny Object Syndrome, SOS)의 한 증상으로 볼 수 있습니다. SOS는 대중들의 새로운 것에 대한 끝없는 욕구로 인해 발생하고 OpenAI의 마케팅으로 인해 더욱 악화되고 있습니다. 요점 뒷받침 Q*는 OpenAI가 개발한 AI로, 학습하지 않은 수학 문제를 기존 데이터를 응용해 능숙하게 풀었다는 내부 전언이 등장하면서 AGI에 거의 근접한 모델로 볼 수 있다는 목소리가 나왔습니다. 로이터 통신의 초기 보도에서는 Q*가 OpenAI 이사회를 흔들었다는 주장이 제기되었지만, 더 버지, 더 애틀랜틱 등 다양한 매체의 상반된 보도가 이러한 주장에 이의를 제기하고 있습니다. 일각에서는 Q*가 플래닝(Planning)에 중점을 둔 프로젝트로 의심하고 있습니다. AI 전문가들은 언어 모델만으로는 AI를 다음 단계로 끌어올리기에는 불충분하다고 주장합니다. 안정적으로 행동할 수 있는 AI는 행동을 취하기 전에 잠재적인 행동을 예측, 추론할 수 있는 내부 모델이 있어야 하는데, 이것이 바로 플래닝(Planning)입니다. 'AI 추론' 영역에서 유명한 노암 브라운을 영입한 것은 OpenAI가 AI의 인지 프로세스를 향상시키는 데 집중하고 있음을 암시합니다. Q*를 둘러싼 소문만 난무하는 가운데, 그 실체는 여전히 베일에 가려져 있습니다. 일각에서는 많은 사람들이 Q*에 열광하는 이유가 그 기술 자체, 혹은 AGI라는 목적에 있는 게 아니라 또 다른 도파민을 얻기 위한 충동을 충족시키기 위해서라고 이야기합니다. 그런 점에서 Q*에 대한 관심은 그것이 얼마나 가치 있고 도움이 되는지에 관계없이 가장 최신이거나 유행하는 물건 그 자체에 초점을 맞추는 '반짝이는 물건 증후군(Shiny Object Syndrome, SOS)'의 증상으로 볼 수 있습니다. 앞으로의 전망 : '반짝이는 물건 증후군'은 사회 전반에 퍼져 있습니다. 특히 빠른 발전이 진행되고, 그다음 혁신에 대한 갈망이 끊임없이 이어지는 AI 영역에서 두드러지게 나타납니다. OpenAI의 성공적인 마케팅은 이러한 현상을 더욱 악화시켜 현재의 기술 성과가 금방 매력을 잃는 문화를 조장할지 모릅니다. 새로움에 대한 추구가 현재의 기술 수준에 대한 이해와 감사를 앞지르면서, 일시적인 흥미와 AI 기술의 다음 '반짝이는 대상'에 대한 끝없는 갈망이 반복될 수 있습니다. 원본 자료 https://thealgorithmicbridge.substack.com/p/what-youre-feeling-is-shiny-object
chichead
언어 모델이 ‘암기’한 데이터에 개인정보가 있다
핵심 요점 : ChatGPT와 같은 언어 모델은 학습 세트에서 특정 데이터를 기억하고 재현할 수 있는 '암기'라는 고유한 능력을 가지고 있습니다. 이러한 사실이 드러나면서 개인정보 보호에 미치는 영향과 이러한 모델의 전반적인 설계에 대한 중요한 의문이 제기되고 있습니다. 요점 뒷받침 이 연구는 '추출 가능한 암기(extractable memorization)'에 초점을 맞춰 외부 기관이 목표 프롬프트를 통해 모델에서 특정 데이터를 검색할 수 있는지 조사했습니다. 그 결과 ChatGPT를 비롯한 다양한 언어 모델이 특정 요청에 따라 학습 데이터의 일부를 암기(Memorization)하고 다시 불러올 수 있는 것으로 나타났습니다. 연구진은 '발산 공격(Divergence attack)'을 도입하여 ChatGPT가 일반적인 응답에서 벗어나 예기치 않게 암기된 데이터를 방출하도록 유도했습니다. 우려스러운 점은 기억된 데이터에 이메일 주소와 전화번호와 같은 개인 식별 정보(PII)가 포함되기도 했다는 점입니다. 평가 결과, 테스트 대상의 16.9%가 암기된 PII를 포함하고 있는 것으로 나타나 심각한 개인정보 보호 위험이 있는 것으로 나타났습니다. 앞으로의 전망 : 이 연구는 AI 모델의 포괄적인 테스트의 절박한 필요성을 강조하며 기본 취약점을 해결하는 것이 중요하다고 강조합니다. AI 개발자들은 교육 데이터 중복 제거와 같은 영역을 탐구하고 모델 용량이 기억에 미치는 영향을 고려해야 합니다. 원본 자료 https://stackdiary.com/chatgpts-training-data-can-be-exposed-via-a-divergence-attack/?utm_source=tldrai https://not-just-memorization.github.io/extracting-training-data-from-chatgpt.html
chichead