haebom
Sign In
해봄의 아카이브
데이터 분석의 작은 차이가 가져오는 큰 결과
Haebom
Nov 1, 2023
2y ago
요즘 LLM 덕분에 데이터 분석을 더 쉽고 재밌게 공부할 수 있게 되었습니다. 이러던 중 스스로도 재현성(reproducibility)에 관한 문제를 알게 되었고 관련해 좋은 글을 찾게 되어 공유 드립니다.
과학 연구에서 재현성이라는 문제는 오랫동안 논의되어 왔습니다. 재현성이란, 같은 실험을 다른 연구자가 반복했을 때 동일한 결과를 얻을 수 있는 능력을 의미합니다.
재현성의 문제점
•
통계적 유의성의 오해: 연구자들은 종종 '통계적 유의성'에만 의존하여 결과를 해석합니다. 이는 복잡한 문제에 대한 단순화된 접근 방법일 뿐입니다.
•
연구 방법의 선택: 연구자의 분석 방법에 따라 결과가 크게 달라질 수 있습니다. 예를 들어, 어떤 연구자는 특정 변수를 고려하지 않을 수 있습니다.
사례
청동색 새의 성장과 형제 간 경쟁
연구 배경
청동색 새의 성장에 영향을 미치는 여러 요인 중 하나로 형제 간의 경쟁이 있습니다.
이 연구는 형제 간 경쟁이 청동색 새의 성장과 생존율에 어떤 영향을 미치는지를 분석하였습니다.
분석 방법
통계적 분석: 연구자들은 다양한 통계적 방법을 사용하여 데이터를 분석하였습니다.
변수의 선택: 연구자들은 부모 새의 나이, 형제의 수, 먹이의 양 등 다양한 변수를 고려했습니다.
결과와 해석
연구자 A는 형제 간 경쟁이 성장에 긍정적인 영향을 미친다고 분석했습니다.
반면, 연구자 B는 이러한 경쟁이 성장에 부정적인 영향을 미친다고 해석했습니다.
이러한 차이는 분석 방법과 선택한 변수에 따라 달라진 것으로 판명되었습니다.
유칼립투스 씨앗의 발아와 잔디의 영향
연구 배경
유칼립투스 씨앗의 발아는 여러 환경 요인에 의해 영향을 받습니다.
이 연구는 잔디의 존재가 유칼립투스 씨앗의 발아에 어떤 영향을 미치는지를 중점적으로 분석하였습니다.
분석 방법
실험 설계: 연구자들은 잔디가 있는 환경과 없는 환경에서 유칼립투스 씨앗의 발아 실험을 진행했습니다.
데이터 수집: 발아율, 성장 속도, 생존율 등 다양한 지표를 수집하였습니다.
결과와 해석
잔디의 존재는 유칼립투스 씨앗의 발아율을 낮추는 것으로 분석되었습니다.
그러나 이 결과는 분석 방법과 실험 조건에 따라 크게 달라질 수 있음이 확인되었습니다.
결과의 해석과 해결 방안
•
평균적인 분석: 모든 분석을 종합하면, 결과는 어느 정도 의미가 있습니다. 그러나 분석 방법에 따라 결과가 크게 달라질 수 있습니다.
•
과학 연구의 불확실성:이러한 다양한 결과는 과학 연구에 내재된 불확실성을 보여줍니다.
따라서, 아래와 같은 방법으로 극복 할 수 있습니다.
•
다양한 분석 방법 적용: 하나의 연구에 여러 가지 분석 방법을 적용하여 결과의 신뢰성을 높일 수 있습니다.
•
분석 의존성의 명시: 연구 논문에는 어떤 분석 방법을 선택했는지, 그리고 그것이 결과에 어떤 영향을 미치는지 명시해야 합니다.
Two questions, hundreds of scientists, no easy answers: how small differences in data analysis make huge differences in results
246 scientists looked at the same data sets and drew very different conclusions.
theconversation.com
Subscribe to 'haebom'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'haebom'!
Subscribe