Bubblow
버블로우(Bubblow)는 'bubble'과 'low'의 합성어로, "버블을 날려버리자!"라는 의미를 담고 있다. 여기에서 'bubble'은 단순한 비눗방울이 아니라, 필터 버블을 지칭한다.
필터 버블이란 인터넷 정보 제공자가 사용자에게 맞춤형 정보를 제공함으로써 사용자가 필터링된 정보만을 접하게 되는 현상을 말한다. 알고리즘이 사용자가 최근에 관심 있어 하는 콘텐츠를 선별해 보여주는 것은 편리하다고 느껴질 수 있으나, 필터 버블에 갇혀버리면 사용자는 특정 주제와 편향된 정보만을 접하게 되며, 이는 위험도를 증가시킨다.
특히 우리 팀은 뉴스에서 나타나는 문제에 집중했다. 최근 미디어 환경에서 퍼져 있는 '가짜뉴스'까지 고려하면 확증편향의 문제가 더욱 심각해진다고 느꼈다. 그래서 가짜뉴스로 가득 찬 알고리즘에 갖힌 필터 버블을 깨는 데 도움을 주는 뉴스 성향 분석과 신뢰도를 제공하는 웹 서비스를 주제로 잡았다.
거의 9월부터 10월까지, 2달 동안 주제를 정하고 어떤 서비스로 구축할지 구체화했다.
주요 기능
우리가 정한 웹서비스의 기능은 크게 3가지 이다.
1. 정치 기사일 경우: 진보, 중도, 보수를 알려준다.
2. 경제 기사일 경우: 긍정, 부정, 중립을 알려준다.
3. 공통 기능: 신뢰도 점수를 알려준다.
"그럼 어떻게 정치 성향을 알고, 감정을 분석하며, 신뢰도 점수를 어떤 기준으로 매기나?"라는 의문이 들 수 있다.
우리 역시 이 서비스를 제공할 때 어떤 기준으로 분석할지 많은 자료를 찾아보았다.
정치 성향 분석 방법
먼저, 정치 기사의 성향 분류를 위해 BERT를 사용하기로 했다. 진보와 보수 언론사들로부터 정치 기사 데이터를 수집하고, BERT 파인튜닝을 통해 기사가 어떤 정치적 성향을 가지고 있는지 분류하는 언어 모델을 사용하기로 결정했다. 처음에는 BERT 모델을 사용하기로 했으나, 현재는 LightGBM으로 모델을 전환했다. 자세한 내용은 개발 회고에서 작성하도록:)
경제 기사 분류 방법
NER 개체명 인식: 뉴스 기사에서 주로 언급된 기업명을 추출한다.
SA 감정 분석: 해당 기업에 대한 감정 분석을 수행한다.
이 두 가지 모델을 활용하여 경제 기사를 분류하는 모델을 구축하기로 했다.
신뢰도 점수 제공
신뢰도 점수는 어떤 기준으로 매길까? 이 질문에 답하기 위해 우리는 먼저 어떤 기사가 좋은 기사인지, 신뢰할 수 있는 기사인지에 대해 파악하는 것이 먼저였다. 저널리즘 전문가들의 조언에 따라, 기사의 출처를 명시하고 조사 과정 및 근거를 분명히 하는 것이 중요하다고 판단했다. 이 과정에서 한국언론기관에서 제공하는 신뢰도 알고리즘을 사용하기로 결정했다.
이번 졸업프로젝트에선'뉴스트러스트위원회'가 개발한 '뉴스 계량평가 알고리즘'을 사용하였으며, 한국언론진흥재단으로부터 자료 사용에 대한 허가를 받았다.
논의된 결과로는 뉴스 신뢰도를 구성하는 저널리즘 가치는 11가지다.
그리고 이 11가지에 대한 알고리즘은 다음과 같다.
최종적으로 가중치를 정해 신뢰도 점수가 나오게 되는 것이다.
아래와 같이 알고리즘 점수, 저널리즘 점수가 나오게 되는데 우리는 10가지의 가치 점수와 총 점수를 신뢰도 점수로 제공하기로 했다.
주제 소개와 기능소개는 여기까지:)
현재 개발 진행상황은
1. 뉴스 링크 넣기 (크롤링 코드 구현 완)
2. 신뢰도 점수 제시 (알고리즘 구현 완)
3. 정치기사 성향 제시 (모델 서버 배포 후 웹 서버와 연결 완)
다음은 개발 회고를 써야지
reference
https://www.kpf.or.kr/front/research/selfDetail.do?seq=591492
https://hong-yp-ml-records.tistory.com/89
https://mz-moonzoo.tistory.com/26
'졸업프로젝트' 카테고리의 다른 글
[졸업프로젝트 회고] 아쉬운점과 개선점 (1) | 2024.07.10 |
---|---|
[MLOps PipLine] model serving 하는 방법 (feat. FastAPI, docker) (3) | 2024.06.29 |
[졸업 프로젝트] FastAPI와 PostgreSQL 연동하기 (feat. GCP로 배포까지) (2) | 2024.05.06 |
[졸업 프로젝트 Bubblow] 네이버뉴스 크롤링 하기 (4) | 2024.04.07 |