일단 피드백은 여러가지지만 두서 없이 적자
2024-06-24 피드백
- jupyter notebook의 문서 정리
- jupyter notebook은 코드 + 문서를 위한 파일입니다.
- jupyter notebook을 사용한다는 것은 코드의 실행 결과를 포함하여 가독성 있는 파일을 만든다는 것
- README.md와 jupyter notebook을 연결지어 볼 수 있도록 정리가 필요
- markdown의 (header
# ## ###)를 이용하여 전처리를 구분지어 한다면 나중에 확인하기 쉬울것이다.
- jupyter notebook 출력 관리
- vscode에서 full text가 다 보이지 않았겠지만, github에서 jupyter notebook을 열어보면 모든 텍스트가 다 출력되어 있다.
- 이러한 출력이 많아지면 나중에 로딩 시간도 길고 읽기에도 매우 불편하기 때문에
head()또는 슬라이싱을 이용하여 부분만 출력하도록 하는 것을 추천한다.
2024-06-25 피드백
- Jupyter notebook 피드백
- plot을 그릴 때 제목의 중요성에 대해 말한적이 있다.
- 워드 클라우드처럼 단어들만 출력되는 경우, 어떤 내용인지 나중에는 기억하기 쉽지 않다.
- 또한, 평가자 입장에서 보고서및 포트폴리오를 볼 때 한눈에 파악할 수 있는 부분이 시각화인데 이 부분에 대한 설명이 제대로 되지 않는다면, 잘그렸음에도 저평가 받는 일이 생길 수 있으니 습관을 들이자.
- 과제 피드백
- 각 분석 결과에 대한 의미를 적어내는 것이 필요하다.
2024-06-26 피드백
- 그래프 또는 워드 클라우드 같은 시각화 자료를 만들 때
- 제목을 만들어 시각화 자료가 어떤 내용이었는지를 간략히 나타내자
- 평가자 입장에서
- 보고서 및 포트폴리오를 볼 때 한눈에 파악할 수 있는 부분이 시각화인데
- 이부분에 설명이 제대로 되지 않는다면, 잘 그렸음에도 저평가 받는 일이 생길 수 있다.
- 시각화 자료에 제목을 만드는 것을 습관을 들이자
2024-06-27 피드백
- 프로젝트의 결론 짓기에 대한 조언및 피드백
- 결론을 지을 때에는 데이터 분석을 통해 알 수 있었던 점들을 기록해야한다.
- 이를
Insight라고 한다.
- 이를
Insight란- 데이터 분석을 하지 않았다면 몰랐을 데이터 특징을 찾아내는 것
- 예시:
- 호텔 뷔페가 “맛있다”, “비싸다”는 데이터 분석을 하지 않아도 알 수 있는 점
- 하지만 만족도가 낮은 리뷰들이 있었다면 주로 어떤 부분에 불만족이었는지는 데이터를 통해서만 알 수 있음
- 결론을 지을 때에는 데이터 분석을 통해 알 수 있었던 점들을 기록해야한다.
- 워드 클라우드 관련 피드백
- 가격 부정 리뷰 워드 클라우드를 보면 디저트가 가장 크게 그려져 있다.
- 워드 클라우드로만 보면
- 가격에 부정인 사람들은 디저트를 만족했는가? 만족하지 않았는가? 에 의문이 생길 수 있다.
- 예시:
- “가격이 비싼만큼 디저트는 최고였어요” / “비쌌는데 생각보다 디저트가 별로였어요”
- 워드 클라우드로만 보면
- 워드 클라우드 뿐만 아니라 다른 방법이 있는지 더 고민해보는 것을 권유하셨다.
- 가격 부정 리뷰 워드 클라우드를 보면 디저트가 가장 크게 그려져 있다.
2024-06-28 피드백
-
시각화 관련 피드백
- 워드 클라우드 뿐만 아니라 다른 방법이 있는지 더 고민해보라는 뜻은 시각화만은 아니다.
- 시각화는 누구나 단시간에 그 내용을 빠르게 파악할 수 있다는 장점이 있지만, 보이는 것 외의 정보를 알 수 없다는 단점이 있다.
- 예시:
- LLM을 이용하여 긍/부정 판단을 했다면 그 리뷰들은 예시들로 어떤게 있었는지
df.head()로 보여주거나 - 본인이 설정한 3개의 카테고리에서 모두
"-"(중립)이 나온 리뷰들이 있다면 어떤 내용이었다 라는 것
- LLM을 이용하여 긍/부정 판단을 했다면 그 리뷰들은 예시들로 어떤게 있었는지
- 데이터 분석은 수집한 데이터를 요약하는 과정이다.
-
프로젝트의 결론 짓기
- 빈도가 높은 단어의 긍/부정을 한 시도는 괜찮았다
- 하지만, 결과에 대한 느낀점은 어색하다.
- “가격에 부정적인 리뷰에서 가장 많이 나왔던 단어
뷔페에 대한 반응은 긍정적이었다” - 식당 자체가 뷔페였기 때문에 자연스럽게 뷔페가 많이 등장했던게 아닐까 하는 생각이 들게 만든다.
- “가격에 부정적인 리뷰에서 가장 많이 나왔던 단어
- 하지만, 결과에 대한 느낀점은 어색하다.
- 무조건 빈출이 많이 된 것이 의미가 있다고 할 수는 없다.
- 빈도가 많다는 건 흔히 쓰이는 일반적인 단어라는 의미이기도 하다.
- 워드 클라우드를 보고 “어? 이건 예상 외인데? 왜 이런 단어가 리뷰에 있을까?”라는 부분을 보는 것도 좋은 방법중 하나이다.
- 빈도가 높은 단어의 긍/부정을 한 시도는 괜찮았다
-
이번주는 지금까지 분석한 것을 정리하는 시간을 갖는 것을 추천
- 정리 한 후 마지막에 아쉬운 부분, 더 필요할거 같은 부분을 적어 놓는다면 다음번에 더 편하게 시작할 수 있을 것이다.
-
추가 아이디어
- 예시(결론 부분):
- 내가 수집한 데이터 분석 결과를 요약하면 다음과 같다.
- 3개의 카테고리에 대한 긍/부정을 평가한 결과 (표 or 차트) 대부분 긍정의 리뷰를 남긴 것으로 확인되었고,
- 3개의 카테고리에 중립인 리뷰들은 (데이터프레임) 이런 내용을 담고 있었다.
- 나는 소수의 부정적인 의견에 대해 더 상세하게 분석해보고자 했다.
- 그래서 각 카테고리의 부정 리뷰에서 최상위 빈출 단어 3개를 추출해서 그 단어에 대한 긍/부정을 다음과 같이 표현했다. (Pie Chart)
- 이를 종합하면, 더 파크뷰는 대부분 긍정적인 리뷰였지만, 000한 부분에서 부정의 의견이 공통적으로 등장했다.
- 또한, 더 파크뷰는 여러 음식을 제공하는 뷔페임에도 디저트에 만족도가 특히 높은 것으로 나타났다. (디저트 키워드 등장 수)
- 예시(결론 부분):
2024-07-01
- 본인의 관점에 대해서는 포트 폴리오로 내는 것이면 보고서 맨 위에 적는다.
프로젝트 맨 상단에 분석 기간을 작성해두고,
본인 관점에서 어디까지 생각했고, 분석을 해보니 이러한 부분에서 아쉬움이 있었다.
그런데 이건 이렇게 해결할 수 있을 것 같은데 프로젝트 기간으로 인해 여기까지만 했다.
비슷한 상황이 오면 이렇게 반영하면 좋을 것 같다.
연구원님의 프로젝트 피드백 4주차 과제 피드백 노트로 옮김
- 연구원님이 repository로 나와 똑같은 프로젝트를 만드신다.
- 연구원님 프로젝트
중요
- 연구원님이 나에게 피드백해주시고 싶은 부분
- 함수 및 클래스화
- 주석 표현
- 내용 정리
- 난 연구원님이 쓰시는 report.md를 정리하며 피드백할 부분에 대해서 내가 정리를 하겠다.
프로젝트 명
- 제일 먼저 위에 쓰는 것은 내가 만들고자 하는 것의 프로젝트 제목이다.
- 그 다음 줄에는 그 중 내가 집중적으로 볼 데이터들에 대한 소제목 같은 느낌이다.
- 예시:
- 리뷰 분석기(Review Analyzer) 개발 프로젝트
- 프로젝트명: 서울신라호텔 더 파크뷰의 네이버 리뷰 분석
프로젝트 배경
- 프로젝트 배경에는 프로젝트의 이유 또는 이 데이터를 쓰는 이유를 쓰면 될 거 같다.
- 그리고 내가 가지고 올 데이터에 대한 사진등을 덧붙이면 이해하는데 더 쉬울거 같다.
- 예시:
- 캐치테이블, 카카오맵 등 타 사이트에 비해 네이버 리뷰의 수가 많음
- 리뷰 외 추가적인 정보(ex- 방문 목적, n번째 방문 등) 수집이 가능함.
- 사진
프로젝트 목표
- 이 프로젝트를 하며 내가 목표하는 것에 대해 쓴다.
- 어떤 식으로 방향을 나아갈지에 대한 계획도 쓰는 편이 좋아보인다.
- 예시:
- 맛,서비스, 가격 카테고리에 따른 긍/부정을 분석
- 설정한 카테고리 외에 추가적으로 나타나는 특징들이 있는지 분석
- 데이터를 보지 않아도 알 수 있는 호텔 뷔페에 대한 일반적인 반응 외에 알 수 있는 특징들에 대해 분석
- 추후 원하는 URL에 맞게 리뷰를 분석할 수 있도록 기능을 확장할 예정
프로젝트 과정
- 이 프로젝트는 데이터 분석관련이니 데이터 수집, 데이터 탐색, 데이터 전처리, 데이터 분석의 과정을 거친다.
- 데이터 탐색부분은 데이터가 어떤 특징을 가지고 있는지 파악하는 과정 같다.
1. 데이터 수집
- 데이터 수집에는 내가 데이터 수집을 하는 파일에 대한 설명을 붙이고 수집한 데이터 셋에 대해 시각 자료도 넣어두면 한눈에 내가 어떤 식으로 데이터 수집을 했는지 보여줄 수 있을거 같다.