일단 피드백은 여러가지지만 두서 없이 적자

4주차 과제

2024-06-24 피드백

  • jupyter notebook의 문서 정리
    • jupyter notebook은 코드 + 문서를 위한 파일입니다.
    • jupyter notebook을 사용한다는 것은 코드의 실행 결과를 포함하여 가독성 있는 파일을 만든다는 것
    • README.md와 jupyter notebook을 연결지어 볼 수 있도록 정리가 필요
    • markdown의 (header# ## ###)를 이용하여 전처리를 구분지어 한다면 나중에 확인하기 쉬울것이다.
  • jupyter notebook 출력 관리
    • vscode에서 full text가 다 보이지 않았겠지만, github에서 jupyter notebook을 열어보면 모든 텍스트가 다 출력되어 있다.
    • 이러한 출력이 많아지면 나중에 로딩 시간도 길고 읽기에도 매우 불편하기 때문에 head() 또는 슬라이싱을 이용하여 부분만 출력하도록 하는 것을 추천한다.

2024-06-25 피드백

  • Jupyter notebook 피드백
    • plot을 그릴 때 제목의 중요성에 대해 말한적이 있다.
    • 워드 클라우드처럼 단어들만 출력되는 경우, 어떤 내용인지 나중에는 기억하기 쉽지 않다.
    • 또한, 평가자 입장에서 보고서및 포트폴리오를 볼 때 한눈에 파악할 수 있는 부분이 시각화인데 이 부분에 대한 설명이 제대로 되지 않는다면, 잘그렸음에도 저평가 받는 일이 생길 수 있으니 습관을 들이자.
  • 과제 피드백
    • 각 분석 결과에 대한 의미를 적어내는 것이 필요하다.

2024-06-26 피드백

  • 그래프 또는 워드 클라우드 같은 시각화 자료를 만들 때
    • 제목을 만들어 시각화 자료가 어떤 내용이었는지를 간략히 나타내자
    • 평가자 입장에서
      • 보고서 및 포트폴리오를 볼 때 한눈에 파악할 수 있는 부분이 시각화인데
      • 이부분에 설명이 제대로 되지 않는다면, 잘 그렸음에도 저평가 받는 일이 생길 수 있다.
      • 시각화 자료에 제목을 만드는 것을 습관을 들이자

2024-06-27 피드백

  • 프로젝트의 결론 짓기에 대한 조언및 피드백
    • 결론을 지을 때에는 데이터 분석을 통해 알 수 있었던 점들을 기록해야한다.
      • 이를 Insight라고 한다.
    • Insight
      • 데이터 분석을 하지 않았다면 몰랐을 데이터 특징을 찾아내는 것
      • 예시:
        • 호텔 뷔페가 “맛있다”, “비싸다”는 데이터 분석을 하지 않아도 알 수 있는 점
        • 하지만 만족도가 낮은 리뷰들이 있었다면 주로 어떤 부분에 불만족이었는지는 데이터를 통해서만 알 수 있음
  • 워드 클라우드 관련 피드백
    • 가격 부정 리뷰 워드 클라우드를 보면 디저트가 가장 크게 그려져 있다.
      • 워드 클라우드로만 보면
        • 가격에 부정인 사람들은 디저트를 만족했는가? 만족하지 않았는가? 에 의문이 생길 수 있다.
      • 예시:
        • “가격이 비싼만큼 디저트는 최고였어요” / “비쌌는데 생각보다 디저트가 별로였어요”
    • 워드 클라우드 뿐만 아니라 다른 방법이 있는지 더 고민해보는 것을 권유하셨다.

2024-06-28 피드백

  • 시각화 관련 피드백

    • 워드 클라우드 뿐만 아니라 다른 방법이 있는지 더 고민해보라는 뜻은 시각화만은 아니다.
    • 시각화는 누구나 단시간에 그 내용을 빠르게 파악할 수 있다는 장점이 있지만, 보이는 것 외의 정보를 알 수 없다는 단점이 있다.
    • 예시:
      • LLM을 이용하여 긍/부정 판단을 했다면 그 리뷰들은 예시들로 어떤게 있었는지 df.head()로 보여주거나
      • 본인이 설정한 3개의 카테고리에서 모두 "-"(중립)이 나온 리뷰들이 있다면 어떤 내용이었다 라는 것
    • 데이터 분석은 수집한 데이터를 요약하는 과정이다.
  • 프로젝트의 결론 짓기

    • 빈도가 높은 단어의 긍/부정을 한 시도는 괜찮았다
      • 하지만, 결과에 대한 느낀점은 어색하다.
        • “가격에 부정적인 리뷰에서 가장 많이 나왔던 단어 뷔페에 대한 반응은 긍정적이었다”
        • 식당 자체가 뷔페였기 때문에 자연스럽게 뷔페가 많이 등장했던게 아닐까 하는 생각이 들게 만든다.
    • 무조건 빈출이 많이 된 것이 의미가 있다고 할 수는 없다.
      • 빈도가 많다는 건 흔히 쓰이는 일반적인 단어라는 의미이기도 하다.
    • 워드 클라우드를 보고 “어? 이건 예상 외인데? 왜 이런 단어가 리뷰에 있을까?”라는 부분을 보는 것도 좋은 방법중 하나이다.
  • 이번주는 지금까지 분석한 것을 정리하는 시간을 갖는 것을 추천

    • 정리 한 후 마지막에 아쉬운 부분, 더 필요할거 같은 부분을 적어 놓는다면 다음번에 더 편하게 시작할 수 있을 것이다.
  • 추가 아이디어

    • 예시(결론 부분):
      • 내가 수집한 데이터 분석 결과를 요약하면 다음과 같다.
      • 3개의 카테고리에 대한 긍/부정을 평가한 결과 (표 or 차트) 대부분 긍정의 리뷰를 남긴 것으로 확인되었고,
      • 3개의 카테고리에 중립인 리뷰들은 (데이터프레임) 이런 내용을 담고 있었다.
      • 나는 소수의 부정적인 의견에 대해 더 상세하게 분석해보고자 했다.
      • 그래서 각 카테고리의 부정 리뷰에서 최상위 빈출 단어 3개를 추출해서 그 단어에 대한 긍/부정을 다음과 같이 표현했다. (Pie Chart)
      • 이를 종합하면, 더 파크뷰는 대부분 긍정적인 리뷰였지만, 000한 부분에서 부정의 의견이 공통적으로 등장했다.
      • 또한, 더 파크뷰는 여러 음식을 제공하는 뷔페임에도 디저트에 만족도가 특히 높은 것으로 나타났다. (디저트 키워드 등장 수)

2024-07-01

  • 본인의 관점에 대해서는 포트 폴리오로 내는 것이면 보고서 맨 위에 적는다.
프로젝트 맨 상단에 분석 기간을 작성해두고,
본인 관점에서 어디까지 생각했고, 분석을 해보니 이러한 부분에서 아쉬움이 있었다. 
그런데 이건 이렇게 해결할 수 있을 것 같은데 프로젝트 기간으로 인해 여기까지만 했다. 
비슷한 상황이 오면 이렇게 반영하면 좋을 것 같다.

연구원님의 프로젝트 피드백 4주차 과제 피드백 노트로 옮김

중요

  • 연구원님이 나에게 피드백해주시고 싶은 부분
    • 함수 및 클래스화
    • 주석 표현
    • 내용 정리
  • 난 연구원님이 쓰시는 report.md를 정리하며 피드백할 부분에 대해서 내가 정리를 하겠다.

프로젝트 명

  • 제일 먼저 위에 쓰는 것은 내가 만들고자 하는 것의 프로젝트 제목이다.
  • 그 다음 줄에는 그 중 내가 집중적으로 볼 데이터들에 대한 소제목 같은 느낌이다.
  • 예시:

프로젝트 배경

  • 프로젝트 배경에는 프로젝트의 이유 또는 이 데이터를 쓰는 이유를 쓰면 될 거 같다.
  • 그리고 내가 가지고 올 데이터에 대한 사진등을 덧붙이면 이해하는데 더 쉬울거 같다.
  • 예시:
    • 캐치테이블, 카카오맵 등 타 사이트에 비해 네이버 리뷰의 수가 많음
    • 리뷰 외 추가적인 정보(ex- 방문 목적, n번째 방문 등) 수집이 가능함.
    • 사진

프로젝트 목표

  • 이 프로젝트를 하며 내가 목표하는 것에 대해 쓴다.
  • 어떤 식으로 방향을 나아갈지에 대한 계획도 쓰는 편이 좋아보인다.
  • 예시:
    • 맛,서비스, 가격 카테고리에 따른 긍/부정을 분석
    • 설정한 카테고리 외에 추가적으로 나타나는 특징들이 있는지 분석
    • 데이터를 보지 않아도 알 수 있는 호텔 뷔페에 대한 일반적인 반응 외에 알 수 있는 특징들에 대해 분석
    • 추후 원하는 URL에 맞게 리뷰를 분석할 수 있도록 기능을 확장할 예정

프로젝트 과정

  • 이 프로젝트는 데이터 분석관련이니 데이터 수집, 데이터 탐색, 데이터 전처리, 데이터 분석의 과정을 거친다.
  • 데이터 탐색부분은 데이터가 어떤 특징을 가지고 있는지 파악하는 과정 같다.

1. 데이터 수집

  • 데이터 수집에는 내가 데이터 수집을 하는 파일에 대한 설명을 붙이고 수집한 데이터 셋에 대해 시각 자료도 넣어두면 한눈에 내가 어떤 식으로 데이터 수집을 했는지 보여줄 수 있을거 같다.

2. 데이터 탐색

3. 데이터 전처리

4. 데이터 분석

결론