코드카타
더보기
더보기





문제에서 제시된 대로 mean, std를 사용해서 풀이하면 이상치가 존재해서 제대로 상한선 하한선이 적용되지 않는다.
# mean, std 방식
import pandas as pd
import numpy as np
data = {
'value': [10.0, 10.2, 9.8, 10.1, 9.9, 10.3, 25.0, 10.0, 9.7, 10.2, -5.0, 10.1]
}
df = pd.DataFrame(data)
df_mean = df['value'].mean()
df_std = df['value'].std()
df_UCL = df_mean + 3*df_std
df_LCL = df_mean - 3*df_std
df['static_outlier'] = (df_UCL < df['value']) | (df_LCL >df['value'])
print(df)
결과:

그래서 이상치에 덜 민감한 IQR 방식을 사용하면 다음과 같다.
# IQR 방식
import pandas as pd
import numpy as np
data = {
'value': [10.0, 10.2, 9.8, 10.1, 9.9, 10.3,
25.0, 10.0, 9.7, 10.2, -5.0, 10.1]
}
df = pd.DataFrame(data)
q1 = df['value'].quantile(0.25)
q3 = df['value'].quantile(0.75)
df_iqr = q3-q1
upper_iqr = q3 + 1.5*df_iqr
under_iqr = q1 = 1.5*df_iqr
df['static_outlier'] = (upper_iqr < df['value']) | (under_iqr > df['value'])
print(df)

이상치를 정상적으로 잡아낸다.

오늘은 실전 프로젝트 2일차
여전히 도메인 지식 활용해서 데이터 뜯어보기만 한 것 같다.
해당 논문에서 이 데이터를 활용해서 적합한 분석 기법을 찾아낸다.
A COMPARISON OF PRINCIPAL COMPONENT ANALYSIS, MULTIWAY PRINCIPAL COMPONENT ANALYSIS, TRILINEAR DECOMPOSITION AND PARALLEL FACTOR ANALYSIS FOR FAULT DETECTION IN A SEMICONDUCTOR ETCH PROCESS
더보기
더보기



Endpt A



논문 주요 내용을 가져와봤다.
공정을 2,3,4월에 거쳐 진행했고, 29,31,33으로 라벨링 됐다. 4,5 step이 공정 변화 없이 그대로 진행되기 때문에 OES나 RFM 데이터는 4,5 step이 포함된 데이터라고 봐야한다. 또한 공정을 인위적으로 비틀고 이를 fault name에 적용, 그러나 데이터에는 변화를 주지 않고 공정에 문제가 생긴 것을 가정했다. 그렇게 공정 이상을 분류하도록 만들어졌다..
그니까 결국엔 잘 주물러서,, 시계열 잘 정리하고,, 데이터 잘 뽑아서 전처리하고,, 모델링 하고,, 모르겠다
'QAQC_5기 부트캠프 > 실전 프로젝트' 카테고리의 다른 글
| [내일배움캠프] QA/QC_5기 본캠프(0604) (0) | 2026.06.04 |
|---|---|
| [내일배움캠프] QA/QC_5기 본캠프(0602) (1) | 2026.06.02 |
| [내일배움캠프] QA/QC_5기 본캠프(0601) (0) | 2026.06.01 |
| [내일배움캠프] QA/QC_5기 본캠프(0529) (0) | 2026.05.29 |
| [내일배움캠프] QA/QC_5기 본캠프(0527) (0) | 2026.05.27 |