누굴까?

2009/05/27 12:08 분류없음
http://www.cs.utah.edu/~hal/index.html

Hal Daumé III 라는 분인데 꽤 유명한 분인가 봅니다.
Machine learning 분야에서 말입니다.
본사에 오신다고 하는데...
궁금한거 있으면 메일 보내라고 하는데
뭐 아는게 있어야 메일을 보내지말입니다.-ㅁ-

bayesian prediction과 self-learning쪽이 전문인가 본데.
살짝 생소하네요.
얼굴도 잘생겼고 젊습니다. (오옷 -ㅁ-)
불공평하다고 생각합니다.



R언어 추천 책

2009/05/20 00:10 책 (Books)
갑자기 통계에 필이 꽂혀서 밤12시에 고감자군에게 전화해서 추천해달라고 한 책입니다.
일단 감자군이 선택한 책을 선택하면 최소한 손해는 안본다는 거.
묻어가기 모드라고나 할까나요...'ㅡ';;

- R활용통계학
- R을 이용한 통계 프로그래밍 기초

낼름 주문 했습니다.
오면 열공 모드로...
당장 돌입하지는 않겠지만
수집해 두면 언젠가는 보게 되드라는 말이지요.

Data mining tool

2009/05/19 22:34 분류없음
http://www.kdnuggets.com/polls/2008/data-mining-software-tools-used.htm

SPSS 관련 자료를 찾다가 이런걸 발견했습니다.
데이터마이닝 소프트웨어 사용 순위 뭐 그런거 인가봅니다.
RapidMiner나 Weka 정도는 받아서 사용해 보는 것이 좋다는 생각이 듭니다.
사실 Weka는 많이 알려져 있어서 알고 있었지만 RapidMiner는 조금 생소했습니다.

http://twit88.com/blog/2009/03/14/open-source-text-analytics/

위 링크는 Text Mining에 소프트웨어에 대해 설명해 놓은 것이 있습니다.

몇개는 생소한데...
여튼.. 참조자료로 괜찮을 것 같아서 걸어둡니다.

그런데 Matlab이 데이터 마이닝 툴이었던가요? 뭐 뭐든 가능하긴 하겠지만...
(실제로 알아보니 상당히 많은 분들이 Matlab으로 Machine learning과 Data mining을...)

그리고 오늘 알았는데 SPSS 제품군들은 죄다 PASW 어쩌구리로 이름이 바뀌었더군요.
SPSS에서 제품군 이름을 새로 개명하나 봅니다.
그래서 Clementine(오 마이 달링...클레멘타인)도 없더군요.

왜 그랬는지...

Classifier의 training-set 개수가 - 학습용 데이터의 개수가 - feature수에 비해 상대적으로 적을 경우 classifier의 성능이 떨어진다.
바꿔 말하면 feature의 수가 많아질 수록 품질을 확보하기 위해서 필요한 training-set의 개수가 기하급수적으로 늘어나게 되는데
이것을 차원의 저주라고 말한다.
이는 training-set이 충분하지 않을 때는 가능하면 가장 효과적인 feature들을 선택하여 feature의 수를 줄여주는 것이 일반적으로 유리함을 뜻한다.
다른 관점에서 말하면 classifier에서 사용하는 feature의 수가 많거나 classifier가 복잡하게 설계되어 있다면 더 많은 training-set을 마련해야 함을 말하는데 현실적으로 이는 많은 비용문제를 야기시키게 되고 feature의 개수를 줄이는 것은 training-set의 부족함으로 인해 차원의 저주를 피할 수는 있지만 feature의 수가 적음으로 인해서 충분한 판별능력을 가지지 못하여 classifier의 성능 저하를  발생시킬 수도 있다.

적절한 feature를 선택하는 것, 잘 선택하는 것은 대부분 이 계통의 공부가 깊으신 분들이 공통적으로 하는 말씀들이다.
경험상 대부분의 심각한 성능 문제는 feature와 관계되어 있는 경우가 많았다.
복잡한 알고리즘, 멋진 알고리즘 보다는 적절하고 다양한 알고리즘을 선택해서 비교해 보고
복잡한 feature, 대량의 feature보다는 적절한 feature를 선택해야 한다.
쉬우면서도 매우 어려운 문제이고 언제나 잘 안된다.

feature를 선택할 때는 언제나 아주 많은 고민을 해야하고 반복된 시행착오를 많이 해 봐야 한다고 생각한다.

내용 추가.
내가 적어 놓고도 뭔 말인지 잘...
일단 feature를 잘 선택하면 반은 먹고 들어간다는 말이고
선택을 잘 못하면 본전도 못 건진다는 개인적인 경험에서 나온 얘기다.
오해 및 태클은 사양.

귀찮아서..적어 놓고 붙여 쓰기

HADOOP_CMDS="cat cp du dus ls mkdir mv put rm rmr get put chmod"

alias h='hadoop'
alias hdfs='hadoop dfs'
alias hfs='hadoop fs'
for HADOOP_CMD in $HADOOP_CMDS; do
    eval "alias h${HADOOP_CMD}='hadoop dfs -${HADOOP_CMD}'"
done

전체 gateway에 한꺼번에 push해서 사용하자.