글 수 83
네 물론 .asm파일을 수정하면 수정한 코드로 다시 어셈블된다는것은 알고 있죠.분명 쓸모가 있는 기술이라고 생각합니다.다만 전적으로 이 기술을 올린 이의 주장처럼 쓸 수 있을것 같지는 않다는 생각입니다.
말씀하신대로 런타임시에 적합한 코드를 직접 생성할수 있다면 속도의 향상을 꽤할수 있을것입니다.이런 방식 자체에 대해선 저도 예전에 생각한적이 있습니다.물론 실력이 딸려서 구현해보질 못했죠.프로그래머로서 아이디어와 코드 자체에 대해선 높게 평가합니다.
제가 의구심을 가지는 부분은...
1.디버깅 문제
2.명확하게 향상된 퍼포먼스를 제공하는가...
이 두 가지입니다.
1.디버깅 문제에 대해서...
이렇게 실시간 어셈블된 코드를 과연 어떻게 디버깅 할 수 있을지..컴파일러의 디버깅 환경을 이용할 수 없다는 것은 매우 치명적입니다.실시간 어셈블러에서 디버거까지 제공한다면 뭐 그렇게 큰 문제가 아니겠지만요.버텍스 쉐이더를 사용할땐 비슷한 방법으로 런타임시에 어셈블하는데 nVidia에서 제공하는 별도의 디버거를 사용하는 것은 vc++에서 브레이크 포인트를 찍어 디버깅하는것보다 꽤 불편합니다.해서 특별히 문제가 생기지 않는 한은 버텍스쉐이더 디버거 안쓰고 그냥 코딩하는데 이게 문제 생길때마다 눈감고 문고리 찾는 기분입니다.반면에 DLL등으로 만들면 vc의 디버거를 이용해서 브레이크 포인트 찍어가며 디버깅을 할수있죠.
2. 퍼포먼스의 향상
예전에 SSE에 한참 빠져있을때 수학함수를 빠르게 만드는데 취미를 붙였던적이 있었습니다.한클럭이라도 줄이기위해 별짓을 다 했는데 속도를 잡아먹는 대부분의 요인이 캐쉬미스라는것을 알았습니다.분기예측이 실패하더라도 추가 소요되는 클럭은 5-7클럭정도인데 반해 캐쉬미스 한방이면 수십 수백 클럭이 날아가더군요.예전에는 벡터 정렬이나 이미지 데이타 클리핑시에도 무분기 치환시키느라 머리를 뽀개곤 했는데 그래봐야 10클럭의 속도 향샹도 없기 때문에 요샌 속편하게 cmp를 사용합니다.어떻게하면 데이타들을 작게 만들고 인접한 메모리 블럭에 모으고, 코드를 작게 짜느냐가 최적화의 관건이라는것이 지금의 생각입니다.
결론적으로 괜찮은 아이디어인데 그 자체만으로는 적용하기엔 약간 무리가 있지 않나싶은게 제 생각입니다.
상세하게 설명해주셔서 감사합니다.자꾸 제가 딴지거는거 같아서 죄송한데 저로선 간만에 꽤 흥미있는 주제였습니다.허접한 게시판에 글 남겨주셔서 감사하구요.계속 이런식의 토론하는 분위기를 만들어갈수 있었으면 좋겠습니다.
그리고 담부턴 실명을 적어주시면 더 감사하겠습니다.
말씀하신대로 런타임시에 적합한 코드를 직접 생성할수 있다면 속도의 향상을 꽤할수 있을것입니다.이런 방식 자체에 대해선 저도 예전에 생각한적이 있습니다.물론 실력이 딸려서 구현해보질 못했죠.프로그래머로서 아이디어와 코드 자체에 대해선 높게 평가합니다.
제가 의구심을 가지는 부분은...
1.디버깅 문제
2.명확하게 향상된 퍼포먼스를 제공하는가...
이 두 가지입니다.
1.디버깅 문제에 대해서...
이렇게 실시간 어셈블된 코드를 과연 어떻게 디버깅 할 수 있을지..컴파일러의 디버깅 환경을 이용할 수 없다는 것은 매우 치명적입니다.실시간 어셈블러에서 디버거까지 제공한다면 뭐 그렇게 큰 문제가 아니겠지만요.버텍스 쉐이더를 사용할땐 비슷한 방법으로 런타임시에 어셈블하는데 nVidia에서 제공하는 별도의 디버거를 사용하는 것은 vc++에서 브레이크 포인트를 찍어 디버깅하는것보다 꽤 불편합니다.해서 특별히 문제가 생기지 않는 한은 버텍스쉐이더 디버거 안쓰고 그냥 코딩하는데 이게 문제 생길때마다 눈감고 문고리 찾는 기분입니다.반면에 DLL등으로 만들면 vc의 디버거를 이용해서 브레이크 포인트 찍어가며 디버깅을 할수있죠.
2. 퍼포먼스의 향상
예전에 SSE에 한참 빠져있을때 수학함수를 빠르게 만드는데 취미를 붙였던적이 있었습니다.한클럭이라도 줄이기위해 별짓을 다 했는데 속도를 잡아먹는 대부분의 요인이 캐쉬미스라는것을 알았습니다.분기예측이 실패하더라도 추가 소요되는 클럭은 5-7클럭정도인데 반해 캐쉬미스 한방이면 수십 수백 클럭이 날아가더군요.예전에는 벡터 정렬이나 이미지 데이타 클리핑시에도 무분기 치환시키느라 머리를 뽀개곤 했는데 그래봐야 10클럭의 속도 향샹도 없기 때문에 요샌 속편하게 cmp를 사용합니다.어떻게하면 데이타들을 작게 만들고 인접한 메모리 블럭에 모으고, 코드를 작게 짜느냐가 최적화의 관건이라는것이 지금의 생각입니다.
결론적으로 괜찮은 아이디어인데 그 자체만으로는 적용하기엔 약간 무리가 있지 않나싶은게 제 생각입니다.
상세하게 설명해주셔서 감사합니다.자꾸 제가 딴지거는거 같아서 죄송한데 저로선 간만에 꽤 흥미있는 주제였습니다.허접한 게시판에 글 남겨주셔서 감사하구요.계속 이런식의 토론하는 분위기를 만들어갈수 있었으면 좋겠습니다.
그리고 담부턴 실명을 적어주시면 더 감사하겠습니다.