Project Diary - 초간단 SIMD(Single Instruction Multiple Data)최적화 성능 테스트

yuchi's Development Home

글 수 201

초간단 SIMD(Single Instruction Multiple Data)최적화 성능 테스트

조회 수 2632 추천 수 0 2014.04.10 23:33:36

여치 *.168.0.1 http://yuchi.duckdns.org/xe/project_diary/66293

충돌처리 엔진 성능을 개선해볼까 하고 테스트를 좀 해봤다.
똑같은 알고리즘을 사용하는 float3 normalize함수를 normal c , SSE Compiler Intrinsic, SSE Assembly Code로 작성해서 100만번 돌린 시간을 비교했다.

일단 짚고 넘어가야할 것은 x64에선 C로만 작성해도 SSE가 무조건 활성화된다. 즉 float연산은 xmm레지스터와 sse명령으로 실행한다. 단 벡터라이즈는 해주지 못한다. addss등 싱글 연산 명령만을 사용한다.

그러니까 엄밀히 따지면
- C로 짠 SSE Single Data Instruction
- Compiler Intrinsic으로 짠 SSE Multiple Data Instruction
- 순수 ASM으로 짠 SSE Multiple Data Instrction
의 비교다.

---------------------------------------------------------------------
[테스트 결과]
---------------------------------------------------------------------
테스트 CPU : 샌디브릿지 i7 @4.2GHz CPU .
---------------------------------------------------------------------
- Normal C SSE Single Data Instruction 26494059 clocks
- Compiler Intrinsic Multiple Data Instruction 67554520 clocks
- pure asm SSE Multipld Data Instruction 48570999 clocks
---------------------------------------------------------------------

보면 C코드로 작성한 SSE Single Data Instruction이 제일 빠르다.
비슷한 경우는 전에도 본적이 있어서 크게 놀라진 않았다. 다만 Compiler intrinsic을 사용한 SSE코드가 제일 느린건 놀랐다.

'SSE Instruction 사용안함'으로 체크하고 32비트 바이너리로 빌드해서 비교해보면 C코드가 가장 느리다. FPU로 연산하는건 SSE보단 확실히 느리다.

거듭 강조하지만 "C로 짠게 제일 빨라요"가 아니다.
이 테스트에서 SSE Single Data Instruction만으로 연산하는게 SSE Multiple Data Instruction으로 연산하는것보다 빨랐다는 것이다.

예전에 N사에서 게임영상 캡쳐해서 실시간으로 h264로 인코딩하는 코드를 짰었는데 그때 rgb-> yuv로 컨버팅 하는 코드를 위와 같이 세가지 버전으로 작성했었다.
그때도 동일한 결과가 나왔었다. SSE Multiple Data Instruction 최대한 이용해서 네 픽셀씩 한꺼번에 처리했는데 결과적으로 C로 짠 SSE Single Data Instruction만 사용하는 코드보다 느렸다. 물론 그때도 FPU만 사용하는 코드가 제일 느렸다.

내가 SSE에 심취해있던 2002 - 2006년까지만해도 분명히 SIMD쓴게 빨랐던걸로 기억하는데. CPU 아키텍쳐가 많이 바뀌어서 그런가?
SSE의 SIMD를 잘 써서 더 빠를 상황이 있긴 할텐데 생각보다 별로네.

하여간 코드레벨 최적화는 일단 보류다.
정말 서버비용 아끼려면 CUDA로 돌려야 할지도.

이 게시물을

perf_normalize.PNG [File Size:8.7KB/Download:37]

엮인글 :: http://yuchi.duckdns.org/xe/project_diary/66293/2fc/trackback

List of Articles

번호	제목	글쓴이	날짜	조회 수
201	제가 필요해서 만든 OneDrivePlayer가 윈스토어에 올라갔네요. [2]	여치	2014-08-23	1253
200	기적같은 디버깅. 컴파일러 버그? 역시나 그럴리가. [3]	여치	2014-05-14	1294
»	초간단 SIMD(Single Instruction Multiple Data)최적화 성능 테스트	여치	2014-04-10	2632
198	진행중인 프로젝트 Visual Studio 2010 -> Visual Studio 2013으로 이전 [2]	여치	2014-04-10	2233
197	Windows Phone 8과 PC간 네트워크 플레이	여치	2013-11-22	1057
196	Windows Phone 8로 게임포팅 중 생긴 난관 - Windows Phone 8 에서 App당 사용 가능한 최대 메모리	여치	2013-11-21	2030
195	윈폰8 포팅 중단.	여치	2013-11-19	604
194	Windows Phone 8로 게임 포팅중 #2	여치	2013-11-18	611
193	Windows Phone에 게임 포팅중.	여치	2013-11-17	556
192	현재까지 느낀 Windows Phone 8용 게임 개발에 있어서의 장애물. [2]	여치	2013-11-07	985
191	Windows Phone 8 디바이스를 몇 일 사용해보고 알게 된 것들.	여치	2013-11-01	513
190	Surface RT에서 유선랜 사용하기	여치	2013-10-26	1234
189	win8 sdk에서 ddraw.lib 위치	여치	2013-09-11	1198
188	TFS에서 Get Latest Version해도 갱신할 파일 없다고 나올 때	여치	2013-08-31	1361
187	dx9 debug 런타임이 활성화 안될 때	여치	2013-08-25	3814
186	인디게임 FEZ 개발자 필 피쉬, 최근 일본 게임에 대한 평가 - 그리고 내 생각 [2]	여치	2013-07-31	2090
185	The database principal owns a schema in the database, and cannot be dropped	여치	2013-05-23	4326
184	Using Windows 8* WinRT API from desktop applications	여치	2013-03-10	9262
183	WinRT 디바이스 디버깅에서 DEP0100 : Deployment failed due to a Developer Licensing issue에러를 만났을때	여치	2013-03-04	13190
182	계속되는 MS의 삽질에 대한 생각. [3]	여치	2013-02-15	11762

쓰기... 목록

첫 페이지 1 2 3 4 5 6 7 8 9 10 끝 페이지

yuchi's Development Home

초간단 SIMD(Single Instruction Multiple Data)최적화 성능 테스트

Development

home

공지사항

Development

Think

자유게시판

발자국 남기기

Photo